Chatbots og dine data

Start dit pilotprojekt med sikkerhed i fokus

Er du klar over de skjulte farer ved brug af generative AI-modeller i din virksomhed? I takt med at teknologier som ChatGPT bliver mere udbredte, stiger risikoen for utilsigtet eksponering af følsomme data. Dyk ned i denne artikel for at forstå de potentielle faldgruber, og få praktiske råd til, hvordan du kan beskytte din virksomheds mest værdifulde information.

Introduktion

Generativ AI, såsom ChatGPT, bliver stadig mere populært, og det har aldrig været nemmere at udvikle integrationer der anvender ChatGPT som en service der udvider funktionaliteten for brugerne. ChatGPT kan bruges til en række opgaver, herunder kundesupport, dokumentgenerering og produktinnovation, men der er også risici forbundet med at sprogmodellerne er så let tilgængelige. En af de største risici er, at følsomme data uforvarende kan blive udsat, hvis man ikke tænker sig om.

I denne artikel vil gennemgå de potentielle risici ved at udvikle prototyper på generative AI-modeller. Vi vil også give nogle tips til, hvordan du kan reducere disse risici.

Risici ved at udvikle prototyper på generative AI-modeller

Når virksomheder tester nye teknologier som ChatGPT, er der potentiel risiko for at udsætte vigtige data. Her er nøgleområderne, hvor dette kan ske:

  1. Databasering: Hvis vi bruger vores forretningsdokumenter som datakilde, kan kritiske oplysninger utilsigtet blive tilgængelige for alle, hvis de ikke er korrekt håndteret, eksempelvis hvis der bruges en ubeskyttet testdatabase til en hurtig prototype.
  2. Dataoverførsel: Overførsel af information mellem systemer kan udgøre en risiko, især hvis det sker uden sikker overvågning. ChatGPT kan desuden producere resultater, der ikke nødvendigvis er præcise, da de ikke har menneskelig dømmekraft, hvilket kan resultere i forvanskning af det input vi gav den.
  3. Dataeksponering: Når vi sender prototype data til vores model, og vi ikke har analyseret kildedata endnu, kan vi nemt komme til at overføre kritiske eller personfølsomme data, hvis de findes i dele af vores dokumentdatabase.
  4. Sikkerhedsprotokoller: Uden passende sikkerhedsforanstaltninger øges risikoen for datatab. Dette tænker vi ofte ikke på når vi prototyper.
  5. Overvågning: Originale databaser kan have overvågning for at se, hvem der har adgang til information. Dette kan gå tabt, når data overføres til en ny database.

Under prototypeudvikling kan sikkerhed undertiden blive overset, da fokus ligger på funktionalitet. Dette kan især være en udfordring, hvis vi bruger vigtige forretningsdokumenter i tests.

I startfasen af projekter får udviklere ofte bred adgang til de nødvendige systemer og data. Dette giver dem mulighed for effektivt at bygge og afprøve nye løsninger. Dog kan denne åbne adgang, som kan inkludere databaser og andre centrale systemer, bære potentielle sikkerhedsrisici. Specifikt kan vigtige data utilsigtet blive vist i demo-miljøer, der endnu ikke har robuste sikkerhedsforanstaltninger som adgangskontrol eller kryptering. Vi skal være opmærksomme på denne risiko og balancere det med ønsket om at lave hurtige prototyper, så vi når et beslutningsgrundlag på en sikker måde.

Når vi anvender avancerede sprogmodeller som ChatGPT, skal vi nøje overveje, hvilken type data der kan kræve særlig beskyttelse:

  1. Kundedata: Selvom generel virksomhedsdokumentation ofte ligger uden for GDPR’s rammer, kan spørgsmål fra kunder indeholde følsomme oplysninger. Dette inkluderer persondata som navne, adresser og e-mails, samt andre sensitive detaljer som betalingsinformation.
  2. Virksomhedsinformation: Mange af vores interne dokumenter har muligvis ikke persondata, men kan indeholde fortrolige oplysninger. Eksempler herpå kan være intern systemdokumentation eller planer for virksomhedens fremtid.
  3. Modeloutput: Svarene, som modellen genererer, kan også være følsomme, især hvis de bygger på sensitive inputdata.

For at sikre disse data skal vi have stærke databeskyttelsesprotokoller på plads. Dette betyder kryptering, solid adgangskontrol og regelmæssige sikkerhedstjek. Ved at få dit team til at skitsere hvordan data vil flyde, kan I hurtigt skaffe jer et overblik over implikationerne.

Figur: Flowdiagram for en prototype på Retrieval-Augmented Generation (RAG) som viser hvordan den sender kundeinput ud i en cloud løsning og hvordan den har hentet en dokumentstore med rettighedsbeskyttelse af indhold ned i en lokal datastore, hvorfra alle data nu i princippet er udstillet til brugere af prototypen.

Tips til at reducere risici

Når du udvikler prototyper med AI, er her nogle vigtige trin for at sikre datasikkerhed:

  1. Testdata: Udvælg dokumenter og data uden følsomme oplysninger til prototypeudvikling. Undlad at bruge hele mapper eller dokumentbiblioteker ukritisk.
  2. Sikkerhedsforanstaltninger: Sørg for at forbindelser er krypterede, at lokale databaser eller servere har adgangskontrol og at demomiljøet et begrænset til godkendte brugere.
  3. Uddannelse: Træn udviklere om de unikke risici ved at arbejde med generative AI-modeller.

Er du eksempelvis ved at implementere en chatfunktion til dokumentation (RAG) kan du overveje:

  1. Dokumentrevision: Gennemse og mærk kritiske dokumenter. Overvej at omstrukturere nogle dele for bedre kompatibilitet med søgefunktioner.
  2. Adgangskontrol: Indfør stærke adgangsbegrænsninger så kun de rette personer kan tilgå værktøjet eller de kun kan få svar fra dokumenter de har adgang til.
  3. Sporing: Oprethold detaljerede sporingslogs for at overvåge dataadgang og ændringer. Dette inkluderer også de forespørgsler, chatfunktionen bruger til at generere svar.
  4. Data anonymisering: Overvej funktioner, der kan anonymisere data, før det sendes til cloud-baserede løsninger som ChatGPT.

Dette er elementer som typisk ikke er dækket af de quick-guides vi finder online, når vi som driftige udviklere går i gang med at søge information til vores prototype. Et eksempel på en guide kan du se her: https://medium.com/badal-io/chat-with-your-confluence-1535e661bd3f

Konklusion

Generative AI-modeller er et kraftfuldt værktøj, der kan bruges til en række opgaver. Men det er vigtigt at være opmærksom på de potentielle risici, der er forbundet med brugen af dem. Ved at tage de nødvendige forholdsregler kan vi reducere risikoen for, at følsomme data bliver eksponeret.

Specifikke anbefalinger til dig som leder:

  • Sørg for, at dine udviklere er klar over de potentielle risici ved at udvikle prototyper der integrerer ChatGPT.
  • Sørg for, at der implementeres sikkerhedsprotokoller der beskytter dataene under overførsel og brug.
  • Overvej at anonymisere data.
  • Arbejd med en sikkerhedsekspert for at få rådgivning om, hvordan du kan beskytte dine data.

Disse anbefalinger kan hjælpe med at reducere risikoen for, at følsomme data bliver udsat, når der udvikles prototyper på generative AI-modeller.


Skal du have hjælp til at komme i gang eller godt i mål med dit AI-projekt?

Så tag fat i os her: