Syntetiske data: En potentiel bombe under internettet
Bullshit AI. Habsburg AI. AI kogalskab. Fænomenet har mange øgenavne, men de dækker alle over en bekymring for, at forvrøvlet og indavlet AI er ved at overtage internettet. Menneskeskabt data kan snart være en luksus, og kildekritik er vigtigere end nogensinde, siger forsker.
Scrolle, scrolle, scrolle. Iih, se! En sød video af en gorilla i zoo, der redder et tabt spædbarn og giver det tilbage til barnets mor. Scrolle, scrolle, scrolle. Nå, nu kommer en tiger, der redder et spædbarn … måske lige urealistisk nok, og den video er jo nok fake, men cute nok alligevel.
Fem år senere: en skoleelev skal lave en opgave om altruisme i dyreriget. Hun googler og Internettets AI-genererede svar fortæller hende, at der findes masser af altruistiske dyr og henviser til videoer. Eleven tænker ikke over, at der ikke er tale om ægte videooptagelser og da slet ikke rigtige dyr. Hun har fået fat i syntetiske data – altså AI-genererede data, som er bygget af sine egne forgængeres selvopfundne data og nu formerer sig i mere og mere indavlede, bizarre og outrerede AI-kreationer.
- Der findes allerede utroligt mange syntetiske data, og dem bruger AI til at generere nye data. Som internetforbrugere får vi dermed mere og mere information, som ikke er skabt af mennesker, og som ikke engang bygger på data, som er skabt af mennesker. Vi risikerer, at det i første omgang ender med en masse vås, som vi i nogle tilfælde kan gennemskue, andre gange kan vi ikke. I yderste konsekvens, altså hvis vi mister evnen til at skelne, vil fremtidens AI modeller, der er trænet på data fra internettet, ikke være nær så gode, som de modeller, vi kan lave lige nu. Så vil internettet miste meget af det, der engang gjorde det nyttigt, siger Anton Danholt Lautrup, der er postdoc på Institut for Matematik og Datalogi og forsker i bl.a. syntetiske data.
Data om fiktive patienter
Ideen med syntetiske data kan nu ellers være rigtig god, men lad os først se på, hvad de er: Syntetiske data defineres ved at være data, som er skabt af en generativ AI model og som skal efterligne rigtige data, som er indsamlet ude i virkeligheden, f.eks. fra patienter.
- Man kan kalde dem realistiske data om fiktive personer, foreslår Anton Danholt Lautrup.
Syntetiske data kan godt bygge på hele eller delvise sæt af rigtige patientdata, men de bliver så renset for personhenførbare oplysninger, og dernæst bearbejdes de af en algoritme, så der dannes nye datasæt. Disse nye datasat er nu teknisk set syntetiske og indeholder ikke længere oplysninger om identificerbare personer.
3 gode råd
- Vær varsom med de AI-genererede svar, der kommer på din google-søgning. De svar kommer fra en stokastisk papegøje, og du kan ikke være sikker på, at den papegøje er trænet på menneskeskabte data.
- Vær kildekritisk. Hvis noget data – et billede, en video eller et stykke tekst – virker lidt for spændende eller usædvanligt til at være sandt, så undersøg, om det kan spores tilbage til en troværdig kilde.
- Tænk. før du auto-completer. Copilot og andre AI tekstværktøjer i dit skriveprogram kan glemme sproglige og vigtige faglige nuancer.
Brug af syntetiske data kan lette bureaukratiet, hvis man f.eks. som sundhedsforsker gerne vil samarbejde med en tredjepart eller udgive sine data sammen med et forskningsresultat. Og så kan de hurtigt give noget volumen:
- Forestil dig, at du har data på 7.000 patienter, som du renser og skalerer op til 50.000 syntetiske patienter. Det giver nogle helt anderledes store datasæt, som kan gøre gavn i forskningen, og det kan jo være godt, siger Anton Danholt Lautrup.
Men så er der lige noget med diversiteten, der risikerer at sive ud af de syntetiske datasæt:
- Mange af de AI modeller man bruger, har tendens til - hvis man ikke passer på - at udviske diversitet i processen, siger han.
Fare for modelkollaps
På sin vis giver det mening, at en ”dum” computer hellere vil lave sine syntetiske eksempler tæt på gennemsnitsværdierne end langt væk fra gennemsnitsværdierne, og sandsynligheden for at lave noget, der er realistisk, er større på den måde.
- Men i praksis vil man jo gerne have, at ens datasæt skal være repræsentativt for en hel population med den diversitet, der nu måtte findes i den, så det er en af de mekanismer, man skal man være opmærksom på, siger Anton Danholt Lautrup.
Om de syntetiske data skal bruges til at forske i folkesygdomme eller skabe videoer af gorillaer, tigre eller flodheste, der redder spædbørn i zoologiske haver, lurer risikoen for et regulært modelkollaps.
Et lukket, hallucinerende univers
- Modelkollaps skal forstås sådan, at modeller, der er trænet på andre syntetiske kildedata gennem flere generationer, mister deres nyttevirkning - og måske undervejs forsager en masse uønskede, endog skadelige sideeffekter. Sprogmodellerne ved ikke, at flodheste ikke samler spædbørn op og bærer dem hen til et menneske - de kan ikke skelne mellem rigtigt og forkert. Og når så, at indhold på internettet gradvist skrives mere af AI, kan disse misforståelser samt udviskning af nuancer hurtigt indtræde i vores post-faktuelle virkelighedsopfattelse, mener Anton Danholt Lautrup.
Når sprogmodellerne løber løbsk i deres eget, lukkede, hallucinerende univers, begynder kritikere at tale om AI Habsburg eller AI kogalskab. Når der skabes indhold, som vi let kan affærdige som urealistisk og falskt, er faren for misinformation til at overse.
Men når de skaber billeder og indhold, som vi ikke lige umiddelbart kan se, er skabt af syntetiske data og ikke er ægte, kommer vi til at leve i en verden, hvor vi ikke kan stole på den information, som internettet giver os.
Ph.d. afhandling om syntetiske data
I den ph.d.-afhandling, som Anton Danholt Lautrup netop har færdiggjort, har han især kigget på de positive aspekter af syntetiske data, især til forskning, men han konkluderer også, at kunstige data også kan udgøre en trussel for samfundet.
I sin afhandling skriver han således bl.a.: ”De positive konsekvenser er f.eks. øget datasamarbejde og databerigelse, men de bør ikke ses i isolation fra de potentielle risici ved misbrug. De risici er f.eks. øget algoritmisk bias, dataforurening, og miljøpåvirkningen – altså at det koster en hel del energi at lave og lagre syntetiske data.”
- I takt med at generativ AI fortsætter med at forbløffe os og udvisker linjerne mellem det autentiske og det kunstige, er spørgsmålet ikke længere hvad det kan, men hvad vi vælger at bruge det til, siger han.
Ph.d.-afhandlingen hedder "Generation and Evaluation of Realistic Tabular Synthetic Data", og her er der mere information om den.
Mød forskeren
Anton Danholt Lautrup har skrevet en Ph.d. om syntetiske data: "Generation and Evaluation of Realistic Tabular Synthetic Data". Han forsker nu som postdoc på Institut for Matematik og Datalogi.