OpenAI sier at de har utviklet en vannmerkemetode som nøyaktig oppdager tekst skrevet av ChatGPT, men at de fortsatt diskuterer om de skal lansere den eller ikke.
Å oppdage AI-genererte tekster har blitt stadig vanskeligere etter hvert som LLM-ene blir flinkere til å skrive innhold. Det er vanskelig for lærerne å avgjøre om studentene har skrevet oppgavene selv eller om de bare har fått ChatGPT til å skrive dem.
I en oppdatert blogginnleggavslørte OpenAI at de har "utviklet en metode for vannmerking av tekst som vi fortsetter å vurdere mens vi forsker på alternativer".
Selskapet sier at metoden er svært nøyaktig og motstandsdyktig mot lokal manipulering som parafrasering. De innrømmer imidlertid at den ikke er idiotsikker. Ved å kjøre teksten gjennom et oversettelsessystem eller bruke en annen LLM til å omformulere teksten, omgår man vannmerkets effektivitet.
Hvis du bruker en AI-modell til å sette inn et spesialtegn, for eksempel en emoji, mellom hvert ord og deretter sletter tegnet, blir også vannmerket ubrukelig. Disse tekniske begrensningene er imidlertid ikke den eneste grunnen til at de ikke har lansert funksjonen.
ChatGPT har vært et spesielt nyttig skriveverktøy for personer som ikke har engelsk som morsmål. OpenAI sier at forskningen deres viser at frigjøring av vannmerkeverktøyet kan ha en uforholdsmessig stor innvirkning på grupper som disse og stigmatisere deres bruk av AI som et nyttig skriveverktøy.
Alternativer for tekstmetadata
OpenAIs ingeniører jobber med å finne måter å bruke metadata som en metode for tekstproveniens i stedet for vannmerking. Bilder generert av DALL-E 3 har allerede C2PA metadata.
OpenAI sier at det er for tidlig å si hvor effektivt det vil være å legge til metadata i AI-genererte tekster, men det har noen potensielle fordeler. For det første er metadata kryptografisk signert, så det er ingen risiko for falske positiver.
Problemet med å bruke metadata er at de lett kan fjernes. OpenAI har ikke forklart hvordan metadata skal brukes på tekst, men det er ekstremt enkelt å fjerne C2PA-metadata fra AI-genererte bilder.
Noen sosiale medieplattformer fjerner metadata når bilder lastes opp, og ved å ta et skjermbilde av bildet omgår man C2PA. Vil lignende løsninger være effektive med AI-genererte tekster med metadata?
Hvis ChatGPT genererte tekst og la til metadata til den, kunne du ta et skjermbilde av teksten, laste det opp til ChatGPT og få det til å konvertere bildet til tekst. Farvel metadata.
Dårlig for virksomheten
Den andre grunnen til at OpenAI kanskje nøler med å lansere verktøyet, er at det bare oppdager tekst som er generert av ChatGPT. Hvis brukerne vet at det AI-genererte innholdet deres lett vil bli oppdaget, vil de raskt gå fra ChatGPT til en annen plattform.
Wall Street Journal rapportert at OpenAIs verktøy har vært klart for utgivelse i et år og var 99% effektivt. Rapporten sa: "I forsøket på å bestemme hva de skal gjøre, har OpenAI-ansatte vaklet mellom oppstartsbedriftens uttalte forpliktelse til åpenhet og deres ønske om å tiltrekke seg og beholde brukere."
En global undersøkelse bestilt av OpenAI viste at ideen om et AI-deteksjonsverktøy ble støttet med en margin på 4 mot 1. En intern undersøkelse viste imidlertid at nesten en tredjedel av ChatGPT-brukerne ville bli avskrekket av en AI-tekstdetektor.
Brukerne vil at AI-generert innhold skal være lett å få øye på, så lenge det ikke er innhold de selv har generert.