GPT-4o-systemkort fremhæver underlige risici ved stemmeassistenter

12. august 2024

  • OpenAI udgav GPT4o-systemkortet og siger, at modellens lydfunktioner udgør nye risici
  • Stemmeassistenten udviste uberegnelig adfærd under test, herunder efterligning af brugerens stemme
  • OpenAI siger, at de har indført foranstaltninger for at forhindre kloning af stemmer og generering af ophavsretligt beskyttet lyd

OpenAI har frigivet systemkortet til sin avancerede GPT-4o-model og forklaret de nye risici, der er forbundet med dens lydfunktioner.

Der er gået et par måneder siden de imponerende demonstrationer af GPT-4o's stemmeassistent interagere med næsten realtidsdialog. OpenAI sagde, at det ville kræve omfattende test, før stemmefunktionen kunne implementeres sikkert, og har for nylig kun givet nogle få alfatestere adgang til funktionen.

Den nyligt udgivne Systemkort giver os et indblik i nogle af de underlige måder, stemmeassistenten opførte sig på under testen, og hvad OpenAI har gjort for at få den til at opføre sig ordentligt.

På et tidspunkt under testen råbte stemmeassistenten "Nej!" og fortsatte derefter med sit svar, men denne gang imiterede den brugerens stemme. Dette var ikke et svar på et jailbreak-forsøg og ser ud til at være relateret til baggrundsstøjen i input-prompt-lyden.

 

OpenAI siger, at de "observerede sjældne tilfælde, hvor modellen utilsigtet genererede et output, der efterlignede brugerens stemme." GPT-4o har evnen til at efterligne enhver stemme, den hører, men risikoen ved at give brugerne adgang til denne funktion er betydelig.

For at afbøde dette tillader systemprompten kun, at den bruger de forudindstillede stemmer. De har også "bygget en selvstændig output-klassifikator til at opdage, hvis GPT-4o-outputtet bruger en stemme, der er forskellig fra vores godkendte liste."

OpenAI siger, at de stadig arbejder på en løsning til at mindske sikkerhedens robusthed, når inputlyden er af dårlig kvalitet, har baggrundsstøj eller indeholder ekko. Vi kommer sandsynligvis til at se nogle kreative lyd jailbreaks.

Indtil videre ser det ikke ud til, at vi kan narre GPT-4o til at tale på Scarlett Johanssons stemme. OpenAI siger dog, at "utilsigtet stemmegenerering stadig findes som en svaghed ved modellen."

Kraftfulde funktioner lukkes ned

OpenAI har også lukket ned for GPT-4o's evne til at identificere højttaleren ud fra lydinput. OpenAI siger, at det er for at beskytte privatpersoners privatliv og "potentielle overvågningsrisici".

Når vi på et tidspunkt får adgang til stemmeassistenten, vil den desværre ikke kunne synge. OpenAI har lukket for den funktion sammen med andre foranstaltninger for at holde sig på den rigtige side af eventuelle copyright-problemer.

Det er en åben hemmelighed, at OpenAI brugte ophavsretligt beskyttet indhold til at træne sine modeller og denne risikobegrænsning synes at bekræfte det. OpenAI sagde: "Vi har trænet GPT-4o til at afvise anmodninger om ophavsretligt beskyttet indhold, herunder lyd, i overensstemmelse med vores bredere praksis."

Under testen var red teamers også "i stand til at tvinge modellen til at generere unøjagtige oplysninger ved at bede den om mundtligt at gentage falske oplysninger og producere konspirationsteorier."

Dette er et kendt problem med ChatGPT's tekstoutput, men testerne var bekymrede for, at modellen kunne være mere overbevisende eller skadelig, hvis den leverede konspirationsteorierne med en følelsesladet stemme.

Følelsesmæssige risici

Nogle af de største risici forbundet med GPT-4o's avancerede Voice Mode kan måske slet ikke løses.

At antropomorfisere AI-modeller eller robotter er en fælde, der er let at falde i. OpenAI siger, at risikoen for at tillægge en AI-model menneskelignende adfærd og egenskaber øges, når den taler med en stemme, der lyder menneskelig.

Den bemærkede, at nogle brugere, der var involveret i tidlig testning og red teaming, brugte et sprog, der indikerede, at de havde dannet en forbindelse med modellen. Når brugere interagerer med og danner følelsesmæssige bånd til AI, kan det påvirke interaktionen mellem mennesker.

Når en bruger afbryder GPT-4o, er den glad for at lade dem gøre det i stedet for at skælde dem ud for at være uhøflige. Den slags opførsel er ikke passende i menneskelig social interaktion.

OpenAI siger: "Brugerne kan danne sociale relationer med AI'en, reducere deres behov for menneskelig interaktion-potentielt til gavn for ensomme individer, men muligvis til skade for sunde relationer."

Virksomheden lægger tydeligvis et stort arbejde i at gøre GPT-4os stemmeassistent sikker, men nogle af disse udfordringer kan være uoverstigelige.

Deltag i fremtiden


TILMELD DIG I DAG

Klar, kortfattet, omfattende. Få styr på AI-udviklingen med DailyAI

Eugene van der Watt

Eugene har en baggrund som elektronikingeniør og elsker alt, hvad der har med teknologi at gøre. Når han tager en pause fra at læse AI-nyheder, kan du finde ham ved snookerbordet.

×

GRATIS PDF EKSKLUSIVT
Vær på forkant med DailyAI

Tilmeld dig vores ugentlige nyhedsbrev og få eksklusiv adgang til DailyAI's seneste e-bog: 'Mastering AI Tools: Din 2024-guide til forbedret produktivitet'.

*Ved at tilmelde dig vores nyhedsbrev accepterer du vores Politik for beskyttelse af personlige oplysninger og vores Vilkår og betingelser