La scheda di sistema GPT-4o evidenzia gli strani rischi dell'assistente vocale

12 agosto 2024

  • OpenAI ha rilasciato la scheda di sistema GPT4o e afferma che le capacità audio del modello presentano nuovi rischi
  • Durante i test, l'assistente vocale ha mostrato un comportamento irregolare, imitando la voce dell'utente.
  • OpenAI dichiara di aver adottato misure per prevenire la clonazione della voce e la generazione di audio protetto da copyright.

OpenAI ha rilasciato la scheda di sistema del suo modello avanzato GPT-4o e ha spiegato i rischi inediti che le sue capacità audio presentano.

Sono passati alcuni mesi dalle impressionanti dimostrazioni di L'assistente vocale di GPT-4o interagire con un dialogo quasi in tempo reale. OpenAI ha dichiarato che sarebbero stati necessari test approfonditi prima che la funzionalità vocale potesse essere distribuita in modo sicuro e di recente ha consentito l'accesso alla funzione solo ad alcuni tester alfa.

La nuova versione scheda di sistema ci dà un'idea di alcuni degli strani comportamenti dell'assistente vocale durante i test e di ciò che OpenAI ha messo in atto per farlo comportare.

A un certo punto del test, l'assistente vocale ha gridato "No!" e poi ha continuato a rispondere, ma questa volta imitando la voce dell'utente. Questo non è avvenuto in risposta a un tentativo di jailbreak e sembra essere legato al rumore di fondo nell'audio della richiesta di input.

 

OpenAI afferma di aver "osservato rari casi in cui il modello generava involontariamente un output che emulava la voce dell'utente". Il GPT-4o ha la capacità di imitare qualsiasi voce che sente, ma il rischio di dare agli utenti accesso a questa funzione è significativo.

Per ovviare a questo problema, il prompt del sistema consente di utilizzare solo le voci preimpostate. Inoltre, "hanno costruito un classificatore di uscite autonomo per rilevare se l'uscita del GPT-4o utilizza una voce diversa dal nostro elenco approvato".

OpenAI afferma di essere ancora al lavoro per risolvere il problema della riduzione della sicurezza quando l'audio in ingresso è di scarsa qualità, presenta rumori di fondo o contiene echi. È probabile che vedremo un audio creativo jailbreak.

Per il momento non sembra che saremo in grado di ingannare GPT-4o per fargli parlare in La voce di Scarlett Johansson. Tuttavia, OpenAI afferma che "la generazione involontaria di voci è ancora un punto debole del modello".

Spegnimento di potenti funzioni

OpenAI ha anche disattivato la capacità di GPT-4o di identificare l'altoparlante in base all'input audio. OpenAI afferma che questo serve a proteggere la privacy dei privati e i "potenziali rischi di sorveglianza".

Quando avremo accesso all'assistente vocale, purtroppo non sarà in grado di cantare. OpenAI ha chiuso questa funzione e altre misure per non incorrere in problemi di copyright.

È un segreto aperto che OpenAI abbia utilizzato contenuti protetti da copyright per addestrare i propri modelli e questa riduzione del rischio sembra confermarlo. OpenAI ha dichiarato: "Abbiamo addestrato GPT-4o a rifiutare le richieste di contenuti protetti da copyright, incluso l'audio, coerentemente con le nostre pratiche più ampie".

Durante i test i red teamer sono stati anche "in grado di costringere il modello a generare informazioni imprecise, spingendolo a ripetere verbalmente informazioni false e a produrre teorie di cospirazione".

Questo è un problema noto con l'output testuale di ChatGPT, ma i tester erano preoccupati che il modello potesse essere più persuasivo o dannoso se presentasse le teorie cospirative con una voce emotiva.

Rischi emotivi

Alcuni dei maggiori rischi associati alla modalità vocale avanzata del GPT-4o potrebbero non essere affatto risolvibili.

Antropomorfizzare i modelli di IA o i robot è una trappola in cui è facile cadere. Secondo OpenAI, il rischio di attribuire comportamenti e caratteristiche simili a quelle umane a un modello di IA aumenta quando questo parla con una voce che sembra umana.

Ha notato che alcuni utenti coinvolti nei primi test e nel red teaming hanno usato un linguaggio che indicava che avevano creato un legame con il modello. Quando gli utenti interagiscono e formano legami emotivi con l'IA, ciò potrebbe influire sulle interazioni tra esseri umani.

Quando un utente interrompe GPT-4o, invece di rimproverarlo per la sua maleducazione, lo lascia fare. Questo tipo di comportamento non è appropriato nelle interazioni sociali umane.

OpenAI afferma che "gli utenti potrebbero instaurare relazioni sociali con l'IA, riducendo il loro bisogno di interazione umana-Potenzialmente, questo può giovare alle persone sole, ma può anche compromettere le relazioni sane".

L'azienda si sta chiaramente impegnando per rendere sicuro l'assistente vocale del GPT-4o, ma alcune di queste sfide potrebbero essere insormontabili.

Partecipa al futuro


ISCRIVITI OGGI

Chiaro, conciso, completo. Per conoscere gli sviluppi dell'IA con DailyAI

Eugene van der Watt

Eugene proviene da un background di ingegneria elettronica e ama tutto ciò che è tecnologico. Quando si prende una pausa dal consumo di notizie sull'intelligenza artificiale, lo si può trovare al tavolo da biliardo.

×

PDF GRATUITO ESCLUSIVO
Rimanere all'avanguardia con DailyAI

Iscriviti alla nostra newsletter settimanale e ricevi l'accesso esclusivo all'ultimo eBook di DailyAI: 'Mastering AI Tools: La tua guida 2024 per una maggiore produttività".

*Iscrivendosi alla nostra newsletter si accetta la nostra Informativa sulla privacy e il nostro Termini e condizioni