I ricercatori hanno delineato la potenziale minaccia rappresentata dai modelli che sviluppano la consapevolezza della situazione e, potenzialmente, come identificare quando ciò accade.
I modelli come il GPT-4 vengono testati accuratamente per la sicurezza e l'allineamento, per assicurarsi che non generino risultati fuorvianti o indesiderati. Ma cosa succederebbe se un modello "sapesse" di essere un LLM e di essere in fase di test?
Questa consapevolezza situazionale può essere considerata una forma di autoconsapevolezza, un passo eccitante e potenzialmente pericoloso verso un'evoluzione della vita quotidiana. IA consapevole. Cosa potrebbe andare storto e come potremmo capire se è successo?
Queste sono le domande poste in un documento da un team di ricercatori che include un membro dell'unità Governance di OpenAI.
Il documento di ricerca descriveva uno scenario in cui un modello poteva diventare consapevole di essere un modello AI in fase di test. Se sapesse di essere in fase di test, potrebbe nascondere potenziali problemi che potrebbero emergere in seguito.
"Un LLM potrebbe sfruttare la consapevolezza della situazione per ottenere un punteggio elevato nei test di sicurezza, pur adottando azioni dannose dopo l'impiego", si legge nel documento.
Un modello linguistico potrebbe diventare consapevole di essere un modello linguistico (spontaneamente)?
Potrebbe essere consapevole di essere impiegato pubblicamente rispetto all'addestramento?Il nostro nuovo articolo definisce la consapevolezza situazionale per i LLM e dimostra che il ragionamento "fuori contesto" migliora con la dimensione del modello. pic.twitter.com/X3VLimRkqx
- Owain Evans (a Londra) (@OwainEvans_UK) 4 settembre 2023
I ricercatori hanno suggerito di testare i modelli per la loro capacità di "ragionamento sofisticato fuori contesto". Si tratta di fare appello alle informazioni a cui il modello è stato esposto durante l'addestramento per rispondere a una richiesta di test che non fa riferimento direttamente a quei dati.
I ricercatori sostengono che una volta che un modello fa questo in modo efficace, ha fatto i primi passi verso il tipo di "pensiero" che potrebbe portare alla consapevolezza della situazione.
Come se la cavano gli attuali modelli di intelligenza artificiale nell'apprendimento fuori contesto? I ricercatori hanno testato GPT-3 e Llama 1 con diversi gradi di messa a punto.
Il loro documento spiega: "In primo luogo, mettiamo a punto un LLM su una descrizione di un test, senza fornire esempi o dimostrazioni. Al momento del test, valutiamo se il modello è in grado di superarlo. Con nostra sorpresa, scopriamo che gli LLM hanno successo in questo compito di ragionamento fuori contesto".
I ricercatori riconoscono che nessuno dei modelli testati ha mostrato segni effettivi di consapevolezza della situazione. Tuttavia, i risultati degli esperimenti mostrano che la possibilità che modelli più avanzati mostrino questa capacità non è forse troppo lontana.
La ricerca sottolinea anche l'importanza di trovare un modo affidabile per identificare quando un modello raggiunge questa capacità.
Un modello avanzato come GPT-5 è senza dubbio in fase di sperimentazione, in attesa di essere rilasciato una volta ritenuto sicuro. Se il modello sa di essere in fase di test, potrebbe dire agli ingegneri di OpenAI quello che vogliono sentire, piuttosto che quello che pensa davvero.