Anthropic, una startup di intelligenza artificiale fondata da ex dirigenti di OpenAI, ha presentato il suo nuovo modello linguistico di grandi dimensioni (LLM), Claude 2.
Disponibile come beta web negli Stati Uniti e nel Regno Unito e attraverso un'API a pagamento, il nuovo modello vanta prestazioni e capacità migliorate rispetto al suo predecessore.
Claude 2 è un'evoluzione di Claude 1.3, in grado di cercare documenti, riassumere contenuti, scrivere, codificare e rispondere a domande. È simile ad altri LLM come ChatGPT, ma accetta allegati, consentendo agli utenti di caricare file e di farli analizzare e utilizzare dall'intelligenza artificiale.
Claude 2 supera 1.3 in diverse aree. Ad esempio, ottiene punteggi più alti in vari test, tra cui l'esame di abilitazione alla professione di avvocato e le domande a scelta multipla dell'esame di abilitazione alla professione medica degli Stati Uniti. Inoltre, supera il suo predecessore nei problemi di matematica e di codifica, compreso il test di codifica Codex Human Level Python.
Sandy Banerjee, responsabile go-to-market di Anthropic, spiega questi miglioramenti: "Abbiamo lavorato per migliorare il ragionamento e la sorta di autoconsapevolezza del modello, in modo che sia più consapevole di 'ecco come mi piace seguire le istruzioni', 'sono in grado di elaborare istruzioni in più fasi' e anche più consapevole dei suoi limiti".
I dati di addestramento di Claude 2, raccolti da siti web, da set di dati concessi in licenza da terzi e da dati di utenti dell'inizio del 2023, sono più recenti di quelli di Claude 1.3. Tuttavia, i modelli sono in definitiva simili - Banerjee ammette che Claude 2 è una versione ottimizzata di Claude 1.3. Tuttavia, i modelli sono in definitiva simili - Banerjee ammette che Claude 2 è una versione ottimizzata di Claude 1.3.
Come altri LLM, Claude è tutt'altro che infallibile. TechCrunch dice l'intelligenza artificiale è stata manipolata per inventare nomi di sostanze chimiche inesistenti e offrire istruzioni discutibili per la produzione di uranio per armi, tra le altre cose. Tuttavia, Antropico afferma che Claude 2 è "2 volte migliore" nel fornire risposte "innocue" rispetto al suo predecessore.
Banerjee ha dichiarato: "La nostra valutazione interna di red teaming assegna un punteggio ai nostri modelli su una serie molto ampia e rappresentativa di richieste avversarie dannose", "e lo facciamo con una combinazione di test automatici e controlli manuali". Questo aspetto è importante per Anthropic, poiché la personalità neutrale del modello è fondamentale per gli sforzi di marketing dell'azienda.
L'antropica utilizza una tecnica specifica denominata 'IA costituzionaleche infonde ai modelli come Claude 2 valori specifici definiti da una "costituzione". L'obiettivo è quello di rendere il comportamento del modello più facile da comprendere e da regolare secondo le necessità.
La visione di Anthropic è quella di creare un "algoritmo di nuova generazione per l'autoapprendimento dell'intelligenza artificiale" e Claude 2 è solo un passo verso questo obiettivo.
Banerjee ha concluso: "Stiamo ancora elaborando il nostro approccio". "Dobbiamo assicurarci, man mano che lo facciamo, che il modello finisca per essere innocuo e utile come l'iterazione precedente".
Che cos'è Claude?
Claude è un assistente AI sviluppato da Anthropic, una startup sostenuta da Google e composta da alcuni ex ricercatori di OpenAI. È progettato per essere "utile, onesto e innocuo" ed è accessibile tramite un'interfaccia di chat e un'API.
Claude può assistere in un'ampia gamma di compiti, tra cui riassunto, scrittura creativa e collaborativa, risposta a domande e codifica.
Diverse aziende hanno implementato Claude, tra cui Notion, Quora e DuckDuckGo. È stato utilizzato per migliorare l'app di chat AI di Quora, Poe, e si integra nell'app di produttività Notion.
Tra gli altri partner figurano Robin AI, un'azienda legale che utilizza Claude per comprendere e riformulare testi legali complessi, e AssemblyAI, che utilizza Claude per trascrivere e comprendere dati audio su scala.
La capacità di Claude di lavorare con i file è potenzialmente più adatta ad alcuni usi basati sulla produttività rispetto a concorrenti come ChatGPT.
Gli utenti degli Stati Uniti e del Regno Unito possono giudicarlo da soli provando la beta web.