OpenAI har släppt nya avancerade resonemangsmodeller som kallas "o1"-serien.
o1 finns för närvarande i två versioner - o1-preview och o1-mini - och är utformad för att utföra komplexa resonemangsuppgifter, vilket markerar vad OpenAI beskriver som "ett nytt paradigm" inom AI-utveckling.
"Det här är vad vi anser vara den nya paradigmen i dessa modeller", förklarade Mira Murati, OpenAI:s Chief Technology Officer, i ett uttalande till Kabelansluten. "Den är mycket bättre på att hantera mycket komplexa resonemangsuppgifter."
Till skillnad från tidigare iterationer som främst utmärkte sig genom skala, t.ex. genom att kasta beräkningar på ett problem, syftar o1 till att replikera den människoliknande tankeprocessen att "resonera sig igenom" problem.
I stället för att generera ett enda svar arbetar modellen steg för steg, överväger flera tillvägagångssätt och reviderar sig själv vid behov, en metod som kallas "tankekedja".
Detta gör att den kan lösa komplexa problem inom matematik, kodning och andra områden med en precisionsnivå som befintliga modeller, inklusive GPT-4o, har svårt att uppnå.
Vi släpper nu en förhandsversion av OpenAI o1 - en ny serie AI-modeller som är utformade för att ägna mer tid åt att tänka innan de svarar.
Dessa modeller kan resonera sig igenom komplexa uppgifter och lösa svårare problem än tidigare modeller inom vetenskap, kodning och matematik. https://t.co/peKzzKX1bu
- OpenAI (@OpenAI) 12 september 2024
Mark Chen, OpenAI:s Vice President of Research, berättade mer om o1:s inlärningsprocess och hur den skiljer sig från typiska språkmodellresonemang. "Modellen skärper sitt tänkande och finjusterar de strategier som den använder för att komma fram till svaret", säger Chen.
Han demonstrerade modellen med flera matematiska pussel och avancerade kemifrågor som GPT-4o tidigare inte klarat av.
Ett pussel som förbryllade tidigare modeller frågade: "En prinsessa är lika gammal som prinsen kommer att bli när prinsessan är dubbelt så gammal som prinsen var när prinsessans ålder var hälften av summan av deras nuvarande ålder. Vad är prinsens och prinsessans ålder?"
o1-modellen gav rätt svar: prinsen är 30 år och prinsessan är 40 år.
Hur man får tillgång till o1
ChatGPT Plus-användare kan redan komma åt o1 från ChatGPT.
Det är en överraskning, eftersom GPT-4os röstfunktion fortfarande rullar ut månader efter sin demo. Få förväntade sig att o1 skulle lanseras så plötsligt och kringgå den vanliga uppbyggnaden.
o1 verkar relaterat till OpenAI: s kodnamn "Strawberry" -projekt. Här är en rolig sak: de flesta AI-modeller vet inte hur många R som finns i "jordgubbe". Det sätter käppar i hjulet för deras resonemangsförmåga.
Jag testade detta i o1. Och se där, det blev rätt. Det är uppenbart att o1:s sätt att resonera hjälper till att lösa sådana frågor på ett effektivt sätt.
Sam Altmans senaste våg av jordgubbsrelaterade samtal i sociala medier kan kopplas till detta berömda AI-problem med jordgubbssmak och o1: s kodnamn "Project Strawberry". Om inte, är det ett konstigt sammanträffande.
En stegvis förändring av problemlösningen
o1-modellens förmåga att "resonera" sig igenom problem är ett framsteg inom AI - något som kan visa sig vara banbrytande om dess verkliga prestanda bevisas "in the wild".
De nya modellerna har redan visat starka resultat i tester som American Invitational Mathematics Examination (AIME).
Enligt OpenAI löste den nya modellen 83% av de problem som presenterades i AIME, jämfört med endast 12% för GPT-4o.
Även om o1:s styrkor är uppenbara finns det också kompromisser.
Modellen tar längre tid på sig att generera svar på grund av dess mer genomtänkta metodik. Tiden får utvisa hur stor inverkan detta har på den allmänna användbarheten.
o1:s märkliga ursprung
o1 kommer i kölvattnet av diskussioner kring ett OpenAI-projekt med kodnamnet "Strawberry". som dök upp i slutet av 2023.
Det ryktades ursprungligen att det skulle vara en AI-modell som kan utforska webben på egen hand och som är utformad för att bedriva "djup forskning".
Prat kring Strawberry intensifierades för inte så länge sedan när The Information läckte lite information om OpenAI: s interna projekt. OpenAI utvecklar nämligen påstås två former av Strawberry.
- Den ena är en mindre, förenklad version som är avsedd att integreras i ChatGPT. Den syftar till att förbättra resonemangsförmågan i scenarier där användarna kräver mer genomtänkta, detaljerade svar snarare än snabba svar. Det här låter som om det skulle kunna vara o1.
- En annan är en större och kraftfullare version som används för att generera högkvalitativa "syntetiska" träningsdata för OpenAI:s nästa flaggskeppsspråkmodell, med kodnamnet "Orion". Detta kan vara eller inte vara kopplat till o1.
OpenAI har inte gett något direkt förtydligande om vad Strawberry verkligen är. Det har dock allmänt antagits att o1 är Strawberry.
Ett komplement, inte en ersättning
Murati betonade att o1 inte är utformad för att ersätta GPT-4o utan för att komplettera den.
"Det finns två paradigm", säger hon. "Skalningsparadigmet och det här nya paradigmet. Vi förväntar oss att vi kommer att föra samman dem."
Medan OpenAI fortsätter att utveckla GPT-5, som sannolikt kommer att vara ännu större och kraftfullare än GPT-4o, kan framtida modeller införliva resonemangsfunktionerna i o1.
Denna fusion skulle kunna lösa de ständiga begränsningarna hos stora språkmodeller (LLM), till exempel deras kamp med till synes enkla problem som kräver logisk slutledning, t.ex. jordgubbsproblemet ovan.
Anthropic och Google påstås tävla om att integrera liknande funktioner i sina modeller. Googles AlphaProof-projekt, till exempel, kombinerar också språkmodeller med förstärkningsinlärning för att ta itu med svåra matematiska problem.
Chen anser dock att OpenAI har ett försprång. "Jag tror att vi har gjort några genombrott där", säger han, "Jag tror att det är en del av vår fördel. Den är faktiskt ganska bra på att resonera inom alla domäner."
Yoshua Bengio, en ledande AI-forskare och mottagare av det prestigefyllda Turing Award, berömde framstegen men manade till försiktighet.
"Om AI-system skulle uppvisa ett genuint resonemang skulle det möjliggöra konsekvens i fakta, argument och slutsatser som AI:n drar." sa han till FT.
Säkerhet och etiska överväganden
Som en del av sitt engagemang för ansvarsfull AI har OpenAI stärkt o1:s säkerhetsfunktioner, inklusive verktyg för innehållssäkerhet "on-by-default".
Dessa verktyg hjälper till att förhindra att modellen producerar skadliga eller osäkra resultat.
"Vi är glada över att kunna meddela att Prompt Shields och Protected Materials for Text nu är allmänt tillgängliga i Azure OpenAI Service", säger OpenAI i ett pressmeddelande. Blogginlägg från Microsoft.
o1-serien är tillgänglig för tidig åtkomst i Microsofts Azure AI Studio och GitHub Models, med en bredare lansering planerad inom kort.
OpenAI hoppas att o1 kommer att göra det möjligt för utvecklare och företag att innovera mer kostnadseffektivt, i linje med deras bredare uppdrag att göra AI mer tillgängligt för företagsanvändare.
"Vi tror att det kommer att göra det möjligt för oss att leverera intelligens billigare", avslutade Chen. "Och jag tror att det verkligen är kärnan i vårt företags uppdrag."
Sammantaget är det en spännande release. Det kommer att bli mycket intressant att se vilka frågor, problem och uppgifter som o1 tar sig an.