OpenAI debuteert de "o1"-serie en verlegt de grenzen van AI-redeneren

12 september 2024

  • OpenAI brengt twee nieuwe geavanceerde modellen uit: o1-preview en o1-mini
  • Ze kunnen geavanceerd redeneren in meerdere stappen, ideaal voor complexe vragen
  • o1-preview heeft al bewezen superieur te zijn aan GPT-4o voor bepaalde taken
o1

OpenAI heeft nieuwe geavanceerde redeneringsmodellen uitgebracht die de "o1"-serie worden genoemd. 

o1 bestaat momenteel in twee versies - o1-preview en o1-mini - en is ontworpen om complexe redeneertaken uit te voeren, wat OpenAI beschrijft als "een nieuw paradigma" in AI-ontwikkeling.

"Dit is wat wij beschouwen als het nieuwe paradigma in deze modellen," legde Mira Murati, Chief Technology Officer van OpenAI, uit in een verklaring aan Bedraad. "Het is veel beter in het aanpakken van zeer complexe redeneertaken."

In tegenstelling tot eerdere iteraties die vooral uitblonken door schaalgrootte, bijvoorbeeld door het gooien van rekenkracht naar een probleem, is o1 gericht op het nabootsen van het menselijke denkproces van het "doorredeneren" van problemen. 

In plaats van één antwoord te genereren, werkt het model stap voor stap, overweegt meerdere benaderingen en herziet zichzelf indien nodig, een methode die bekend staat als "chain of thought" prompting. 

Hierdoor kan het complexe problemen in wiskunde, codering en andere gebieden oplossen met een mate van precisie die bestaande modellen, waaronder GPT-4o, met moeite kunnen bereiken.

Mark Chen, OpenAI's Vice President of Research, ging dieper in op het leerproces van o1 en hoe dit verschilt van het typische redeneren met taalmodellen. "Het model scherpt zijn denken aan en verfijnt de strategieën die het gebruikt om tot het antwoord te komen," zei Chen. 

Hij demonstreerde het model met verschillende wiskundige puzzels en geavanceerde scheikundige vragen die GPT-4o eerder niet kon beantwoorden. 

Een puzzel die eerdere modellen verbaasde vroeg: "Een prinses is net zo oud als de prins zal zijn wanneer de prinses twee keer zo oud is als de prins was toen de leeftijd van de prinses de helft was van de som van hun huidige leeftijd. Wat is de leeftijd van de prins en de prinses?" 

Het o1-model bepaalde het juiste antwoord: de prins is 30 en de prinses is 40.

Toegang tot o1

ChatGPT Plus-gebruikers hebben al toegang tot o1 vanuit ChatGPT.

Dat is een verrassing, aangezien de spraakfunctie van GPT-4o maanden na de demo nog steeds wordt uitgerold. Weinigen hadden verwacht dat o1 zo abrupt zou worden gelanceerd, zonder de gebruikelijke opbouw.

o1

o1 lijkt gerelateerd aan OpenAI's project met de codenaam "Strawberry". Nu komt het grappige: de meeste AI-modellen weten niet hoeveel R's er in "aardbei" zitten. Het brengt hun redeneervermogen in de war.

Ik heb dit getest in o1. En zie, het ging goed. Het is duidelijk dat o1's benadering van redeneren helpt om zulke vragen efficiënt op te lossen.

Sam Altmans recente praatjes over aardbeien in de sociale media houden misschien verband met dit beroemde AI-probleem met aardbeiensmaak en de codenaam "Project Strawberry" van o1. Zo niet, dan is het een vreemd toeval.

Een stapsgewijze verandering in probleemoplossing

Het vermogen van het o1-model om zijn weg door problemen te "redeneren" is een vooruitgang op het gebied van AI - iets dat baanbrekend kan blijken te zijn als de prestaties in de echte wereld 'in het wild' worden bewezen.

De nieuwe modellen hebben al goede prestaties laten zien in testen zoals het American Invitational Mathematics Examination (AIME). 

Volgens OpenAI loste het nieuwe model 83% van de problemen op die in de AIME werden gepresenteerd, vergeleken met slechts 12% door GPT-4o.

De sterke punten van o1 zijn duidelijk, maar er zijn ook nadelen.

Het model doet er langer over om antwoorden te genereren vanwege de meer doordachte methodologieën. De tijd zal leren hoeveel invloed dit heeft op de algemene bruikbaarheid. 

de vreemde oorsprong van o1

o1 komt na gesprekken over een OpenAI-project met de codenaam "Aardbei". die eind 2023 opdook.

Het gerucht ging aanvankelijk dat het een AI-model zou zijn dat in staat was om autonoom het web te verkennen, ontworpen om "diepgaand onderzoek" te doen.

De gesprekken rond Strawberry werden niet lang geleden geïntensiveerd toen The Information wat informatie lekte over de interne projecten van OpenAI. OpenAI zou namelijk twee vormen van Strawberry aan het ontwikkelen zijn.

  1. De ene is een kleinere, vereenvoudigde versie bedoeld voor integratie in ChatGPT. Het is bedoeld om de redeneermogelijkheden te verbeteren in scenario's waar gebruikers meer doordachte, gedetailleerde antwoorden nodig hebben in plaats van snelle antwoorden. Dit klinkt alsof het o1 zou kunnen zijn.
  2. Een andere is een grotere, krachtigere versie die wordt gebruikt om hoogwaardige "synthetische" trainingsgegevens te genereren voor OpenAI's volgende vlaggenschip, het taalmodel met de codenaam "Orion". Dit kan al dan niet gelinkt zijn aan o1.

OpenAI heeft geen directe opheldering gegeven over wat Strawberry echt is. Er wordt echter algemeen aangenomen dat o1 Strawberry is.

Een aanvulling, geen vervanging

Murati benadrukte dat o1 niet is ontworpen om GPT-4o te vervangen, maar om het aan te vullen. 

"Er zijn twee paradigma's," zei ze. "Het schalingsparadigma en dit nieuwe paradigma. We verwachten dat we ze zullen samenbrengen." 

Terwijl OpenAI GPT-5 blijft ontwikkelen, die waarschijnlijk nog groter en krachtiger zal zijn dan GPT-4o, kunnen toekomstige modellen de redeneerfuncties van o1 integreren. 

Deze fusie zou de hardnekkige beperkingen van grote taalmodellen (LLM's) kunnen aanpakken, zoals hun worsteling met ogenschijnlijk eenvoudige problemen die logische deductie vereisen, zoals het bovenstaande aardbeienprobleem. 

Anthropic en Google zijn naar verluidt aan het racen om soortgelijke functies in hun modellen te integreren. Google's AlphaProof project, bijvoorbeeld, combineert ook taalmodellen met reinforcement learning om moeilijke wiskundeproblemen aan te pakken. 

Chen gelooft echter dat OpenAI een voorsprong heeft. "Ik denk wel dat we daar een aantal doorbraken hebben gemaakt," zei hij, "Ik denk dat het deel uitmaakt van onze voorsprong. Het is eigenlijk vrij goed in redeneren over alle domeinen heen."

Yoshua Bengio, een vooraanstaand AI-onderzoeker en ontvanger van de prestigieuze Turing Award, prees de vooruitgang, maar spoorde aan tot voorzichtigheid.

 "Als AI-systemen echt redeneren zouden laten zien, dan zou dat consistentie van feiten, argumenten en conclusies van de AI mogelijk maken," aldus de auteur. vertelde hij de FT.

Veiligheid en ethische overwegingen

Als onderdeel van haar toewijding aan verantwoorde AI, heeft OpenAI de veiligheidsfuncties van o1 versterkt, inclusief de "standaard" veiligheidstools voor inhoud. 

Deze hulpmiddelen helpen voorkomen dat het model schadelijke of onveilige uitvoer produceert.

"We zijn verheugd om aan te kondigen dat Prompt Shields en Protected Materials for Text nu algemeen beschikbaar zijn in Azure OpenAI Service," aldus OpenAI in een Microsoft blogbericht

De o1-serie is beschikbaar voor vroege toegang in Microsoft's Azure AI Studio en GitHub-modellen, met een bredere release binnenkort gepland. 

OpenAI hoopt dat o1 ontwikkelaars en bedrijven in staat zal stellen om kosteneffectiever te innoveren, in lijn met hun bredere missie om AI toegankelijker te maken voor zakelijke gebruikers. 

"We geloven dat we zo intelligentie goedkoper kunnen verzenden," concludeerde Chen. "En ik denk dat dat echt de kernmissie van ons bedrijf is."

Al met al een spannende release. Het zal erg interessant zijn om te zien welke vragen, problemen en taken o1 het beste verdragen.

Doe mee met de toekomst


SCHRIJF JE VANDAAG NOG IN

Duidelijk, beknopt, uitgebreid. Krijg grip op AI-ontwikkelingen met DailyAI

Sam Jeans

Sam is een wetenschap- en technologieschrijver die bij verschillende AI-startups heeft gewerkt. Als hij niet aan het schrijven is, leest hij medische tijdschriften of graaft hij door dozen met vinylplaten.

×

GRATIS PDF EXCLUSIEF
Blijf voorop met DailyAI

Meld je aan voor onze wekelijkse nieuwsbrief en ontvang exclusieve toegang tot DailyAI's nieuwste eBook: 'Mastering AI Tools: Your 2024 Guide to Enhanced Productivity'.

* Door u aan te melden voor onze nieuwsbrief accepteert u onze Privacybeleid en onze Algemene voorwaarden