OpenAI heeft zojuist zijn nieuwe topmodel gedemonstreerd, GPT-4o, met ongelooflijke spraakherkenning en vertaalmogelijkheden.
Als CEO Sam Altman zelf verklaarde, wisten we OpenAIDe laatste "voorjaarsupdate" had niets te maken met GPT-5 of AI-zoeken.
Maar vandaag om 10 uur 's ochtends namen honderdduizenden deel aan de livestream-presentatie van het nieuwe model, toen Chief Technology Officer (CTO) Mira Murati de voordelen liet zien ten opzichte van zijn voorganger GPT-4.
De belangrijkste aankondigingen tijdens de demosessie zijn
- GPT-4o (de o staat voor omni) is van plan GPT-4 te vervangen, met OpenAI noemt het zijn nieuwe topmodel.
- Hoewel in grote lijnen vergelijkbaar met GPT-4, GPT-4o biedt superieure meertalige en audiovisuele verwerking. Het kan audio in bijna real-time verwerken en vertalen. Latere tests toonden aan dat GPT-4o slechter is dan GPT-4 op sommige 'moeilijke taken'.
- OpenAI maakt GPT-4o vrij beschikbaar, met beperkingen. Pro-gebruikers krijgen nog steeds voorrang en een hogere berichtenlimiet.
- OpenAI brengt ook een desktopversie uit van ChatGPTin eerste instantie alleen voor Mac, die onmiddellijk wordt uitgerold.
- Aangepaste GPT's worden ook toegankelijk voor gratis gebruikers.
- GPT-4o en de spraakfuncties zullen de komende weken en maanden langzaam worden uitgerold.
GPT-4orealtime audiovertaling
De kop die iedereen aan het praten heeft gekregen is de indrukwekkende audioverwerking en -vertaling van GPT-4o, die in bijna realtime werken.
Demonstraties lieten zien dat de AI opmerkelijk natuurlijke spraakgesprekken voerde, onmiddellijke vertalingen gaf, verhalen vertelde en coderingsadvies gaf.
Het model kan bijvoorbeeld een afbeelding van een menu in een vreemde taal analyseren, vertalen en culturele inzichten en aanbevelingen geven.
OpenAI heeft zojuist zijn nieuwe GPT-4o model gedemonstreerd dat vertalingen in realtime doet 🤯 pic.twitter.com/Cl0gp9v3kN
- Tom Warren (@tomwarren) 13 mei 2024
Het kan ook emoties herkennen aan ademhaling, uitdrukkingen en andere visuele signalen.
Clip van realtime gesprek met GPT4-o op ChatGPT app
NIEUW: in plaats van alleen SPEECH om te zetten in tekst, kan GPT-4o ook andere kenmerken van audio begrijpen en labelen, zoals BREATHING en EMOTIE. Ik weet niet zeker hoe dit wordt uitgedrukt in de modelrespons.#openai https://t.co/CpvCkjI0iA pic.twitter.com/24C8rhMFAw
- Andrew Gao (@itsandrewgao) 13 mei 2024
GPT-4o's emotionele herkenningsvaardigheden zullen waarschijnlijk controverse veroorzaken als het stof eenmaal is neergedaald.
Emotioneel cognitieve AI zou zich kunnen ontwikkelen tot potentieel snode gebruikssituaties die vertrouwen op menselijke nabootsing, zoals deep fakes, social engineering, enz.
Een andere indrukwekkende vaardigheid die het team heeft gedemonstreerd is realtime codeerhulp via spraak.
Met de GPT-4o/ChatGPT desktop app kun je een coderingsmaatje (zwarte cirkel) hebben dat met je praat en ziet wat jij ziet!#openai aankondigingen draad! https://t.co/CpvCkjI0iA pic.twitter.com/Tfh81mBHCv
- Andrew Gao (@itsandrewgao) 13 mei 2024
Tijdens een demo zongen zelfs twee exemplaren van het model voor elkaar.
Deze demo van twee GPT-4o's die voor elkaar zingen is een van de gekste dingen die ik ooit heb gezien. pic.twitter.com/UXFfbIpuF6
- Matt Shumer (@mattshumer_) 13 mei 2024
De algemene strekking van OpenAIis dat het bedrijf ernaar streeft om AI multimodaliteit echt bruikbaar te maken in alledaagse scenario's, en daarbij tools als Google Translate uitdaagt.
Een ander belangrijk punt is dat deze demo's levensecht zijn. OpenAI zei: "Alle video's op deze pagina zijn 1x realtime," mogelijk verwijzend naar Google, die zijn Gemini demonstratievideo om zijn multimodale vaardigheden te overdrijven.
Met GPT-4o kunnen multimodale AI-toepassingen veranderen van een nieuwigheid die diep begraven ligt in AI-interfaces in iets waar gemiddelde gebruikers dagelijks mee kunnen werken.
Hoewel de demo indrukwekkend was, is het nog steeds een demo en de resultaten van gemiddelde gebruikers "in het wild" zullen echt onthullen hoe competent deze functies zijn.
Naast real-time spraakverwerking en vertaling, die volop in de schijnwerpers staan, is het feit dat OpenAI is om dit nieuwe model vrij van beperkingen te maken, is enorm.
WHoewel GPT-4o *gewoon* een iets betere GPT-4 is, zal het iedereen uitrusten met een AI-model van topkwaliteit, waardoor het speelveld voor miljoenen wereldwijd gelijk wordt getrokken.
Je kunt de aankondiging en demo hieronder bekijken:
Alles wat we weten over GPT-4o
Hier is een overzicht van alles wat we tot nu toe weten over GPT-4o:
- Multimodale integratie: GPT-4o verwerkt en genereert snel tekst-, audio- en beeldgegevens en maakt dynamische interacties in verschillende formaten mogelijk.
- Realtime reacties: Het model heeft indrukwekkende reactietijden, vergelijkbaar met menselijke reactiesnelheden tijdens gesprekken, met audiorespons vanaf slechts 232 milliseconden.
- Taal- en codeercapaciteiten: GPT-4o evenaart de prestaties van GPT-4 Turbo in Engelse en codeertaken en overtreft deze in niet-Engelse tekstverwerking.
- Audiovisuele verbeteringen: Vergeleken met vorige modellen heeft de GPT-4o een superieur inzicht in beeld- en geluidstaken, waardoor de interactie met multimedia-inhoud wordt verbeterd.
- Natuurlijke interacties: Demonstraties waren onder andere twee GPT-4o's die een liedje zongen, hielpen bij het voorbereiden van een sollicitatiegesprek, spelletjes speelden zoals steen-papier-schaar en zelfs humor maakten met vadergrappen.
- Lagere kosten voor ontwikkelaars: OpenAI heeft de kosten voor ontwikkelaars die GPT-4o gebruiken met 50% verlaagd en de verwerkingssnelheid verdubbeld.
- Prestatie benchmark: GPT-4o benchmarks blinkt uit in meertalige, audio- en visuele taken, hoewel onafhankelijke tests bevestigen dat het achterblijft bij GPT-4 op het gebied van codering, wiskunde en andere 'moeilijke taken'.
GPT-4o is een belangrijke aankondiging voor OpenAI, particularly as its the most powerful free closed model available by a sizeable margin.
Het zou een tijdperk kunnen inluiden van praktische, nuttige AI-multimodaliteit waar mensen massaal mee aan de slag gaan.
Dat zou een enorme mijlpaal zijn voor zowel het bedrijf als de generatieve AI-industrie als geheel.