OpenAI heeft spraak- en beeldfuncties onthuld voor ChatGPT, die de komende weken worden uitgerold voor zowel de app als de browser.
Het is eerlijk om te zeggen dat OpenAI op zijn lauweren heeft gerust met ChatGPT, dat niet hetzelfde niveau van functionaliteit heeft als concurrenten Claude van Anthropic en Bard van Google.
OpenAI voegde eerder dit jaar een browserzoekfunctie toe voor ChatGPT, waardoor de tool toegang kreeg tot het internet, maar het werkte niet bijzonder goed en was verwijderd voor het mogelijk schenden van auteursrechten door het 'afdrukken' van tekst van websites met betaalopties.
Dat gezegd hebbende, GPT-4 is verreweg het meest complexe grote taalmodel (LLM) dat er is, wat OpenAI aan de top van de generatieve AI-pikorde heeft gehouden.
OpenAI heeft nu de functionaliteit van de chatbot verbeterd en houdt ChatGPT stevig in de schijnwerpers nu de concurrentie in de sector toeneemt.
Wat is er nieuw?
OpenAI voegt het volgende toe aan ChatGPT:
- Steminteractie: Gebruikers kunnen nu rechtstreeks tegen ChatGPT spreken en de AI kan op zijn beurt hoorbaar reageren met een van zijn vijf gesynthetiseerde stemmen. Deze spraakfunctie wordt ondersteund door een geavanceerd tekst-naar-spraakmodel dat OpenAI heeft getraind aan de hand van voorbeelden van stemacteurs. ChatGPT maakt gebruik van FluisterOpenAI's open-source spraaksysteem voor het herkennen van spraak.
- Beeldinteractie: Naast spraak kunnen gebruikers ChatGPT nu ook voorzien van afbeeldingen, wat een visuele dimensie toevoegt aan de conversatie. Als een gebruiker bijvoorbeeld een foto van een kapot apparaat deelt, kan ChatGPT een diagnose stellen en oplossingen voorstellen. Op mobiele platforms is een tekentool geïntegreerd, waarmee gebruikers specifieke gebieden van een afbeelding kunnen omcirkelen of aanwijzen waar de AI zich op kan richten. De beeldmogelijkheden worden aangestuurd door een multimodale versie van de GPT-3.5- en GPT-4-modellen, die zijn verfijnd om visuele input te interpreteren en te beredeneren.
Met deze nieuwe toevoegingen kunnen gebruikers een heen-en-weer gesprek voeren met die chatbot en hem onder andere om specifieke informatie over beeldinhoud vragen.
Het lijdt geen twijfel dat de community interessante manieren zal vinden om de grenzen van de nieuwe ChatGPT te testen.
OpenAI plaatste de volgende promotiedemo op X:
Gebruik je stem om heen-en-weer te praten met ChatGPT. Spreek ermee onderweg, vraag om een verhaaltje voor het slapengaan of beslecht een discussie aan tafel.
Geluid aan 🔊 pic.twitter.com/3tuWzX0wtS
- OpenAI (@OpenAI) 25 september 2023
Risico's en uitrolplan
Nieuwe functies brengen nieuwe risico's met zich mee. De spraaktechnologie zou bijvoorbeeld misbruikt kunnen worden om zich voor te doen als publieke figuren. Uit voorzorg heeft OpenAI de spraakfunctie beperkt tot conversatiechat.
Wat afbeeldingen betreft, heeft OpenAI de mogelijkheden van ChatGPT om mensen op foto's direct te analyseren bewust beperkt.
OpenAI plant een gefaseerde uitrol, waarbij ChatGPT Plus en Enterprise gebruikers als eerste toegang krijgen.
De spraakfunctie zal beschikbaar zijn op mobiele apps, terwijl de beeldfuncties toegankelijk zullen zijn op alle platformen.
De aankondiging van OpenAI sluit aan bij een reeks recente en op handen zijnde generatieve AI-productreleases, waaronder tools van YouTube, Copilot van Microsoft suite van AI-tools en assistenten, en een aanzienlijke update van Google Bard.