OpenAI har presenterat röst- och bildfunktioner för ChatGPT, som kommer att rullas ut under de kommande veckorna för både appen och webbläsaren.
Det är rättvist att säga att OpenAI har vilat på lagrarna med ChatGPT, som inte innehåller riktigt samma nivå av funktionalitet som konkurrenterna Claude från Anthropic och Bard från Google.
OpenAI lade till en sökfunktion i webbläsaren för ChatGPT tidigare i år, vilket gav verktyget tillgång till internet, men den fungerade inte särskilt bra och borttagen för att eventuellt ha brutit mot upphovsrätten genom att "skriva ut" text från webbplatser med betalvägg.
Med detta sagt är GPT-4 den överlägset mest komplexa stora språkmodellen (LLM) som finns, vilket har hållit OpenAI i toppen av den generativa AI-ordningen.
OpenAI har nu förbättrat chatbotens funktionalitet och håller ChatGPT kvar i rampljuset när konkurrensen inom branschen hårdnar.
Vad är nytt?
OpenAI lägger till följande i ChatGPT:
- Interaktion med röst: Användare kan nu tala direkt till ChatGPT, och i gengäld kan AI svara hörbart med hjälp av en av sina fem syntetiserade röster. Denna röstfunktion stöds av en avancerad text-till-tal-modell som OpenAI har tränat med hjälp av exempel från röstskådespelare. ChatGPT utnyttjar Viskning, OpenAI:s talsystem med öppen källkod för taligenkänning.
- Interaktion mellan bilder: Utöver röstmeddelanden kan användare nu förse ChatGPT med bilder, vilket ger en visuell dimension till konversationen. Om en användare till exempel delar med sig av ett foto på en trasig apparat kan ChatGPT potentiellt diagnostisera problemet och föreslå lösningar. På mobila plattformar har ett ritverktyg integrerats, vilket gör det möjligt för användare att ringa in eller peka ut specifika områden i en bild som AI:n kan fokusera på. Bildfunktionerna drivs av en multimodal version av modellerna GPT-3.5 och GPT-4, som har finjusterats för att tolka och resonera kring visuella indata.
Med de nya tilläggen kan användare ha en konversation fram och tillbaka med chatboten och be den om specifik information om bland annat bildinnehåll.
Det råder ingen tvekan om att communityn kommer att hitta intressanta sätt att testa den nya ChatGPT:s gränser.
OpenAI publicerade följande marknadsföringsdemo på X:
Använd din röst för att delta i en fram-och-tillbaka-konversation med ChatGPT. Prata med den när du är på språng, be om en godnattsaga eller lös en debatt vid middagsbordet.
Ljud på 🔊 pic.twitter.com/3tuWzX0wtS
- OpenAI (@OpenAI) 25 september 2023
Risker och utrullningsplan
Med nya funktioner följer nya risker. Rösttekniken skulle till exempel kunna missbrukas för att utge sig för att vara offentliga personer. Som en försiktighetsåtgärd har OpenAI begränsat röstfunktionen till att endast gälla konversationschatt.
När det gäller bilder har OpenAI medvetet begränsat ChatGPT:s förmåga att direkt analysera personer på foton.
OpenAI planerar en stegvis utrullning, där ChatGPT Plus- och Enterprise-användare är de första som får tillgång.
Röstfunktionen kommer att vara tillgänglig i mobilappar, medan bildfunktionerna kommer att vara tillgängliga på alla plattformar.
OpenAI:s tillkännagivande ingår i en serie av nyligen lanserade och förestående produktlanseringar av generativ AI, inklusive verktyg från YouTube, Microsofts andrepilot av AI-verktyg och assistenter, och en betydande uppdatering av Google Bard.