OpenAI avslöjar nya röst- och bildfunktioner för ChatGPT

25 september 2023

ChattGPT

OpenAI har presenterat röst- och bildfunktioner för ChatGPT, som kommer att rullas ut under de kommande veckorna för både appen och webbläsaren.  

Det är rättvist att säga att OpenAI har vilat på lagrarna med ChatGPT, som inte innehåller riktigt samma nivå av funktionalitet som konkurrenterna Claude från Anthropic och Bard från Google.

OpenAI lade till en sökfunktion i webbläsaren för ChatGPT tidigare i år, vilket gav verktyget tillgång till internet, men den fungerade inte särskilt bra och borttagen för att eventuellt ha brutit mot upphovsrätten genom att "skriva ut" text från webbplatser med betalvägg. 

Med detta sagt är GPT-4 den överlägset mest komplexa stora språkmodellen (LLM) som finns, vilket har hållit OpenAI i toppen av den generativa AI-ordningen. 

OpenAI har nu förbättrat chatbotens funktionalitet och håller ChatGPT kvar i rampljuset när konkurrensen inom branschen hårdnar.

Vad är nytt?

OpenAI lägger till följande i ChatGPT:

  • Interaktion med röst: Användare kan nu tala direkt till ChatGPT, och i gengäld kan AI svara hörbart med hjälp av en av sina fem syntetiserade röster. Denna röstfunktion stöds av en avancerad text-till-tal-modell som OpenAI har tränat med hjälp av exempel från röstskådespelare. ChatGPT utnyttjar Viskning, OpenAI:s talsystem med öppen källkod för taligenkänning.
  • Interaktion mellan bilder: Utöver röstmeddelanden kan användare nu förse ChatGPT med bilder, vilket ger en visuell dimension till konversationen. Om en användare till exempel delar med sig av ett foto på en trasig apparat kan ChatGPT potentiellt diagnostisera problemet och föreslå lösningar. På mobila plattformar har ett ritverktyg integrerats, vilket gör det möjligt för användare att ringa in eller peka ut specifika områden i en bild som AI:n kan fokusera på. Bildfunktionerna drivs av en multimodal version av modellerna GPT-3.5 och GPT-4, som har finjusterats för att tolka och resonera kring visuella indata.

Med de nya tilläggen kan användare ha en konversation fram och tillbaka med chatboten och be den om specifik information om bland annat bildinnehåll.

Det råder ingen tvekan om att communityn kommer att hitta intressanta sätt att testa den nya ChatGPT:s gränser.

OpenAI publicerade följande marknadsföringsdemo på X:

Risker och utrullningsplan

Med nya funktioner följer nya risker. Rösttekniken skulle till exempel kunna missbrukas för att utge sig för att vara offentliga personer. Som en försiktighetsåtgärd har OpenAI begränsat röstfunktionen till att endast gälla konversationschatt.

När det gäller bilder har OpenAI medvetet begränsat ChatGPT:s förmåga att direkt analysera personer på foton. 

OpenAI planerar en stegvis utrullning, där ChatGPT Plus- och Enterprise-användare är de första som får tillgång. 

Röstfunktionen kommer att vara tillgänglig i mobilappar, medan bildfunktionerna kommer att vara tillgängliga på alla plattformar.

OpenAI:s tillkännagivande ingår i en serie av nyligen lanserade och förestående produktlanseringar av generativ AI, inklusive verktyg från YouTube, Microsofts andrepilot av AI-verktyg och assistenter, och en betydande uppdatering av Google Bard.

Bli en del av framtiden


PRENUMERERA IDAG

Tydlig, kortfattad och heltäckande. Få grepp om AI-utvecklingen med DagligaAI

Sam Jeans

Sam är en vetenskaps- och teknikskribent som har arbetat i olika AI-startups. När han inte skriver läser han medicinska tidskrifter eller gräver igenom lådor med vinylskivor.

×

GRATIS PDF EXKLUSIV
Ligg steget före med DailyAI

Registrera dig för vårt veckovisa nyhetsbrev och få exklusiv tillgång till DailyAI:s senaste e-bok: "Mastering AI Tools: Din 2024-guide till förbättrad produktivitet".

*Genom att prenumerera på vårt nyhetsbrev accepterar du vår Integritetspolicy och våra Villkor och anvisningar