OpenAI avslører nye stemme- og bildefunksjoner for ChatGPT

25. september 2023

ChatGPT

OpenAI har avduket stemme- og bildefunksjoner for ChatGPT, som skal rulles ut i løpet av de kommende ukene for både appen og nettleseren.  

Man kan trygt si at OpenAI har hvilt på laurbærene med ChatGPT, som ikke har helt samme funksjonalitetsnivå som konkurrentene Claude fra Anthropic og Bard fra Google.

OpenAI la til en søkefunksjon i nettleseren for ChatGPT tidligere i år, noe som ga verktøyet tilgang til internett, men den fungerte ikke spesielt godt og ble fjernet for potensielt brudd på opphavsretten ved å "skrive ut" tekst fra nettsteder med betalingsmur. 

Når det er sagt, er GPT-4 den desidert mest komplekse store språkmodellen (LLM) som finnes, noe som har holdt OpenAI på toppen av den generative AI-hakkeordenen. 

OpenAI har nå styrket chatbotens funksjonalitet, samtidig som ChatGPT holder seg i rampelyset når konkurransen i bransjen hardner til.

Hva er nytt?

OpenAI legger til følgende i ChatGPT:

  • Stemmeinteraksjon: Brukerne kan nå snakke direkte til ChatGPT, og til gjengjeld kan den kunstige intelligensen svare med en av sine fem syntetiserte stemmer. Denne stemmefunksjonen understøttes av en avansert tekst-til-tale-modell som OpenAI har trent opp ved hjelp av eksempler fra stemmeskuespillere. ChatGPT utnytter Whisper, OpenAIs åpen kildekode-system for talegjenkjenning.
  • Interaksjon mellom bilder: I tillegg til tale kan brukerne nå gi ChatGPT bilder, noe som gir en visuell dimensjon til samtalen. Hvis en bruker for eksempel deler et bilde av et ødelagt apparat, kan ChatGPT potensielt diagnostisere problemet og foreslå løsninger. På mobile plattformer er det integrert et tegneverktøy som gjør det mulig for brukerne å sirkle inn eller peke ut bestemte områder i et bilde som den kunstige intelligensen kan fokusere på. Bildefunksjonene drives av en multimodal versjon av GPT-3.5- og GPT-4-modellene, som har blitt finjustert for å tolke og resonnere om visuelle inndata.

Med disse nye tilleggene kan brukerne ha en frem og tilbake-samtale med chatboten og be den om spesifikk informasjon om blant annet bildeinnhold.

Det er ingen tvil om at samfunnet vil finne interessante måter å teste den nye ChatGPTs grenser på.

OpenAI la ut følgende salgsfremmende demo på X:

Risikoer og utrullingsplan

Med nye funksjoner følger også nye risikoer. Stemmeteknologien kan for eksempel misbrukes til å utgi seg for å være offentlige personer. Som en forholdsregel har OpenAI begrenset stemmefunksjonen til kun å gjelde for samtalechat.

Når det gjelder bilder, har OpenAI bevisst begrenset ChatGPTs mulighet til å analysere personer på bilder direkte. 

OpenAI planlegger en trinnvis utrulling, der ChatGPT Plus- og Enterprise-brukere er de første som får tilgang. 

Talefunksjonen vil være tilgjengelig på mobilapper, mens bildefunksjonene vil være tilgjengelige på alle plattformer.

OpenAIs kunngjøring føyer seg inn i rekken av nylige og nært forestående generative AI-produktlanseringer, inkludert verktøy fra YouTube, Microsofts Copilot rekke AI-verktøy og assistenter, og en betydelig oppdatering av Google Bard.

Bli med i fremtiden


ABONNER I DAG

Tydelig, kortfattet og omfattende. Få et grep om AI-utviklingen med DagligAI

Sam Jeans

Sam er en vitenskaps- og teknologiskribent som har jobbet i ulike oppstartsbedrifter innen kunstig intelligens. Når han ikke skriver, leser han medisinske tidsskrifter eller graver seg gjennom esker med vinylplater.

×

GRATIS PDF EKSKLUSIV
Hold deg i forkant med DailyAI

Meld deg på vårt ukentlige nyhetsbrev og få eksklusiv tilgang til DailyAIs nyeste e-bok: "Mastering AI Tools: Din 2024-guide til økt produktivitet".

*Ved å abonnere på vårt nyhetsbrev aksepterer du vår Retningslinjer for personvern og vår Vilkår og betingelser