OpenAI afslører nye stemme- og billedfunktioner til ChatGPT

25. september 2023

ChatGPT

OpenAI har løftet sløret for stemme- og billedfunktioner til ChatGPT, som skal rulles ud i løbet af de kommende uger til både appen og browseren.  

Man kan roligt sige, at OpenAI har hvilet på laurbærrene med ChatGPT, som ikke har helt samme funktionsniveau som konkurrenterne Claude fra Anthropic og Bard fra Google.

OpenAI tilføjede en browsersøgningsfunktion til ChatGPT tidligere på året, hvilket gav værktøjet adgang til internettet, men det fungerede ikke særlig godt og blev... fjernet for potentielt at krænke ophavsretten ved at "printe" tekst fra betalingshjemmesider. 

Når det er sagt, er GPT-4 langt den mest komplekse store sprogmodel (LLM), der findes, hvilket har holdt OpenAI i toppen af den generative AI-hakkeorden. 

OpenAI har nu styrket chatbottens funktionalitet og samtidig holdt ChatGPT fast i rampelyset, mens konkurrencen i branchen skærpes.

Hvad er det nye?

OpenAI tilføjer følgende til ChatGPT:

  • Stemmeinteraktion: Brugerne kan nu tale direkte til ChatGPT, og til gengæld kan AI'en svare hørbart med en af sine fem syntetiserede stemmer. Denne stemmefunktion understøttes af en avanceret tekst-til-tale-model, som OpenAI har trænet ved hjælp af eksempler fra stemmeskuespillere. ChatGPT udnytter HviskendeOpenAI's open source-talesystem til genkendelse af tale.
  • Interaktion mellem billeder: Ud over tale kan brugerne nu forsyne ChatGPT med billeder, hvilket tilføjer en visuel dimension til samtalen. Hvis en bruger f.eks. deler et billede af et ødelagt apparat, kan ChatGPT potentielt diagnosticere problemet og foreslå løsninger. På mobile platforme er der integreret et tegneværktøj, som giver brugerne mulighed for at indsnævre eller udpege specifikke områder på et billede, som den kunstige intelligens kan fokusere på. Billedfunktionerne er drevet af en multimodal version af GPT-3.5- og GPT-4-modellerne, som er blevet finjusteret til at fortolke og ræsonnere over visuelle input.

Med disse nye tilføjelser kan brugerne føre en samtale frem og tilbage med chatbotten og bede den om specifikke oplysninger om f.eks. billedindhold.

Der er ingen tvivl om, at fællesskabet vil finde interessante måder at teste den nye ChatGPT's grænser på.

OpenAI har lagt følgende salgsfremmende demo ud på X:

Risici og udrulningsplan

Med nye funktioner følger nye risici. Stemmeteknologien kan f.eks. misbruges til at udgive sig for at være en offentlig person. Som en sikkerhedsforanstaltning har OpenAI begrænset stemmefunktionen til kun at omfatte samtalechat.

Med hensyn til billeder har OpenAI bevidst begrænset ChatGPT's evne til at analysere mennesker på fotos direkte. 

OpenAI planlægger en gradvis udrulning, hvor ChatGPT Plus- og Enterprise-brugere er de første, der får adgang. 

Stemmefunktionen vil være tilgængelig på mobilapps, mens billedfunktionerne vil være tilgængelige på alle platforme.

OpenAI's meddelelse indgår i et væld af nylige og forestående generative AI-produktudgivelser, herunder værktøjer fra YouTube, Microsofts kopilot række AI-værktøjer og -assistenter, og en betydelig opdatering af Google Bard.

Deltag i fremtiden


TILMELD DIG I DAG

Klar, kortfattet, omfattende. Få styr på AI-udviklingen med DailyAI

Sam Jeans

Sam er videnskabs- og teknologiforfatter og har arbejdet i forskellige AI-startups. Når han ikke skriver, kan han finde på at læse medicinske tidsskrifter eller grave i kasser med vinylplader.

×

GRATIS PDF EKSKLUSIVT
Vær på forkant med DailyAI

Tilmeld dig vores ugentlige nyhedsbrev og få eksklusiv adgang til DailyAI's seneste e-bog: 'Mastering AI Tools: Din 2024-guide til forbedret produktivitet'.

*Ved at tilmelde dig vores nyhedsbrev accepterer du vores Politik for beskyttelse af personlige oplysninger og vores Vilkår og betingelser