NYU-forskare bygger ett banbrytande AI-system för talsyntes

Ett forskarteam från New York University har gjort framsteg inom neural talavkodning, vilket för oss närmare en framtid där personer som har förlorat talförmågan kan återfå sin röst.

Den studie, publicerad i Natur Maskinintelligenspresenterar ett nytt ramverk för djupinlärning som på ett korrekt sätt översätter hjärnsignaler till begripligt tal.

Personer med hjärnskador efter stroke, degenerativa sjukdomar eller fysiska trauman kan använda dessa system för att kommunicera genom att avkoda sina tankar eller sitt tänkta tal från nervsignaler.

NYU-teamets system involverar en djupinlärningsmodell som mappar elektrokortikografiska (ECoG) signaler från hjärnan till talfunktioner, såsom tonhöjd, ljudstyrka och annat spektralt innehåll.

I det andra steget används en neural talsyntes som omvandlar de extraherade talegenskaperna till ett hörbart spektrogram, som sedan kan omvandlas till en talvågform.

Den vågformen kan slutligen omvandlas till naturligt klingande syntetiskt tal.

Ny artikel publicerad idag i @NatMachIntelldär vi visar robust neural till tal-avkodning hos 48 patienter. https://t.co/rNPAMr4l68 pic.twitter.com/FG7QKCBVzp

- Adeen Flinker 🎗️ (@adeenflinker) 9 april 2024

Hur studien fungerar

Studien går ut på att träna en AI-modell som kan driva en talsyntesenhet, så att personer med talsvårigheter kan tala med hjälp av elektriska impulser från hjärnan.

Här följer en mer detaljerad beskrivning av hur det fungerar:

1. Insamling av data om hjärnan

Det första steget handlar om att samla in de rådata som behövs för att träna talavkodningsmodellen. Forskarna arbetade med 48 deltagare som genomgick en neurokirurgisk operation för epilepsi.

Under studien ombads deltagarna att läsa hundratals meningar högt samtidigt som deras hjärnaktivitet registrerades med hjälp av ECoG-galler.

Dessa galler placeras direkt på hjärnans yta och fångar upp elektriska signaler från de hjärnregioner som är involverade i talproduktionen.

2. Mappning av hjärnans signaler till tal

Med hjälp av taldata utvecklade forskarna en sofistikerad AI-modell som mappar de inspelade hjärnsignalerna till specifika talegenskaper, såsom tonhöjd, ljudstyrka och de unika frekvenser som utgör olika språkljud.

3. Syntetisering av tal från funktioner

Det tredje steget handlar om att omvandla de talfunktioner som utvinns ur hjärnans signaler till hörbart tal.

Forskarna använde en speciell talsyntes som tar de extraherade funktionerna och genererar ett spektrogram - en visuell representation av språkljuden.

4. Utvärdering av resultaten

Forskarna jämförde det tal som genererades av deras modell med det ursprungliga tal som deltagarna talade.

De använde objektiva mått för att mäta likheten mellan de två och fann att det genererade talet nära matchade originalets innehåll och rytm.

5. Testning av nya ord

För att säkerställa att modellen kan hantera nya ord som den inte har sett tidigare, utelämnades vissa ord avsiktligt under modellens träningsfas, och sedan testades modellens prestanda på dessa osedda ord.

Modellens förmåga att korrekt avkoda även nya ord visar på dess potential att generalisera och hantera olika talmönster.

AI-tal — NYU:s system för röstsyntes. Källa: NYU Natur (öppen tillgång)

Den övre delen av diagrammet ovan beskriver en process för att omvandla hjärnsignaler till tal. Först omvandlar en avkodare dessa signaler till talparametrar över tid. Därefter skapar en synthesizer ljudbilder (spektrogram) från dessa parametrar. Ett annat verktyg omvandlar dessa bilder tillbaka till ljudvågor.

I det nedre avsnittet diskuteras ett system som hjälper till att träna hjärnans signalavkodare genom att efterlikna tal. Det tar en ljudbild, omvandlar den till talparametrar och använder sedan dessa för att skapa en ny ljudbild. Den här delen av systemet lär sig av faktiska språkljud för att bli bättre.

Efter träning behövs bara den översta processen för att omvandla hjärnans signaler till tal.

En viktig fördel med NYU:s system är dess förmåga att uppnå högkvalitativ talavkodning utan behov av elektrodmatriser med ultrahög densitet, vilket är opraktiskt för långvarig användning.

I huvudsak erbjuder den en mer lättviktig, bärbar lösning.

En annan bedrift är att man lyckats avkoda tal från både vänster och höger hjärnhalva, vilket är viktigt för patienter med hjärnskador på ena sidan av hjärnan.

Omvandla tankar till tal med hjälp av AI

NYU-studien bygger på tidigare forskning inom neural talavkodning och BCI (brain-computer interfaces).

År 2023 gjorde ett team vid University of California, San Francisco, det möjligt för en förlamad strokeöverlevare att generera meningar med en hastighet av 78 ord per minut med hjälp av en BCI som syntetiserade både vokaliseringar och ansiktsuttryck från hjärnans signaler.

Andra aktuella studier har utforskat användningen av AI för att tolka olika aspekter av mänskligt tänkande utifrån hjärnaktivitet. Forskare har visat att de kan generera bilder, text och till och med musik från MRI- och EEG-data (elektroencefalogram) från hjärnan.

Till exempel kan en studie från Helsingfors universitet använde EEG-signaler för att vägleda ett generativt adversarialnätverk (GAN) i att producera ansiktsbilder som matchade deltagarnas tankar.

Meta AI också utvecklat en teknik för att delvis avkoda vad någon lyssnade på med hjälp av hjärnvågor som samlats in på ett icke-invasivt sätt.

Möjligheter och utmaningar

NYU:s metod använder mer allmänt tillgängliga och kliniskt användbara elektroder än tidigare metoder, vilket gör den mer lättillgänglig.

Även om detta är spännande finns det stora hinder att övervinna om vi ska få se en utbredd användning.

För det första är det en komplex och tidskrävande uppgift att samla in högkvalitativa hjärndata. Individuella skillnader i hjärnaktivitet gör det svårt att generalisera, vilket innebär att en modell som tränats för en grupp deltagare kanske inte fungerar så bra för en annan.

NYU-studien utgör dock ett steg i denna riktning genom att visa på talavkodning med hög noggrannhet med hjälp av lättare elektroduppsättningar.

Framöver kommer NYU-teamet att förfina sina modeller för talavkodning i realtid, vilket kommer att föra oss närmare det slutgiltiga målet att möjliggöra naturliga, flytande konversationer för personer med talsvårigheter.

De har också för avsikt att anpassa systemet till implanterbara trådlösa enheter som kan användas i vardagen.

NYU-forskare bygger ett banbrytande AI-system för talsyntes

Hur studien fungerar

Omvandla tankar till tal med hjälp av AI

Möjligheter och utmaningar

Bli en del av framtiden

Sam Jeans

RELATERADE ARTIKLAR

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

NYU-forskare bygger ett banbrytande AI-system för talsyntes

Hur studien fungerar

Omvandla tankar till tal med hjälp av AI

Möjligheter och utmaningar

Bli en del av framtiden

Sam Jeans

RELATERADE ARTIKLAR

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

GRATIS PDF EXKLUSIVLigg steget före med DailyAI

GRATIS PDF EXKLUSIV
Ligg steget före med DailyAI