NYU-forskare bygger ett banbrytande AI-system för talsyntes

11 april 2024

  • AI-talsyntes kan hjälpa personer med hjärnskador och degenerativa sjukdomar
  • NYU-forskare utvecklade ett AI-system för att omvandla hjärndata till tal
  • Deras forskning syftar till att göra AI-talsyntes mer tillgänglig
AI-tal

Ett forskarteam från New York University har gjort framsteg inom neural talavkodning, vilket för oss närmare en framtid där personer som har förlorat talförmågan kan återfå sin röst. 

Den studie, publicerad i Natur Maskinintelligenspresenterar ett nytt ramverk för djupinlärning som på ett korrekt sätt översätter hjärnsignaler till begripligt tal. 

Personer med hjärnskador efter stroke, degenerativa sjukdomar eller fysiska trauman kan använda dessa system för att kommunicera genom att avkoda sina tankar eller sitt tänkta tal från nervsignaler.

NYU-teamets system involverar en djupinlärningsmodell som mappar elektrokortikografiska (ECoG) signaler från hjärnan till talfunktioner, såsom tonhöjd, ljudstyrka och annat spektralt innehåll.

I det andra steget används en neural talsyntes som omvandlar de extraherade talegenskaperna till ett hörbart spektrogram, som sedan kan omvandlas till en talvågform. 

Den vågformen kan slutligen omvandlas till naturligt klingande syntetiskt tal.

Hur studien fungerar

Studien går ut på att träna en AI-modell som kan driva en talsyntesenhet, så att personer med talsvårigheter kan tala med hjälp av elektriska impulser från hjärnan. 

Här följer en mer detaljerad beskrivning av hur det fungerar:

1. Insamling av data om hjärnan

Det första steget handlar om att samla in de rådata som behövs för att träna talavkodningsmodellen. Forskarna arbetade med 48 deltagare som genomgick en neurokirurgisk operation för epilepsi.

Under studien ombads deltagarna att läsa hundratals meningar högt samtidigt som deras hjärnaktivitet registrerades med hjälp av ECoG-galler.

Dessa galler placeras direkt på hjärnans yta och fångar upp elektriska signaler från de hjärnregioner som är involverade i talproduktionen.

2. Mappning av hjärnans signaler till tal

Med hjälp av taldata utvecklade forskarna en sofistikerad AI-modell som mappar de inspelade hjärnsignalerna till specifika talegenskaper, såsom tonhöjd, ljudstyrka och de unika frekvenser som utgör olika språkljud. 

3. Syntetisering av tal från funktioner

Det tredje steget handlar om att omvandla de talfunktioner som utvinns ur hjärnans signaler till hörbart tal.

Forskarna använde en speciell talsyntes som tar de extraherade funktionerna och genererar ett spektrogram - en visuell representation av språkljuden. 

4. Utvärdering av resultaten

Forskarna jämförde det tal som genererades av deras modell med det ursprungliga tal som deltagarna talade.

De använde objektiva mått för att mäta likheten mellan de två och fann att det genererade talet nära matchade originalets innehåll och rytm. 

5. Testning av nya ord

För att säkerställa att modellen kan hantera nya ord som den inte har sett tidigare, utelämnades vissa ord avsiktligt under modellens träningsfas, och sedan testades modellens prestanda på dessa osedda ord.

Modellens förmåga att korrekt avkoda även nya ord visar på dess potential att generalisera och hantera olika talmönster.

AI-tal
NYU:s system för röstsyntes. Källa: NYU Natur (öppen tillgång)

Den övre delen av diagrammet ovan beskriver en process för att omvandla hjärnsignaler till tal. Först omvandlar en avkodare dessa signaler till talparametrar över tid. Därefter skapar en synthesizer ljudbilder (spektrogram) från dessa parametrar. Ett annat verktyg omvandlar dessa bilder tillbaka till ljudvågor.

I det nedre avsnittet diskuteras ett system som hjälper till att träna hjärnans signalavkodare genom att efterlikna tal. Det tar en ljudbild, omvandlar den till talparametrar och använder sedan dessa för att skapa en ny ljudbild. Den här delen av systemet lär sig av faktiska språkljud för att bli bättre.

Efter träning behövs bara den översta processen för att omvandla hjärnans signaler till tal.

En viktig fördel med NYU:s system är dess förmåga att uppnå högkvalitativ talavkodning utan behov av elektrodmatriser med ultrahög densitet, vilket är opraktiskt för långvarig användning.

I huvudsak erbjuder den en mer lättviktig, bärbar lösning.

En annan bedrift är att man lyckats avkoda tal från både vänster och höger hjärnhalva, vilket är viktigt för patienter med hjärnskador på ena sidan av hjärnan. 

Omvandla tankar till tal med hjälp av AI

NYU-studien bygger på tidigare forskning inom neural talavkodning och BCI (brain-computer interfaces). 

År 2023 gjorde ett team vid University of California, San Francisco, det möjligt för en förlamad strokeöverlevare att generera meningar med en hastighet av 78 ord per minut med hjälp av en BCI som syntetiserade både vokaliseringar och ansiktsuttryck från hjärnans signaler. 

Andra aktuella studier har utforskat användningen av AI för att tolka olika aspekter av mänskligt tänkande utifrån hjärnaktivitet. Forskare har visat att de kan generera bilder, text och till och med musik från MRI- och EEG-data (elektroencefalogram) från hjärnan.

Till exempel kan en studie från Helsingfors universitet använde EEG-signaler för att vägleda ett generativt adversarialnätverk (GAN) i att producera ansiktsbilder som matchade deltagarnas tankar.

Meta AI också utvecklat en teknik för att delvis avkoda vad någon lyssnade på med hjälp av hjärnvågor som samlats in på ett icke-invasivt sätt.

Möjligheter och utmaningar

NYU:s metod använder mer allmänt tillgängliga och kliniskt användbara elektroder än tidigare metoder, vilket gör den mer lättillgänglig.

Även om detta är spännande finns det stora hinder att övervinna om vi ska få se en utbredd användning. 

För det första är det en komplex och tidskrävande uppgift att samla in högkvalitativa hjärndata. Individuella skillnader i hjärnaktivitet gör det svårt att generalisera, vilket innebär att en modell som tränats för en grupp deltagare kanske inte fungerar så bra för en annan. 

NYU-studien utgör dock ett steg i denna riktning genom att visa på talavkodning med hög noggrannhet med hjälp av lättare elektroduppsättningar. 

Framöver kommer NYU-teamet att förfina sina modeller för talavkodning i realtid, vilket kommer att föra oss närmare det slutgiltiga målet att möjliggöra naturliga, flytande konversationer för personer med talsvårigheter. 

De har också för avsikt att anpassa systemet till implanterbara trådlösa enheter som kan användas i vardagen.

Bli en del av framtiden


PRENUMERERA IDAG

Tydlig, kortfattad och heltäckande. Få grepp om AI-utvecklingen med DagligaAI

Sam Jeans

Sam är en vetenskaps- och teknikskribent som har arbetat i olika AI-startups. När han inte skriver läser han medicinska tidskrifter eller gräver igenom lådor med vinylskivor.

×

GRATIS PDF EXKLUSIV
Ligg steget före med DailyAI

Registrera dig för vårt veckovisa nyhetsbrev och få exklusiv tillgång till DailyAI:s senaste e-bok: "Mastering AI Tools: Din 2024-guide till förbättrad produktivitet".

*Genom att prenumerera på vårt nyhetsbrev accepterar du vår Integritetspolicy och våra Villkor och anvisningar