NYU-forskere bygger et banebrytende AI-system for talesyntese

11. april 2024

  • AI-talesyntese kan hjelpe personer med hjerneskader og degenerative sykdommer
  • NYU-forskere utviklet et AI-system for å konvertere hjernedata til tale
  • Forskningen deres har som mål å gjøre AI-talesyntese mer tilgjengelig
AI-tale

Et forskerteam fra New York University har gjort fremskritt innen nevral taledekoding, noe som bringer oss nærmere en fremtid der personer som har mistet evnen til å snakke, kan få stemmen sin tilbake. 

Den studie, publisert i Naturens maskinintelligenspresenterer et nytt rammeverk for dyp læring som nøyaktig oversetter hjernesignaler til forståelig tale. 

Personer med hjerneskader som følge av hjerneslag, degenerative tilstander eller fysiske traumer kan bruke disse systemene til å kommunisere ved å avkode tankene eller den tiltenkte talen sin fra nervesignaler.

NYU teamets system involverer en dyp læringsmodell som kartlegger elektrokortikografi-signaler (EKoG) fra hjernen til talekjennetegn, som tonehøyde, lydstyrke og annet spektralt innhold.

Det andre trinnet involverer en nevral talesynthesizer som konverterer de ekstraherte talefunksjonene til et hørbart spektrogram, som deretter kan omdannes til en talebølgeform. 

Denne bølgeformen kan til slutt konverteres til syntetisk tale med naturlig lyd.

Slik fungerer studien

Denne studien går ut på å trene opp en AI-modell som kan drive en talesynteseenhet som gjør det mulig for personer med nedsatt taleevne å snakke ved hjelp av elektriske impulser fra hjernen. 

Her kan du lese mer om hvordan det fungerer:

1. Innsamling av hjernedata

Det første trinnet innebærer å samle inn rådataene som trengs for å trene opp taledekodingsmodellen. Forskerne jobbet med 48 deltakere som gjennomgikk en nevrokirurgisk operasjon for epilepsi.

I løpet av studien ble deltakerne bedt om å lese hundrevis av setninger høyt, mens hjerneaktiviteten deres ble registrert ved hjelp av EKG-registrering.

Disse rutenettene plasseres direkte på hjernens overflate og fanger opp elektriske signaler fra de hjerneområdene som er involvert i taleproduksjon.

2. Kartlegging av hjernesignaler til tale

Ved hjelp av taledata utviklet forskerne en sofistikert AI-modell som tilordner de innspilte hjernesignalene til spesifikke talekjennetegn, som tonehøyde, lydstyrke og de unike frekvensene som ulike talelyder består av. 

3. Syntetisering av tale fra funksjoner

Det tredje trinnet fokuserer på å konvertere talefunksjonene som er hentet ut fra hjernesignalene, tilbake til hørbar tale.

Forskerne brukte en spesiell talesynthesizer som tar de ekstraherte funksjonene og genererer et spektrogram - en visuell fremstilling av talelydene. 

4. Evaluering av resultatene

Forskerne sammenlignet talen som ble generert av modellen, med den opprinnelige talen som ble talt av deltakerne.

De brukte objektive parametere for å måle likheten mellom de to, og fant ut at den genererte talen stemte godt overens med originalens innhold og rytme. 

5. Testing på nye ord

For å sikre at modellen kan håndtere nye ord den ikke har sett før, ble visse ord med vilje utelatt under modellens treningsfase, og deretter ble modellens ytelse på disse usette ordene testet.

Modellens evne til å avkode selv nye ord viser at den har potensial til å generalisere og håndtere ulike talemønstre.

AI-tale
NYUs talesyntesesystem. Kilde: Natur (åpen tilgang)

Den øverste delen av diagrammet ovenfor beskriver en prosess for å konvertere hjernesignaler til tale. Først gjør en dekoder disse signalene om til taleparametere over tid. Deretter lager en synthesizer lydbilder (spektrogrammer) av disse parameterne. Et annet verktøy endrer disse bildene tilbake til lydbølger.

Den nederste delen omhandler et system som hjelper til med å trene opp hjernens signaldekoder ved å etterligne tale. Det tar et lydbilde, gjør det om til taleparametere, og bruker deretter disse til å lage et nytt lydbilde. Denne delen av systemet lærer av faktiske talelyder for å bli bedre.

Etter opplæring er det bare den øverste prosessen som trengs for å gjøre hjernesignaler om til tale.

En av de viktigste fordelene med NYUs system er at det gir taledekoding av høy kvalitet uten behov for elektroder med ultrahøy tetthet, noe som er upraktisk for langvarig bruk.

I bunn og grunn tilbyr den en lettere, bærbar løsning.

En annen prestasjon er vellykket avkoding av tale fra både venstre og høyre hjernehalvdel, noe som er viktig for pasienter med hjerneskade på den ene siden av hjernen. 

Konverterer tanker til tale ved hjelp av kunstig intelligens

NYU-studien bygger på tidligere forskning innen nevral taledekoding og hjerne-datamaskin-grensesnitt (BCI). 

I 2023 gjorde et team ved University of California, San Francisco, det mulig for en lammet slagpasient å generere setninger med en hastighet på 78 ord i minuttet ved hjelp av en BCI som syntetiserte både vokalisering og ansiktsuttrykk fra hjernesignaler. 

Andre nyere studier har utforsket bruken av kunstig intelligens til å tolke ulike aspekter ved menneskelig tankevirksomhet ut fra hjerneaktivitet. Forskere har demonstrert evnen til å generere bilder, tekst og til og med musikk fra MR- og EEG-data (elektroencefalogram) fra hjernen.

For eksempel kan en studie fra Universitetet i Helsinki brukte EEG-signaler til å veilede et generativt kontradiktorisk nettverk (GAN) i å produsere ansiktsbilder som samsvarte med deltakernes tanker.

Meta AI har også utviklet en teknikk for delvis å avkode hva noen lyttet til ved hjelp av hjernebølger som ble samlet inn ikke-invasivt.

Muligheter og utfordringer

NYUs metode bruker mer allment tilgjengelige og klinisk anvendelige elektroder enn tidligere metoder, noe som gjør den mer tilgjengelig.

Selv om dette er spennende, er det store hindringer som må overvinnes hvis vi skal se utbredt bruk. 

For det første er det komplisert og tidkrevende å samle inn hjernedata av høy kvalitet. Individuelle forskjeller i hjerneaktivitet gjør det vanskelig å generalisere, noe som betyr at en modell som er trent opp for én gruppe deltakere, kanskje ikke fungerer like godt for en annen. 

NYU-studien representerer likevel et skritt i denne retningen ved å demonstrere høypresis taleavkoding ved hjelp av lettere elektrodeoppsett. 

I tiden fremover har NYU-teamet som mål å videreutvikle modellene sine for taledekoding i sanntid, slik at vi kommer nærmere det endelige målet om å muliggjøre naturlige, flytende samtaler for personer med talevansker. 

De har også til hensikt å tilpasse systemet til implanterbare trådløse enheter som kan brukes i hverdagen.

Bli med i fremtiden


ABONNER I DAG

Tydelig, kortfattet og omfattende. Få et grep om AI-utviklingen med DagligAI

Sam Jeans

Sam er en vitenskaps- og teknologiskribent som har jobbet i ulike oppstartsbedrifter innen kunstig intelligens. Når han ikke skriver, leser han medisinske tidsskrifter eller graver seg gjennom esker med vinylplater.

×

GRATIS PDF EKSKLUSIV
Hold deg i forkant med DailyAI

Meld deg på vårt ukentlige nyhetsbrev og få eksklusiv tilgang til DailyAIs nyeste e-bok: "Mastering AI Tools: Din 2024-guide til økt produktivitet".

*Ved å abonnere på vårt nyhetsbrev aksepterer du vår Retningslinjer for personvern og vår Vilkår og betingelser