Meta har frigivet sin nye multimodale flersprogede AI-oversættermodel kaldet SeamlessM4T. Denne enestående oversætter kan oversætte og transskribere tale og tekst på op til 100 sprog.
Meta har arbejdet på en række sproggenkendelses- og oversættelsesprodukter, men med SeamlessM4T har de integreret flere inputs og outputs i en enkelt model.
Ifølge Metas udgivelsesmeddelelse, SeamlessM4T understøtter:
- Talegenkendelse på næsten 100 sprog
- Tale-til-tekst-oversættelse til næsten 100 input- og output-sprog
- Tale-til-tale-oversættelse, der understøtter næsten 100 input-sprog og 36 (inklusive engelsk) output-sprog
- Tekst-til-tekst-oversættelse til næsten 100 sprog
- Tekst-til-tale-oversættelse, der understøtter næsten 100 input-sprog og 35 (inklusive engelsk) output-sprog
Tale-til-tale-oversættelsen er nok en af de mere spændende funktioner i modellen. Det er fantastisk at kunne optage tale på sit eget sprog og derefter få det sagt på et andet sprog. Forestil dig, hvor nyttigt det ville være, når du rejser i et fremmed land.
I 2022 udgav Meta sin No Language Left Behind tekst-til-tekst-oversætter, som understøtter 200 sprog. Den model understøttede 55 afrikanske sprog, hvoraf mange var meget dårligt oversat af andre værktøjer.
I slutningen af sidste år offentliggjorde Meta også et eksempel på en ny tilgang til tale-til-tale-oversættelse af sprog med få ressourcer. De brugte deres Universal Speech Translator til at oversætte hokkien, som er et talesprog uden et skriftsystem.
Tidligere i år fortsatte virksomheden sit fokus på underbetjente sprog med sin Massively Multilingual Speech-model, der giver automatisk talegenkendelse af mere end 1.100 sprog.
SeamlessM4T er en samlet model, der bygger på disse individuelle modelegenskaber for at kombinere dem i en letvægtsmodel.
Vi præsenterer SeamlessM4T, den første alt-i-en, flersprogede multimodale oversættelsesmodel.
Denne ene model kan udføre opgaver på tværs af tale-til-tekst, tale-til-tale, tekst-til-tekst-oversættelse og talegenkendelse på op til 100 sprog afhængigt af opgaven.
Detaljer ⬇️
- Meta AI (@MetaAI) 22. august 2023
Træningsdata giver udfordringer med bias og toksicitet
Meta siger, at modellen blev trænet på "data fra offentligt tilgængelige lagre af webdata (titusindvis af milliarder sætninger) og tale (4 millioner timer)."
Den specificerede ikke, hvor træningsdataene kom fra, men sagde, at de kom fra licenserede og open source-data, der ikke var ophavsretligt beskyttet.
Meta erkendte, at modellen står over for de samme "iboende risici" for bias og toksicitet, som andre AI-modeller gør. Det er uundgåeligt, at fordomme i forskellige kulturer kommer til udtryk i den optagede lyd og overføres til modellen under træningsprocessen.
For at eliminere bias udvidede Meta sit flersprogede HolisticBias-tekstdatasæt til også at omfatte tale. Det er en del af indsatsen for at korrigere for de tilfælde, hvor modellen "uretmæssigt favoriserer et køn og nogle gange forfalder til kønsstereotyper."
En anden udfordring, som Meta skal tage fat på, er at sørge for, at output ikke bliver for giftigt. Toksicitet henviser til, hvordan forkerte oversættelser kan "anspore til had og vold, bandeord eller skældsord mod et individ eller en gruppe."
Meta brugte sin "meget flersprogede toksicitetsklassifikator" til at tjekke for toksicitet i input og output, så det er mindre sandsynligt, at SeamlessM4T vil støde nogen.
Den vil sandsynligvis stadig komme med nogle akavede oversættelser, da det team, der har udviklet modellen, indrømmer, at den "overgeneraliserer til maskuline former, når den oversætter fra neutrale termer." Jeg vil vædde med, at hvis du prøver hårdt nok, kan du få den til at sige noget frækt.
Hvis du gerne vil prøve det, så tjek Demo her. Man kan optage en sætning, vælge tre forskellige sprog og få sekunder senere høre den talte oversættelse. Meget imponerende.
Da Meta beskrev sine ambitioner med SeamlessM4T, henviste de til Babel Fish fra The Hitchhiker's Guide to the Galaxy. Den er ikke i stand til at oversætte i realtid endnu, men den er sandsynligvis meget mere behagelig at bruge end at stikke en fisk i øret.