Meta har släppt sin nya multimodala flerspråkiga AI-översättningsmodell som heter SeamlessM4T. Denna förstklassiga översättare kan översätta och transkribera tal och text på upp till 100 språk.
Meta har arbetat med ett antal produkter för språkigenkänning och översättning, men med SeamlessM4T har man integrerat flera in- och utgångar i en enda modell.
Enligt uppgift från Metas tillkännagivande av utgivningen, SeamlessM4T stöder:
- Taligenkänning för nästan 100 språk
- Tal-till-text-översättning för nästan 100 inmatnings- och utmatningsspråk
- Tal-till-tal-översättning med stöd för nästan 100 inmatningsspråk och 36 utmatningsspråk (inklusive engelska)
- Text-till-text-översättning för nästan 100 språk
- Text-till-tal-översättning med stöd för nästan 100 inmatningsspråk och 35 utmatningsspråk (inklusive engelska)
Tal-till-tal-översättningen är förmodligen en av de mer spännande funktionerna i modellen. Att kunna spela in tal på sitt eget språk och sedan få det uppläst på ett annat språk är fantastiskt. Föreställ dig hur användbart det här skulle vara när du reser i ett främmande land.
År 2022 släppte Meta sin No Language Left Behind text-till-text-översättare som stöder 200 språk. Den modellen stödde 55 afrikanska språk, varav många var mycket dåligt översatta av andra verktyg.
I slutet av förra året släppte Meta också ett exempel på ett nytt tillvägagångssätt för tal-till-tal-översättning av lågresursspråk. Den använde sin Universal Speech Translator för att översätta Hokkien, som är ett talat språk utan ett skrivsystem.
Tidigare i år fortsatte bolaget sitt fokus på underförsörjda språk med sin Massively Multilingual Speech-modell som ger automatisk taligenkänning av mer än 1.100 språk.
SeamlessM4T är en enhetlig modell som bygger på dessa individuella modellfunktioner för att kombinera dem till en lättviktig modell.
Vi presenterar SeamlessM4T, den första allt-i-ett-modellen för flerspråkig multimodal översättning.
Denna enda modell kan utföra uppgifter inom tal-till-text, tal-till-tal, text-till-text-översättning och taligenkänning för upp till 100 språk beroende på uppgiften.
Detaljer ⬇️
- Meta AI (@MetaAI) 22 augusti 2023
Utbildningsdata innebär utmaningar när det gäller partiskhet och toxicitet
Meta säger att dess modell tränades på "data från offentligt tillgängliga arkiv med webbdata (tiotals miljarder meningar) och tal (4 miljoner timmar)."
Man specificerade inte varifrån träningsdatan kom, men sa att den kom från licensierad data med öppen källkod som inte var upphovsrättsskyddad.
Meta erkände att modellen står inför samma "inneboende risker" för partiskhet och toxicitet som andra AI-modeller gör. Oundvikligen uttrycks fördomar i olika kulturer i det inspelade ljudet och överförs till modellen under träningsprocessen.
För att eliminera partiskhet utvidgade Meta sin flerspråkiga HolisticBias textdataset för att rymma tal. Detta är en del av dess ansträngningar att korrigera för när modellen kan "orättvist gynna ett kön och ibland standard till könsstereotyper."
Att tillhandahålla skyddsräcken för att begränsa toxiciteten i utmatningen är en annan utmaning som Meta måste ta itu med. Toxicitet hänvisar till hur felaktiga översättningar kan "uppmuntra hat, våld, svordomar eller kränkningar mot en individ eller en grupp."
Meta använde sin "mycket flerspråkiga toxicitetsklassificerare" för att kontrollera toxicitet i in- och utdata så att SeamlessM4T är mindre benägna att förolämpa någon.
Det kommer förmodligen fortfarande att bli en del besvärliga översättningar eftersom teamet som utvecklade modellen medger att den "övergeneraliserar till maskulina former när den översätter från neutrala termer". Om du försöker tillräckligt hårt kan du säkert få den att säga något styggt.
Om du vill prova det kan du kolla in demo här. Du kan spela in en mening, välja tre olika språk och några sekunder senare höra de talade översättningarna. Mycket imponerande.
I beskrivningen av sina ambitioner med SeamlessM4T hänvisade Meta till Babel Fish från Liftarens guide till galaxen. Det kan inte översätta i realtid ännu, men det är förmodligen mycket bekvämare att använda än att sticka en fisk i örat.