Meta heeft zijn nieuwe multimodale meertalige AI-vertalingsmodel SeamlessM4T uitgebracht. Deze unieke vertaler kan spraak en tekst vertalen en transcriberen in wel 100 talen.
Meta heeft gewerkt aan een aantal taalherkennings- en vertaalproducten, maar met SeamlessM4T heeft het meerdere inputs en outputs geïntegreerd in een enkel model.
Volgens Meta's aankondigingSeamlessM4T ondersteunt:
- Spraakherkenning voor bijna 100 talen
- Spraak-naar-tekst vertaling voor bijna 100 in- en uitvoertalen
- Spraak-naar-spraak vertaling, met ondersteuning voor bijna 100 invoertalen en 36 (inclusief Engels) uitvoertalen
- Tekst-naar-tekst vertaling voor bijna 100 talen
- Tekst-naar-spraak vertaling, met ondersteuning voor bijna 100 invoertalen en 35 (inclusief Engels) uitvoertalen
De spraak-naar-spraak vertaling is waarschijnlijk een van de meest opwindende mogelijkheden van het model. Het is verbazingwekkend om spraak in je eigen taal op te kunnen nemen en het vervolgens in een andere taal te laten uitspreken. Stel je eens voor hoe handig dit zou zijn op reis in het buitenland.
In 2022 bracht Meta zijn No Language Left Behind tekst-naar-tekst vertaler uit, die 200 talen ondersteunt. Dat model ondersteunde 55 Afrikaanse talen, waarvan vele zeer slecht werden vertaald door andere tools.
Eind vorig jaar gaf Meta ook een voorbeeld van een nieuwe benadering van spraak-naar-spraak vertaling van talen met een lage bron. Het gebruikte zijn Universal Speech Translator om Hokkien te vertalen, een gesproken taal zonder schrijfsysteem.
Eerder dit jaar zette het zijn focus op minder gebruikte talen voort met zijn Massively Multilingual Speech-model dat automatische spraakherkenning biedt van meer dan 1.100 talen.
SeamlessM4T is een uniform model dat voortbouwt op deze individuele modelmogelijkheden om ze te combineren in één lichtgewicht model.
Maak kennis met SeamlessM4T, het eerste alles-in-één, meertalig multimodaal vertaalmodel.
Dit enkele model kan taken uitvoeren op het gebied van spraak-naar-tekst, spraak-naar-spraak, tekst-naar-tekst vertaling en spraakherkenning voor tot wel 100 talen, afhankelijk van de taak.
Details ⬇️
- Meta AI (@MetaAI) 22 augustus 2023
Trainingsgegevens hebben te maken met vertekening en toxiciteit
Meta zegt dat het model is getraind op "gegevens uit openbaar beschikbare opslagplaatsen van webgegevens (tientallen miljarden zinnen) en spraak (4 miljoen uur)".
Het specificeerde niet waar de trainingsgegevens vandaan kwamen, maar zei dat ze afkomstig waren van gelicentieerde en open-source gegevens waar geen auteursrecht op rustte.
Meta erkende dat het model te maken heeft met dezelfde "inherente risico's" van vooringenomenheid en toxiciteit als andere AI-modellen. Het is onvermijdelijk dat de vooringenomenheid in verschillende culturen tot uiting komt in de opgenomen audio en wordt overgedragen op het model tijdens het trainingsproces.
Om vooroordelen te elimineren heeft Meta de Multilingual HolisticBias tekstdataset uitgebreid met spraak. Dit maakt deel uit van de inspanningen om te corrigeren voor gevallen waarin het model "onterecht een voorkeur voor een geslacht kan hebben en soms terugvalt op genderstereotypen".
Een andere uitdaging die Meta moet aanpakken, is het bieden van van vangrails om de toxiciteit van de output te beperken. Toxiciteit verwijst naar hoe onjuiste vertalingen kunnen "aanzetten tot haat, geweld", godslastering of belediging van een individu of een groep."
Meta gebruikte zijn "zeer meertalige toxiciteitsclassificator" om te controleren op toxiciteit in inputs en outputs, zodat SeamlessM4T minder snel iemand zal beledigen.
Het zal waarschijnlijk nog steeds met een aantal onhandige vertalingen komen, omdat het team dat het model heeft ontwikkeld toegeeft dat het "overgeneraliseert naar mannelijke vormen bij het vertalen van neutrale termen". Ik durf te wedden dat als je hard genoeg je best doet, je iets ondeugends kunt laten zeggen.
Als je het wilt uitproberen, bekijk dan de demo hier. Je kunt een zin opnemen, drie verschillende talen selecteren en een paar seconden later de gesproken vertalingen horen. Zeer indrukwekkend.
Bij het beschrijven van haar ambities met SeamlessM4T verwees Meta naar de Babel Fish uit The Hitchhiker's Guide to the Galaxy. Het kan nog niet real-time vertalen, maar het is waarschijnlijk een stuk prettiger in gebruik dan een vis in je oor steken.