Nya självlärande språkmodeller från MIT kan slå andra LLM:er

5 juni 2023

Nya självlärande språkmodeller från MIT
Nya självlärande språkmodeller från MIT är inte baserade på LLM:er (Large Language Models) utan kan överträffa dem.

Under de senaste sex månaderna har vi sett en revolutionerande boom av AI-driven LLM:er (Large Language Models) står i centrum. Men är det alltid nödvändigt för en AI-produkt eller tjänst att baseras på LLM:er? Enligt en artikel är MIT:s nya självlärande språkmodeller inte baserade på LLM:er och kan överträffa några av de andra stora AI-system som för närvarande leder branschen.

En grupp forskare vid MIT Computer Science and Artificial Intelligence Laboratory (CSAIL) har utvecklat ett nytt sätt att närma sig AI-språkmodeller.

Det är en banbrytande prestation som betonar mindre språkmodeller och deras förmåga att hantera problem med ineffektivitet samt integritetsfrågor som är kopplade till utvecklingen av stora AI-modeller baserade på textdata.

Med framväxten av OpenAI:s ChatGPT baserat på språkmodeller GPT-3 och GPT-4, många företag gick med i AI-loppet, inklusive Google Bard, och andra generativ AI system som gör det möjligt för människor att generera text, bilder och till och med videor.

För att generera resultat av oklanderlig kvalitet förlitar sig dessa system dock på en mängd data som är dyra att bearbeta beräkningsmässigt. Många av dessa system importerar data för utbildning via API:er, vilket medför risker som dataläckage och andra integritetsfrågor.

Textuell sammankoppling

Enligt en ny rapport med titeln Förvanskning som robusta självlärande som för närvarande publiceras i förtrycksarkivet arXiv, noterar forskare att nya MIT självlärande språkmodeller kan ta itu med problemet med att förstå vissa språkuppgifter som stora språkmodeller har. De hänvisar till denna banbrytande prestation som textuell entailment.

Modellerna bygger på konceptet att om det finns två meningar - en premiss och en hypotes - och om premissen i den första meningen är sann, är det sannolikt att hypotesen också är sann.

I en uttalande som publicerades på MIT CSAIL-bloggen, skulle ett exempel på denna struktur vara att om "alla katter har svans" är det troligt att hypotesen "en tabbykatt har svans" är sann. Detta tillvägagångssätt leder till mindre partiskhet i AI-modeller, vilket gör att MIT:s nya självlärande språkmodeller överträffar större språkmodeller enligt uttalandet.

"Våra självtränade entailment-modeller med 350 miljoner parametrar, utan mänskligt genererade etiketter, överträffar övervakade språkmodeller med 137 till 175 miljarder parametrar", säger MIT CSAIL Postdoctoral Associate Hongyin Luo, huvudförfattare, i ett uttalande. "

Han tillade också att detta tillvägagångssätt skulle kunna vara till stor nytta för nuvarande AI-system och omforma maskininlärningssystem på ett sätt som är mer skalbart, pålitligt och kostnadseffektivt när man arbetar med språkmodeller.

Nya självlärande språkmodeller från MIT är fortfarande begränsade

Även om MIT:s nya självlärande språkmodeller lovar mycket när det gäller att lösa binära klassificeringsproblem, är de fortfarande begränsade till att lösa flerklassiga klassificeringsproblem. Det innebär att den textuella innebörden inte fungerar lika bra när modellen presenteras med flera val.

Enligt James Glass, MIT-professor och CSAIL Principal Investigator, som också har skrivit artikeln, kan denna forskning belysa effektiva och ändamålsenliga metoder för att utbilda LLM:er i att förstå problem med kontextuell innebörd.

"Även om LLM-området genomgår snabba och dramatiska förändringar visar denna forskning att det är möjligt att producera relativt kompakta språkmodeller som presterar mycket bra på förståelseuppgifter jämfört med sina motsvarigheter av ungefär samma storlek, eller till och med mycket större språkmodeller", säger han.

Denna forskning är bara början på framtida AI-teknik som kan lära sig på egen hand och vara mer effektiv, hållbar och fokuserad på datasekretess. Artikeln om MIT:s nya självlärande språkmodeller kommer att presenteras i juli vid Association for Computational Linguistics möte i Toronto. Projektet stöds också av Hong Kong Innovation AI-program.

Bli en del av framtiden


PRENUMERERA IDAG

Tydlig, kortfattad och heltäckande. Få grepp om AI-utvecklingen med DagligaAI

Danica Simic

Danica är datavetare med mer än 7 års erfarenhet av AI och Big Data. Hon har producerat specialinnehåll för bland annat ValueWalk och IntegrateAI och har författat forskningsrapporter för Singidunum Univeristy.

×

GRATIS PDF EXKLUSIV
Ligg steget före med DailyAI

Registrera dig för vårt veckovisa nyhetsbrev och få exklusiv tillgång till DailyAI:s senaste e-bok: "Mastering AI Tools: Din 2024-guide till förbättrad produktivitet".

*Genom att prenumerera på vårt nyhetsbrev accepterar du vår Integritetspolicy och våra Villkor och anvisningar