I løbet af de sidste seks måneder har vi set et revolutionerende boom af AI-drevet LLM'er (Large Language Models) er i centrum. Men er det altid nødvendigt, at et AI-produkt eller en AI-tjeneste er baseret på LLM'er? Ifølge en artikel er nye selvlærende sprogmodeller fra MIT ikke baseret på LLM'er og kan udkonkurrere nogle af de andre store AI-systemer, der i øjeblikket er førende i branchen.
En gruppe forskere ved MIT Computer Science and Artificial Intelligence Laboratory (CSAIL) har udviklet en ny måde at gribe AI-sprogmodeller an på.
Det er en banebrydende præstation, der lægger vægt på mindre sprogmodeller og deres evne til at løse problemer med ineffektivitet samt bekymringer om privatlivets fred, der er forbundet med udviklingen af store AI-modeller baseret på tekstdata.
Med fremkomsten af OpenAI's ChatGPT er baseret på sprogmodellerne GPT-3 og GPT-4, og mange virksomheder deltog i AI-kapløbet, herunder Google Bard og andre. generativ AI systemer, der giver folk mulighed for at generere tekst, billeder og endda videoer.
Men for at generere output af upåklagelig kvalitet er disse systemer afhængige af en masse data, som er dyre at behandle beregningsmæssigt. Mange af disse systemer importerer data til træning via API'er, hvilket medfører sine egne risici såsom datalækager og andre bekymringer om privatlivets fred.
Tekstuel konsekvens
Ifølge en ny artikel med titlen Entailment som robuste selvlærere I en ny artikel, som i øjeblikket er offentliggjort i preprinting online repository arXiv, bemærker forskerne, at nye selvlærende sprogmodeller fra MIT kan løse problemet med at forstå visse sprogopgaver, som store sprogmodeller har. De kalder denne banebrydende præstation for tekstuel entailment.
Modellerne er baseret på det koncept, at hvis der er to sætninger - en præmis og en hypotese - og hvis en præmis i den første sætning er sand, så er hypotesen sandsynligvis også sand.
I en erklæring offentliggjort på MIT CSAIL-bloggen, ville et eksempel på denne struktur være, at hvis "alle katte har haler", er det sandsynligt, at hypotesen "en tabby-kat har en hale" er sand. Denne tilgang fører til mindre bias i AI-modellerhvilket gør, at de nye selvlærende sprogmodeller fra MIT udkonkurrerer større sprogmodeller ifølge udtalelsen.
"Vores selvtrænede entailment-modeller med 350 millioner parametre uden menneskeskabte etiketter overgår overvågede sprogmodeller med 137 til 175 milliarder parametre," siger MIT CSAIL Postdoctoral associate Hongyin Luo, hovedforfatter, i en udtalelse. "
Han tilføjede også, at denne tilgang kunne være meget gavnlig for nuværende AI-systemer og omforme maskinlæringssystemer på en måde, der er mere skalerbar, pålidelig og omkostningseffektiv, når man arbejder med sprogmodeller.
Nye selvlærende sprogmodeller fra MIT er stadig begrænsede
Selvom de nye selvlærende sprogmodeller fra MIT lover meget, når det gælder om at løse binære klassifikationsproblemer, er de stadig begrænsede til at løse klassifikationsproblemer i flere klasser. Det betyder, at den tekstuelle konsekvens ikke fungerer lige så godt, når modellen præsenteres for flere valgmuligheder.
Ifølge James Glass, MIT-professor og CSAIL Principal Investigator, som også er forfatter til artiklen, kan denne forskning kaste lys over effektive metoder til at træne LLM'er i at forstå kontekstuelle problemer.
"Mens LLM-feltet undergår hurtige og dramatiske forandringer, viser denne forskning, at det er muligt at producere relativt kompakte sprogmodeller, der klarer sig meget godt i benchmark-forståelsesopgaver sammenlignet med deres jævnaldrende af nogenlunde samme størrelse eller endda meget større sprogmodeller", siger han.
Denne forskning er kun begyndelsen på fremtidige AI-teknologier, der kan lære af sig selv og være mere effektive, bæredygtige og fokuserede på databeskyttelse. Artiklen om de nye selvlærende sprogmodeller fra MIT vil blive præsenteret i juli på mødet i Association for Computational Linguistics i Toronto. Projektet støttes også af Hong Kong Innovation AI-program.