I løpet av de siste seks månedene har vi sett en revolusjonerende boom av AI-drevet LLM-er (Large Language Models) står i sentrum. Men er det alltid nødvendig for et AI-produkt eller en AI-tjeneste å være basert på LLM-er? Ifølge en artikkel er de nye selvlærende språkmodellene fra MIT ikke basert på LLM-er, og de kan utkonkurrere noen av de andre store AI-systemene som for tiden leder an i bransjen.
En gruppe forskere ved MIT Computer Science and Artificial Intelligence Laboratory (CSAIL) har utviklet en ny måte å tilnærme seg AI-språkmodeller på.
Det er en banebrytende prestasjon som legger vekt på mindre språkmodeller og deres evne til å løse problemer med ineffektivitet, samt personvernhensyn som er knyttet til utviklingen av store AI-modeller basert på tekstdata.
Med fremveksten av OpenAIs ChatGPT basert på språkmodellene GPT-3 og GPT-4, har mange selskaper sluttet seg til AI-kappløpet, inkludert Google Bard og andre generativ AI systemer som gjør det mulig å generere tekst, bilder og til og med videoer.
For å generere resultater av upåklagelig kvalitet er disse systemene imidlertid avhengige av mye data som det er dyrt å behandle beregningsmessig. Mange av disse systemene importerer data for opplæring via API-er, noe som medfører risikoer som datalekkasjer og andre personvernproblemer.
Tekstlig konsekvens
Ifølge en ny artikkel med tittelen Entailment som robuste selvlærere I en ny artikkel som nå er publisert i det elektroniske arkivet arXiv, viser forskerne at nye selvlærende språkmodeller fra MIT kan løse problemet med å forstå visse språkoppgaver som store språkmodeller har. De kaller denne banebrytende prestasjonen for tekstlig entailment.
Modellene er basert på konseptet om at hvis det finnes to setninger - en premiss og en hypotese - og premisset i den første setningen er sant, er det sannsynlig at hypotesen også er sann.
I en uttalelse publisert på MIT CSAIL-bloggen, kan et eksempel på denne strukturen være at hvis "alle katter har hale", er det sannsynlig at hypotesen "en tabby katt har hale" er sann. Denne tilnærmingen fører til mindre bias i AI-modeller, noe som gjør at de nye selvlærende språkmodellene fra MIT utkonkurrerer større språkmodeller, ifølge uttalelsen.
"Våre selvtrente, 350 millioner parametere, uten menneskeskapte etiketter, utkonkurrerer overvåkede språkmodeller med 137 til 175 milliarder parametere", sier MIT CSAIL Postdoctoral Associate Hongyin Luo, hovedforfatter i en uttalelse. "
Han la også til at denne tilnærmingen kan være svært gunstig for dagens AI-systemer og omforme maskinlæringssystemer på en måte som er mer skalerbar, pålitelig og kostnadseffektiv når man jobber med språkmodeller.
Nye selvlærende språkmodeller fra MIT er fortsatt begrensede
Selv om de nye selvlærende språkmodellene fra MIT lover mye når det gjelder å løse binære klassifiseringsproblemer, er de fortsatt begrenset til å løse flerklasseklassifiseringsproblemer. Det betyr at den tekstlige sammenhengen ikke fungerer like godt når modellen blir presentert for flere valg.
Ifølge James Glass, MIT-professor og CSAIL Principal Investigator, som også har forfattet artikkelen, kan denne forskningen kaste lys over effektive metoder for å lære opp LLM-er til å forstå kontekstuelle problemer.
"Selv om LLM-feltet gjennomgår raske og dramatiske endringer, viser denne forskningen at det er mulig å produsere relativt kompakte språkmodeller som presterer svært godt på referanseforståelsesoppgaver sammenlignet med tilsvarende modeller av omtrent samme størrelse, eller til og med mye større språkmodeller", sier han.
Denne forskningen er bare begynnelsen på fremtidige AI-teknologier som kan lære av seg selv og være mer effektive, bærekraftige og fokuserte på personvern. Artikkelen om de nye selvlærende språkmodellene fra MIT vil bli presentert i juli på møtet til Association for Computational Linguistics i Toronto. Prosjektet støttes også av Hong Kong Innovation AI-program.