De afgelopen zes maanden hebben we een revolutionaire hausse gezien van AI-gestuurd LLM's (Large Language Models) staan centraal. Maar is het altijd nodig om een AI-product of -dienst te baseren op LLM's? Volgens een artikel zijn nieuwe zelflerende taalmodellen van het MIT niet gebaseerd op LLM's en kunnen ze beter presteren dan sommige andere grote AI-systemen die momenteel toonaangevend zijn in de sector.
Een groep onderzoekers van het MIT Computer Science and Artificial Intelligence Laboratory (CSAIL) heeft een nieuwe manier ontwikkeld om AI-taalmodellen te benaderen.
Het is een baanbrekende prestatie die de nadruk legt op kleinere taalmodellen en hun vermogen om problemen op het gebied van inefficiëntie en privacy aan te pakken die samenhangen met de ontwikkeling van grote AI-modellen op basis van tekstuele gegevens.
Met de opkomst van OpenAI's ChatGPT gebaseerd op taalmodellen GPT-3 en GPT-4, hebben veel bedrijven zich aangesloten bij de AI-race, waaronder Google Bard en andere bedrijven. generatieve AI systemen waarmee mensen tekst, afbeeldingen en zelfs video's kunnen genereren.
Om echter een uitvoer van onberispelijke kwaliteit te genereren, zijn deze systemen afhankelijk van veel gegevens die duur zijn om rekenkundig te verwerken. Veel van deze systemen importeren gegevens voor training via API's, wat risico's met zich meebrengt zoals het lekken van gegevens en andere privacyproblemen.
Tekstuele betrokkenheid
Volgens een nieuw artikel met de titel Entailment als robuuste zelfleraars dat momenteel is gepubliceerd in de online preprinting-opslagplaats arXiv, merken onderzoekers op dat nieuwe zelflerende taalmodellen van MIT het probleem van het begrijpen van bepaalde taaltaken die grote taalmodellen hebben, kunnen aanpakken. Ze noemen deze baanbrekende prestatie 'textual entailment'.
De modellen zijn gebaseerd op het concept dat als er twee zinnen zijn - een premisse en een hypothese, in het geval dat een premisse in de eerste zin waar is, de hypothese waarschijnlijk ook waar is.
In een verklaring gepubliceerd op de MIT CSAIL blog, zou een voorbeeld van deze structuur zijn dat als "alle katten een staart hebben" de hypothese "een tabby kat heeft een staart" waarschijnlijk waar is. Deze aanpak leidt tot minder vertekening in AI-modellenwaardoor nieuwe zelflerende taalmodellen van MIT volgens de verklaring beter presteren dan grotere taalmodellen.
"Onze zelfgetrainde, 350M-parameter entailment modellen, zonder door mensen gegenereerde labels, presteren beter dan taalmodellen met toezicht met 137 tot 175 miljard parameters," zei MIT CSAIL postdoctoraal medewerker Hongyin Luo, hoofdauteur in een verklaring. "
Hij voegde er ook aan toe dat deze benadering zeer gunstig zou kunnen zijn voor de huidige AI-systemen en machine-leersystemen een nieuwe vorm zou kunnen geven die schaalbaarder, betrouwbaarder en kosteneffectiever is bij het werken met taalmodellen.
Nieuwe zelflerende taalmodellen van MIT zijn nog steeds beperkt
Hoewel nieuwe MIT zelflerende taalmodellen veel beloven als het gaat om het oplossen van binaire classificatieproblemen, is het nog steeds beperkt tot het oplossen van multi-class classificatieproblemen. Dat betekent dat de tekstuele entailment niet zo goed werkt als het model meerdere keuzes krijgt voorgeschoteld.
Volgens James Glass, MIT professor en CSAIL hoofdonderzoeker die ook auteur is van de paper, kan dit onderzoek licht werpen op efficiënte en effectieve methoden om LLM's te trainen in het begrijpen van contextuele entailment problemen.
"Terwijl het veld van LLM's snelle en dramatische veranderingen ondergaat, toont dit onderzoek aan dat het mogelijk is om relatief compacte taalmodellen te produceren die zeer goed presteren op benchmark understanding taken in vergelijking met hun collega's van ongeveer dezelfde grootte, of zelfs veel grotere taalmodellen, zei hij."
Dit onderzoek is nog maar het begin van toekomstige AI-technologieën die zelf kunnen leren en effectiever, duurzamer en meer gericht op gegevensprivacy kunnen zijn. Het artikel over de nieuwe zelflerende taalmodellen van het MIT wordt in juli gepresenteerd op de bijeenkomst van de Association for Computational Linguistics in Toronto. Het project wordt ook gesteund door de Hong Kong Innovatie AI programma.