Google, OpenAI och Mistral har släppt nya versioner av sina banbrytande AI-modeller inom bara 12 timmar.
Meta kommer också att delta i festen med sin kommande Llama 3-modell, och OpenAI: s mycket efterlängtade GPT-5 är i pipeline.
Det som började som en mycket nischad kategori som dominerades av ChatGPT är nu översvämmat av alternativ som överskrider Big Tech och uppdelningen mellan öppen och sluten källkod.
Google Gemini Pro 1.5
Googles Gemini Pro 1.5 var först ut och introducerade framsteg inom förståelse av långa kontexter som utmanar Claude 3 Opus, som innehåller ess i den kategorin.
Vår nästa generations AI-modell Gemini 1.5 Pro finns nu tillgänglig för allmän förhandsgranskning på @GoogleCloud's #VertexAI plattform.
Dess fönster för långa kontexter hjälper redan företag att analysera stora mängder data, bygga AI-drivna kundtjänstagenter och mycket mer. → https://t.co/CLMN3wNmeP pic.twitter.com/RpRVUul3eg
- Google DeepMind (@GoogleDeepMind) 9 april 2024
Med en kapacitet på upp till 1 miljon tokens kan Gemini Pro 1.5 hantera stora mängder information samtidigt, inklusive 700.000 ord, en timmes video eller 11 timmars ljud.
Dess MoE-arkitektur (Mixture-of-Experts) förbättrar effektiviteten och prestandan genom att använda specialiserade modeller för specifika uppgifter.
Googles lista över Gemini-modeller är ganska komplex, men det här är deras mest kapabla modell för typiska uppgifter.
Google låter också utvecklare göra 50 gratis förfrågningar till API:et dagligen, vilket en person på X uppskattade skulle kosta upp till $1.400.
För närvarande finns Gemini 1.5 Pro tillgänglig i 180 länder.
Ny version av GPT-4 Turbo
OpenAI släppte sedan en ny version, GPT-4 Turbo, med överlägsen matematik- och synbearbetning.
Enligt ett X-inlägg är "GPT-4 Turbo med Vision nu allmänt tillgängligt i API. Vision-förfrågningar kan nu också använda JSON-läge och funktionsanrop."
GPT-4 Turbo med Vision är nu allmänt tillgängligt i API:et. Vision-begäranden kan nu också använda JSON-läge och funktionsanrop.https://t.co/cbvJjij3uL
Nedan följer några bra sätt för utvecklare att bygga med vision. Skicka in dina egna i ett svar 🧵
- OpenAI-utvecklare (@OpenAIDevs) 9 april 2024
OpenAI räknar med att släppa GPT -5 inom kort, liksom sin text-till-video-modell Sora, som inte har några nämnvärda konkurrenter just nu (men det kommer att ändras).
Mixtral 8x22B
Den kanske största överraskningen kom dock från Mistral, som modigt publicerade sin Mixtral 8x22B-modell som en fritt nedladdningsbar 281 GB-fil via torrent.
magnet:?xt=urn:btih:9238b09245d0d8cd915be09927769d5f7584c1c9&dn=mixtral-8x22b&tr=udp%3A%2F%https://t.co/2UepcMGLGd%3A1337%2Fannounce&tr=http%3A%2F%https://t.co/OdtBUsbeV5%3A1337%2Fannounce
- Mistral AI (@MistralAI) 10 april 2024
Med imponerande 176 miljarder parametrar och en kontextlängd på 65.000 tokens förväntas denna open source-modell på Apache 2.0-licensen överträffa Mistrals tidigare Mixtral 8x7B-modell, som redan hade överträffat konkurrenter som Llama 2 70B i olika benchmarks.
Mixtral 8x22B:s avancerade MoE-arkitektur möjliggör effektiva beräkningar och förbättrad prestanda jämfört med tidigare iterationer.
Meta Llama 3 är inkommande
För att inte bli kvar, föreslår rapporter att Meta kan släppa en liten version av sin efterlängtade Llama 3-modell redan nästa vecka, med den fullständiga open source-modellen fortfarande planerad till juli.
Llama 3 förväntas komma i olika storlekar, från mycket små modeller som konkurrerar med Claude Haiku eller Gemini Nano till större, fullt responsiva och resonerande modeller som konkurrerar med GPT-4 eller Claude 3 Opus.
Modellera multiplikation
Ett generativt AI-ekosystem som en gång dominerades av ChatGPT översvämmas nu av alternativ.
I stort sett alla större teknikföretag är inblandade, antingen direkt eller genom betydande investeringar. Och med varje aktör som ansluter sig till kampen minskar hoppet om att en fraktion ska kunna dominera marknaden.
Vi ser nu också att gapet minskar mellan modeller med sluten källkod från OpenAI, Anthropic, Google, etc, och alternativ med sluten källkod från Mistral, Meta och andra.
Modeller med öppen källkod är fortfarande ganska svårtillgängliga för den bredare allmänheten, men även detta kommer sannolikt att förändras.
Så, representerar någon av dessa modeller verkliga framsteg inom maskininlärning, eller bara mer av samma sak men bättre? Det beror på vem du frågar.
Vissa, som Elon Musk, förutspår att AI kommer att överträffa mänsklig intelligens inom ett år.
Andra, som Metas chefsforskare Yann LeCun, hävdar att AI ligger långt efter oss när det gäller alla robusta mått på intelligens.
LeCun förklaras i februari om nuvarande LLM: "Så i grund och botten kan de inte uppfinna nya saker. De kommer att rabbla upp ungefär vad de utbildades i från offentliga data, vilket innebär att du kan få det från Google. Folk har sagt: 'Herregud, vi måste reglera LLM eftersom de kommer att bli så farliga'. Det är helt enkelt inte sant."
Meta syftar till att skapa "objektdriven" AI som på ett mer verkligt sätt förstår världen och försöker planera och resonera kring den.
"Vi arbetar hårt med att ta reda på hur vi ska få dessa modeller att inte bara prata utan faktiskt resonera, planera .....och ha minne." förklarade Joelle Pineau, vice vd för AI-forskning på Meta.
OpenAI:s Chief Operating Officer, Brad Lightcap, sa också att företaget fokuserar på att förbättra AI:s förmåga att resonera och hantera mer komplexa uppgifter.
"Vi kommer att börja se AI som kan ta sig an mer komplexa uppgifter på ett mer sofistikerat sätt", sa han vid ett evenemang nyligen, "Jag tror att med tiden ... kommer vi att se modellerna gå mot längre, mer komplexa uppgifter, och det kräver implicit en förbättring av deras förmåga att resonera."
När 2024 närmar sig sommaren kommer AI-communityt och samhället i stort att följa noga med för att se vilka banbrytande utvecklingar som kommer från dessa teknikjättars laboratorier.
Det kommer att bli ett ganska färgstarkt urval i slutet av året.