Google I/O 2024 - Här är höjdpunkterna inom AI som Google avslöjade

15 maj 2024

  • Vid evenemanget Google I/O 2024 presenterades nya produktlanseringar och prototyper för Google AI
  • Gemini Pro 1.5 får en 2M kontextuppgradering och integreras i Google Workspaces
  • Flera verktyg med multimodala funktioner och nya bild-, musik- och videogeneratorer visades upp

Googles I/O 2024-event inleddes på tisdagen med flera nya AI-produktutvecklingar som tillkännagavs.

OpenAI kan ha försökt att överglänsa Google med frisättning av GPT-4o på måndagen, men Google I/O 2024 keynote var full av spännande tillkännagivanden.

Här är en titt på de framstående AI-framstegen, nya verktygen och prototyperna som Google experimenterar med.

Fråga bilder

Google Foto, Googles tjänst för lagring och delning av foton, kommer att bli sökbar med hjälp av naturliga språkfrågor med Ask Foto. Användare kan redan söka efter specifika föremål eller personer i sina foton, men Ask Photos tar detta till nästa nivå.

Googles VD Sundar Pichai visade hur du kan använda Ask Photos för att påminna dig om bilens registreringsnummer eller ge feedback om hur ett barns simförmåga har utvecklats.

Drivs av GeminiAsk Photos förstår sammanhanget i bilder och kan extrahera text, skapa sammanställningar av markeringar eller svara på frågor om lagrade bilder.

Med mer än 6 miljarder bilder som laddas upp till Google Foto varje dag behöver Ask Foto ett stort kontextfönster för att vara användbart.

Gemini 1,5 Pro

Pichai meddelade att Gemini 1,5 Pro med ett 1M token kontextfönster kommer att vara tillgängligt för Gemini Avancerade användare. Det motsvarar cirka 1 500 sidor text, flera timmars ljud och en hel timmes video.

Utvecklare kan anmäla sig till en väntelista för att prova Gemini 1.5 Pro med ett imponerande 2M kontextfönster som snart kommer att vara allmänt tillgängligt. Pichai säger att detta är nästa steg i Googles resa mot det ultimata målet med oändlig kontext.

Gemini 1.5 Pro har också fått en prestandaförbättring inom översättning, resonemang och kodning och kommer att vara verkligt multimodal med möjlighet att analysera uppladdad video och ljud.

Google Arbetsyta

Det utökade sammanhanget och de multimodala funktionerna möjliggör Gemini att vara extremt användbar när den integreras med Google Workspace.

Användare kan använda naturliga språkfrågor för att fråga Gemini frågor relaterade till deras e-postmeddelanden. I demonstrationen gavs ett exempel på en förälder som bad om en sammanfattning av de senaste e-postmeddelandena från sitt barns skola.

Gemini kommer också att kunna extrahera höjdpunkter från och svara på frågor om Google Meet-möten som kan vara upp till en timme långa.

NotebookLM - Ljudöversikt

Google släppte AnteckningsbokLM förra året. Det gör det möjligt för användare att ladda upp sina egna anteckningar och dokument som NotebookLM blir expert på.

Detta är extremt användbart som en forskningsguide eller handledare och Google demonstrerade en experimentell uppgradering som heter Audio Overview.

Audio Overview använder källdokumenten och genererar en ljuddiskussion baserad på innehållet. Användare kan delta i konversationen och använda tal för att ställa frågor till NotebookLM och styra diskussionen.

Det finns inga uppgifter om när Audio Overview kommer att lanseras, men det kan vara till stor hjälp för alla som vill ha en handledare eller ett bollplank för att lösa ett problem.

Google presenterade också LearnLM, en ny familj av modeller baserade på Gemini och finjusterad för lärande och utbildning. LearnLM kommer att göra NotebookLM, YouTube, Search och andra utbildningsverktyg mer interaktiva.

Demot var mycket imponerande men redan nu verkar det som om några av de misstag som Google gjorde med sitt ursprungliga Gemini releasevideor smög sig in i detta evenemang.

AI-agenter och Project Astra

Pichai säger att AI-agenter som drivs av Gemini kommer snart att kunna hantera våra vardagliga uppgifter. Google håller på att ta fram prototyper på agenter som ska kunna fungera på olika plattformar och i olika webbläsare.

Det exempel Pichai gav var en användare som instruerade Gemini att returnera ett par skor och sedan låta agenten gå igenom flera mejl för att hitta relevanta detaljer, logga returen med onlinebutiken och boka upphämtningen med en kurir.

Demis Hassabis presenterade Project Astra, Googles prototyp av en samtalsassistent för artificiell intelligens. Demonstrationen av dess multimodala funktioner gav en glimt av framtiden där en AI svarar på frågor i realtid baserat på livevideo och minns detaljer från tidigare video.

Hassabis sa att några av dessa funktioner skulle lanseras senare i år.

Generativ AI

Google gav oss en inblick i de generativa AI-verktyg för bilder, musik och video som företaget har arbetat med.

Google introducerade Imagen 3, sin mest avancerade bildgenerator. Den uppges reagera mer exakt på detaljer i nyanserade uppmaningar och levererar mer fotorealistiska bilder.

Hassabis säger att Imagen 3 är Googles "bästa modell hittills för att återge text, vilket har varit en utmaning för bildgenereringsmodeller".

Music AI Sandbox är en AI-musikgenerator som är utformad för att vara ett professionellt verktyg för musikskapande i samarbete, snarare än en fullständig spårgenerator. Det här ser ut att vara ett bra exempel på hur AI kan användas för att skapa bra musik med en människa som driver den kreativa processen.

Veo är Googles videogenerator som förvandlar text, bild eller video till minutlånga klipp i 1080p. Det går också att använda textmeddelanden för att göra videoredigeringar. Kommer Veo att vara lika bra som Sora?

Google kommer att lansera sin digitala vattenstämpel SynthID för text, ljud, bilder och video.

 

Trillium

Alla dessa nya multimodala funktioner kräver mycket processorkraft för att träna modellerna. Pichai presenterade Trillium, den 6:e iterationen av företagets Tensor Processing Units (TPU:er). Trillium levererar mer än 4 gånger så mycket beräkningskraft som den tidigare TPU-generationen.

Trillium kommer att finnas tillgängligt för Googles cloud computing-kunder senare i år och kommer att göra NVIDIAs Blackwell GPU:er tillgänglig i början av 2025.

AI-sökning

Google kommer att integrera Gemini i sin sökplattform i takt med att man går mot att använda generativ AI för att besvara frågor.

Med AI Overview resulterar en sökfråga i ett omfattande svar som sammanställs från flera källor på nätet. Detta gör Google Search till mer av en forskningsassistent än att bara hitta en webbplats som kan innehålla svaret.

Gemini gör att Google Sök kan använda flerstegsresonemang för att bryta ner komplexa frågor med flera delar och returnera den mest relevanta informationen från flera källor.

Geminis videoförståelse kommer snart att göra det möjligt för användare att använda en video för att ställa frågor till Google Sök.

Detta kommer att vara bra för användare av Google Sök, men det kommer sannolikt att leda till mycket mindre trafik för de webbplatser från vilka Google får informationen.

Gemini 1,5 blixt

Google tillkännagav en lättviktig, billigare och snabb modell som heter Gemini 1,5 Flash. Google säger att modellen är "optimerad för smalare eller högfrekventa uppgifter där hastigheten på modellens svarstid betyder mest."

Gemini 1,5 Flash kommer att kosta $0,35 per miljon tokens, vilket är mycket mindre än de $7 du måste betala för att använda Gemini 1,5 Pro.

Var och en av dessa framsteg och nya produkter förtjänar ett eget inlägg. Vi kommer att publicera uppdateringar när mer information blir tillgänglig eller när vi får prova dem själva.

Bli en del av framtiden


PRENUMERERA IDAG

Tydlig, kortfattad och heltäckande. Få grepp om AI-utvecklingen med DagligaAI

Eugene van der Watt

Eugene kommer från en bakgrund som elektronikingenjör och älskar allt som har med teknik att göra. När han tar en paus från att konsumera AI-nyheter hittar du honom vid snookerbordet.

×

GRATIS PDF EXKLUSIV
Ligg steget före med DailyAI

Registrera dig för vårt veckovisa nyhetsbrev och få exklusiv tillgång till DailyAI:s senaste e-bok: "Mastering AI Tools: Din 2024-guide till förbättrad produktivitet".

*Genom att prenumerera på vårt nyhetsbrev accepterar du vår Integritetspolicy och våra Villkor och anvisningar