Googles I/O 2024-event inleddes på tisdagen med flera nya AI-produktutvecklingar som tillkännagavs.
OpenAI kan ha försökt att överglänsa Google med frisättning av GPT-4o på måndagen, men Google I/O 2024 keynote var full av spännande tillkännagivanden.
Här är en titt på de framstående AI-framstegen, nya verktygen och prototyperna som Google experimenterar med.
Fråga bilder
Google Foto, Googles tjänst för lagring och delning av foton, kommer att bli sökbar med hjälp av naturliga språkfrågor med Ask Foto. Användare kan redan söka efter specifika föremål eller personer i sina foton, men Ask Photos tar detta till nästa nivå.
Googles VD Sundar Pichai visade hur du kan använda Ask Photos för att påminna dig om bilens registreringsnummer eller ge feedback om hur ett barns simförmåga har utvecklats.
Drivs av GeminiAsk Photos förstår sammanhanget i bilder och kan extrahera text, skapa sammanställningar av markeringar eller svara på frågor om lagrade bilder.
Med mer än 6 miljarder bilder som laddas upp till Google Foto varje dag behöver Ask Foto ett stort kontextfönster för att vara användbart.
Tänk om dina foton kunde svara på dina frågor? 🤔 På #GoogleIO idag tillkännagav vi Ask Photos, en ny Google Photos-funktion som gör just det. Fråga foton är det nya sättet att söka efter dina foton med hjälp av Gemini. #AskFoton https://t.co/KhPeCauFAf pic.twitter.com/3MZg55SgdD
- Google Foton (@googlephotos) 14 maj 2024
Gemini 1,5 Pro
Pichai meddelade att Gemini 1,5 Pro med ett 1M token kontextfönster kommer att vara tillgängligt för Gemini Avancerade användare. Det motsvarar cirka 1 500 sidor text, flera timmars ljud och en hel timmes video.
Utvecklare kan anmäla sig till en väntelista för att prova Gemini 1.5 Pro med ett imponerande 2M kontextfönster som snart kommer att vara allmänt tillgängligt. Pichai säger att detta är nästa steg i Googles resa mot det ultimata målet med oändlig kontext.
Gemini 1.5 Pro har också fått en prestandaförbättring inom översättning, resonemang och kodning och kommer att vara verkligt multimodal med möjlighet att analysera uppladdad video och ljud.
"Det var en fullträff."
"Det här förändrar allt."
"Det är en häpnadsväckande upplevelse."
"Det kändes som om jag hade en superkraft."
"Det här kommer att bli fantastiskt."Hör från utvecklare som har provat ut Gemini 1,5 Pro med ett kontextfönster på 1 miljon token. #GoogleIO pic.twitter.com/odOfI4lvOL
- Google (@Google) 14 maj 2024
Google Arbetsyta
Det utökade sammanhanget och de multimodala funktionerna möjliggör Gemini att vara extremt användbar när den integreras med Google Workspace.
Användare kan använda naturliga språkfrågor för att fråga Gemini frågor relaterade till deras e-postmeddelanden. I demonstrationen gavs ett exempel på en förälder som bad om en sammanfattning av de senaste e-postmeddelandena från sitt barns skola.
Gemini kommer också att kunna extrahera höjdpunkter från och svara på frågor om Google Meet-möten som kan vara upp till en timme långa.
NotebookLM - Ljudöversikt
Google släppte AnteckningsbokLM förra året. Det gör det möjligt för användare att ladda upp sina egna anteckningar och dokument som NotebookLM blir expert på.
Detta är extremt användbart som en forskningsguide eller handledare och Google demonstrerade en experimentell uppgradering som heter Audio Overview.
Audio Overview använder källdokumenten och genererar en ljuddiskussion baserad på innehållet. Användare kan delta i konversationen och använda tal för att ställa frågor till NotebookLM och styra diskussionen.
NotebookLM! Jag älskar det här projektet så mycket, det AI-drivna Arcades-projektet. Med multimodaliteten hos Gemini Pro 1.5 kan det automatiskt skapa ljuddiskussioner av det källmaterial som du har lagt till i dina källor. pic.twitter.com/IhhSfj8AqR
- Dieter Bohn (@backlon) 14 maj 2024
Det finns inga uppgifter om när Audio Overview kommer att lanseras, men det kan vara till stor hjälp för alla som vill ha en handledare eller ett bollplank för att lösa ett problem.
Google presenterade också LearnLM, en ny familj av modeller baserade på Gemini och finjusterad för lärande och utbildning. LearnLM kommer att göra NotebookLM, YouTube, Search och andra utbildningsverktyg mer interaktiva.
Demot var mycket imponerande men redan nu verkar det som om några av de misstag som Google gjorde med sitt ursprungliga Gemini releasevideor smög sig in i detta evenemang.
Notebooklm-demonstrationen är inte i realtid. Jag önskar att de hade angett den förväntningen utan att begrava den i en fotnot med minsta möjliga typsnitt. pic.twitter.com/tGN5i3fsVD
- Delip Rao e/σ (@deliprao) 14 maj 2024
AI-agenter och Project Astra
Pichai säger att AI-agenter som drivs av Gemini kommer snart att kunna hantera våra vardagliga uppgifter. Google håller på att ta fram prototyper på agenter som ska kunna fungera på olika plattformar och i olika webbläsare.
Det exempel Pichai gav var en användare som instruerade Gemini att returnera ett par skor och sedan låta agenten gå igenom flera mejl för att hitta relevanta detaljer, logga returen med onlinebutiken och boka upphämtningen med en kurir.
Demis Hassabis presenterade Project Astra, Googles prototyp av en samtalsassistent för artificiell intelligens. Demonstrationen av dess multimodala funktioner gav en glimt av framtiden där en AI svarar på frågor i realtid baserat på livevideo och minns detaljer från tidigare video.
Hassabis sa att några av dessa funktioner skulle lanseras senare i år.
Vi har länge arbetat för att få fram en universell AI-agent som verkligen kan vara till hjälp i vardagen. Idag på #GoogleIO visade vi upp våra senaste framsteg mot detta: Projekt Astra. Här är en video av vår prototyp, inspelad i realtid. pic.twitter.com/TSGDJZVslg
- Demis Hassabis (@demishassabis) 14 maj 2024
Generativ AI
Google gav oss en inblick i de generativa AI-verktyg för bilder, musik och video som företaget har arbetat med.
Google introducerade Imagen 3, sin mest avancerade bildgenerator. Den uppges reagera mer exakt på detaljer i nyanserade uppmaningar och levererar mer fotorealistiska bilder.
Hassabis säger att Imagen 3 är Googles "bästa modell hittills för att återge text, vilket har varit en utmaning för bildgenereringsmodeller".
Idag introducerar vi Imagen 3, DeepMind?ref_src=twsrc%5Etfw”>@GoogleDeepMindär vår mest kapabla bildgenereringsmodell hittills. Den förstår uppmaningar på samma sätt som människor skriver, skapar mer fotorealistiska bilder och är vår bästa modell för rendering av text. #GoogleIO pic.twitter.com/6bjidsz6pJ
- Google (@Google) 14 maj 2024
Music AI Sandbox är en AI-musikgenerator som är utformad för att vara ett professionellt verktyg för musikskapande i samarbete, snarare än en fullständig spårgenerator. Det här ser ut att vara ett bra exempel på hur AI kan användas för att skapa bra musik med en människa som driver den kreativa processen.
Veo är Googles videogenerator som förvandlar text, bild eller video till minutlånga klipp i 1080p. Det går också att använda textmeddelanden för att göra videoredigeringar. Kommer Veo att vara lika bra som Sora?
Google kommer att lansera sin digitala vattenstämpel SynthID för text, ljud, bilder och video.
Trillium
Alla dessa nya multimodala funktioner kräver mycket processorkraft för att träna modellerna. Pichai presenterade Trillium, den 6:e iterationen av företagets Tensor Processing Units (TPU:er). Trillium levererar mer än 4 gånger så mycket beräkningskraft som den tidigare TPU-generationen.
Trillium kommer att finnas tillgängligt för Googles cloud computing-kunder senare i år och kommer att göra NVIDIAs Blackwell GPU:er tillgänglig i början av 2025.
AI-sökning
Google kommer att integrera Gemini i sin sökplattform i takt med att man går mot att använda generativ AI för att besvara frågor.
Med AI Overview resulterar en sökfråga i ett omfattande svar som sammanställs från flera källor på nätet. Detta gör Google Search till mer av en forskningsassistent än att bara hitta en webbplats som kan innehålla svaret.
Gemini gör att Google Sök kan använda flerstegsresonemang för att bryta ner komplexa frågor med flera delar och returnera den mest relevanta informationen från flera källor.
Geminis videoförståelse kommer snart att göra det möjligt för användare att använda en video för att ställa frågor till Google Sök.
Detta kommer att vara bra för användare av Google Sök, men det kommer sannolikt att leda till mycket mindre trafik för de webbplatser från vilka Google får informationen.
Detta är Sök i Gemini era. #GoogleIO pic.twitter.com/JxldNjbqyn
- Google (@Google) 14 maj 2024
Och du kommer också att kunna ställa frågor med video, direkt i Sök. Kommer inom kort. #GoogleIO pic.twitter.com/zFVu8yOWI1
- Google (@Google) 14 maj 2024
Gemini 1,5 blixt
Google tillkännagav en lättviktig, billigare och snabb modell som heter Gemini 1,5 Flash. Google säger att modellen är "optimerad för smalare eller högfrekventa uppgifter där hastigheten på modellens svarstid betyder mest."
Gemini 1,5 Flash kommer att kosta $0,35 per miljon tokens, vilket är mycket mindre än de $7 du måste betala för att använda Gemini 1,5 Pro.
Var och en av dessa framsteg och nya produkter förtjänar ett eget inlägg. Vi kommer att publicera uppdateringar när mer information blir tillgänglig eller när vi får prova dem själva.