El evento I/O 2024 de Google arrancó el martes con el anuncio de múltiples avances en productos de IA.
OpenAI puede haber intentado eclipsar a Google con el liberación de GPT-4o el lunes, pero la keynote de Google I/O 2024 estuvo repleta de anuncios interesantes.
He aquí un vistazo a los avances más destacados en IA, las nuevas herramientas y los prototipos con los que Google está experimentando.
Pregunte a Fotos
Google Fotos, el servicio de almacenamiento y compartición de fotos de Google, podrá buscarse mediante consultas en lenguaje natural con Ask Photos. Los usuarios ya pueden buscar objetos o personas concretas en sus fotos, pero Ask Photos lo lleva al siguiente nivel.
El CEO de Google, Sundar Pichai, mostró cómo se podía utilizar Ask Photos para recordar cuál era la matrícula del coche o proporcionar información sobre cómo habían progresado las capacidades de natación de un niño.
Desarrollado por GeminiAsk Photos entiende el contexto de las imágenes y puede extraer texto, crear compilaciones de imágenes destacadas o responder a consultas sobre imágenes almacenadas.
Con más de 6.000 millones de imágenes subidas diariamente a Google Fotos, Ask Photos necesitará una enorme ventana contextual para ser útil.
Y si tus fotos pudieran responder a tus preguntas? 🤔 En #GoogleIO Hoy hemos anunciado Ask Photos, una nueva función de Google Fotos que hace precisamente eso. Ask Photos es la nueva forma de buscar tus fotos con la ayuda de Gemini. #AskFotos https://t.co/KhPeCauFAf pic.twitter.com/3MZg55SgdD
- Google Fotos (@googlephotos) 14 de mayo de 2024
Gemini 1,5 Pro
Pichai anunció que Gemini 1,5 Pro con una ventana contextual de 1M de fichas estará disponible para Gemini Usuarios avanzados. Esto equivale a unas 1.500 páginas de texto, horas de audio y una hora completa de vídeo.
Los promotores pueden inscribirse en una lista de espera para probar Gemini 1.5 Pro con una impresionante ventana de contexto de 2M que pronto estará disponible de forma general. Pichai afirma que este es el siguiente paso en el camino de Google hacia el objetivo final del contexto infinito.
Gemini 1.5 Pro también ha tenido un aumento de rendimiento en traducción, razonamiento y codificación y será verdaderamente multimodal con la capacidad de analizar vídeo y audio cargados.
"Lo clavó".
"Esto lo cambia todo".
"Es una experiencia alucinante".
"Sentí que tenía un superpoder".
"Esto va a ser increíble".Escuche a los desarrolladores que han estado probando Gemini 1.5 Pro con una ventana contextual de 1 millón de fichas. #GoogleIO pic.twitter.com/odOfI4lvOL
- Google (@Google) 14 de mayo de 2024
Espacio de trabajo de Google
El contexto ampliado y las capacidades multimodales permiten Gemini que resulta extremadamente útil cuando se integra con Google Workspace.
Los usuarios pueden utilizar consultas en lenguaje natural para preguntar Gemini preguntas relacionadas con sus correos electrónicos. En la demostración se dio el ejemplo de un padre que pedía un resumen de los correos electrónicos recientes del colegio de su hijo.
Gemini también podrá extraer lo más destacado de las reuniones de Google Meet de hasta una hora de duración y responder a sus preguntas.
NotebookLM - Descripción general de audio
Google publicó CuadernoLM el año pasado. Permite a los usuarios cargar sus propias notas y documentos en los que NotebookLM se convierte en experto.
Esto es extremadamente útil como guía de investigación o tutor y Google demostró una actualización experimental llamada Audio Overview.
Audio Overview utiliza los documentos fuente de entrada y genera una conversación de audio basada en el contenido. Los usuarios pueden unirse a la conversación y utilizar el habla para consultar NotebookLM y dirigir el debate.
¡CuadernoLM! Me encanta este proyecto, el AI powered Arcades Project. Con la multimodalidad de Gemini Pro 1.5, puede crear automáticamente discusiones de audio del material que hayas añadido a tus fuentes. pic.twitter.com/IhhSfj8AqR
- Dieter Bohn (@backlon) 14 de mayo de 2024
Aún no se sabe cuándo se pondrá en marcha Audio Overview, pero podría ser de gran ayuda para cualquiera que necesite un tutor o una caja de resonancia para resolver un problema.
Google también ha anunciado LearnLM, una nueva familia de modelos basados en Gemini y perfeccionado para el aprendizaje y la educación. LearnLM potenciará NotebookLM, YouTube, Search y otras herramientas educativas para que sean más interactivas.
La demo era muy impresionante, pero ya parece que algunos de los errores cometidos por Google con su original Gemini vídeos de estreno se colaron en este evento.
La demo de notebooklm no es en tiempo real. Ojalá hubieran establecido esa expectativa sin enterrarla en una nota a pie de página con el tipo de letra más pequeño posible. pic.twitter.com/tGN5i3fsVD
- Delip Rao e/σ (@deliprao) 14 de mayo de 2024
Agentes de IA y Proyecto Astra
Pichai afirma que los agentes de IA Gemini pronto podrán ocuparse de nuestras tareas cotidianas. Google está creando prototipos de agentes que podrán funcionar en distintas plataformas y navegadores.
El ejemplo que dio Pichai fue el de un usuario que daba instrucciones Gemini Devolver un par de zapatos y que el agente tenga que trabajar con múltiples correos electrónicos para encontrar los detalles pertinentes, registrar la devolución con la tienda en línea y reservar la recogida con un servicio de mensajería.
Demis Hassabis presentó el Proyecto Astra, el prototipo de asistente conversacional de Google. La demostración de sus capacidades multimodales permitió vislumbrar un futuro en el que una IA responderá a preguntas en tiempo real basándose en vídeos en directo y recordando detalles de vídeos anteriores.
Según Hassabis, algunas de estas funciones se desplegarán a lo largo de este año.
Llevamos mucho tiempo trabajando para conseguir un agente universal de IA que pueda ser realmente útil en la vida cotidiana. Hoy en #GoogleIO mostramos nuestros últimos avances en este sentido: Proyecto Astra. Aquí tienes un vídeo de nuestro prototipo, capturado en tiempo real. pic.twitter.com/TSGDJZVslg
- Demis Hassabis (@demishassabis) 14 de mayo de 2024
IA Generativa
Google nos ha presentado las herramientas de IA generativa de imágenes, música y vídeo en las que ha estado trabajando.
Google ha presentado Imagen 3, su generador de imágenes más avanzado. Al parecer, responde con más precisión a los detalles de las indicaciones matizadas y ofrece imágenes más fotorrealistas.
Hassabis dijo que Imagen 3 es el "mejor modelo de Google hasta la fecha para renderizar texto, lo que ha supuesto un reto para los modelos de generación de imágenes".
Hoy presentamos Imagen 3, DeepMind?ref_src=twsrc%5Etfw”>@GoogleDeepMindes el modelo de generación de imágenes más eficaz hasta la fecha. Entiende las indicaciones de la forma en que escribe la gente, crea imágenes más fotorrealistas y es nuestro mejor modelo para renderizar texto. #GoogleIO pic.twitter.com/6bjidsz6pJ
- Google (@Google) 14 de mayo de 2024
Music AI Sandbox es un generador musical de IA diseñado para ser una herramienta profesional de creación musical colaborativa, más que un generador de pistas completo. Parece un magnífico ejemplo de cómo la IA puede utilizarse para crear buena música con un humano al frente del proceso creativo.
Veo es el generador de vídeo de Google que convierte texto, imágenes o vídeos en clips de un minuto a 1080p. También permite introducir texto para editar el vídeo. ¿Será Veo tan bueno como Sora?
Google desplegará su marca de agua digital SynthID en texto, audio, imágenes y vídeo.
Trillium
Todas estas nuevas capacidades multimodales necesitan mucha potencia de procesamiento para entrenar los modelos. Pichai presentó Trillium, la sexta iteración de sus unidades de procesamiento de sensores (TPU). Trillium ofrece más de 4 veces la capacidad de cálculo de la generación anterior de TPU.
Trillium estará disponible para los clientes de computación en la nube de Google a finales de este año y hará que la tecnología de NVIDIA GPU Blackwell disponible a principios de 2025.
Búsqueda AI
Google integrará Gemini en su plataforma de búsqueda a medida que avanza hacia el uso de la IA generativa para responder a las consultas.
Con AI Overview, una consulta de búsqueda da como resultado una respuesta exhaustiva recopilada de múltiples fuentes en línea. De este modo, la Búsqueda de Google se convierte más en un asistente de investigación que en una simple búsqueda de un sitio web que pueda contener la respuesta.
Gemini permite a la Búsqueda de Google utilizar el razonamiento en varios pasos para desglosar preguntas complejas de varias partes y devolver la información más relevante de varias fuentes.
Geminipronto permitirá a los usuarios utilizar un vídeo para consultar la Búsqueda de Google.
Esto será estupendo para los usuarios de la Búsqueda de Google, pero probablemente se traducirá en mucho menos tráfico para los sitios de los que Google obtiene la información.
Se trata de Buscar en la Gemini era. #GoogleIO pic.twitter.com/JxldNjbqyn
- Google (@Google) 14 de mayo de 2024
Y también podrás hacer preguntas con vídeo, directamente en la Búsqueda. Próximamente. #GoogleIO pic.twitter.com/zFVu8yOWI1
- Google (@Google) 14 de mayo de 2024
Gemini 1,5 Flash
Google ha anunciado un modelo ligero, más barato y rápido llamado Gemini 1,5 Flash. Google dice que el modelo está "optimizado para tareas más estrechas o de alta frecuencia, donde la velocidad del tiempo de respuesta del modelo importa más".
Gemini 1,5 Flash costará $0,35 por millón de fichas, mucho menos que los $7 que habría que pagar por utilizar Gemini 1,5 Pro.
Cada uno de estos avances y nuevos productos merece un artículo aparte. Los iremos actualizando a medida que dispongamos de más información o cuando podamos probarlos nosotros mismos.