Google I/O 2024 - Estos son los aspectos más destacados de la IA que ha revelado Google

15 de mayo de 2024

  • En el evento Google I/O 2024 se anunciaron nuevos lanzamientos y prototipos de productos de Google AI
  • Gemini Pro 1.5 recibirá una actualización de contexto 2M y se integrará en Google Workspaces
  • Se presentaron varias herramientas con funciones multimodales y nuevos generadores de imágenes, música y vídeo.

El evento I/O 2024 de Google arrancó el martes con el anuncio de múltiples avances en productos de IA.

OpenAI puede haber intentado eclipsar a Google con el liberación de GPT-4o el lunes, pero la keynote de Google I/O 2024 estuvo repleta de anuncios interesantes.

He aquí un vistazo a los avances más destacados en IA, las nuevas herramientas y los prototipos con los que Google está experimentando.

Pregunte a Fotos

Google Fotos, el servicio de almacenamiento y compartición de fotos de Google, podrá buscarse mediante consultas en lenguaje natural con Ask Photos. Los usuarios ya pueden buscar objetos o personas concretas en sus fotos, pero Ask Photos lo lleva al siguiente nivel.

El CEO de Google, Sundar Pichai, mostró cómo se podía utilizar Ask Photos para recordar cuál era la matrícula del coche o proporcionar información sobre cómo habían progresado las capacidades de natación de un niño.

Desarrollado por GeminiAsk Photos entiende el contexto de las imágenes y puede extraer texto, crear compilaciones de imágenes destacadas o responder a consultas sobre imágenes almacenadas.

Con más de 6.000 millones de imágenes subidas diariamente a Google Fotos, Ask Photos necesitará una enorme ventana contextual para ser útil.

Gemini 1,5 Pro

Pichai anunció que Gemini 1,5 Pro con una ventana contextual de 1M de fichas estará disponible para Gemini Usuarios avanzados. Esto equivale a unas 1.500 páginas de texto, horas de audio y una hora completa de vídeo.

Los promotores pueden inscribirse en una lista de espera para probar Gemini 1.5 Pro con una impresionante ventana de contexto de 2M que pronto estará disponible de forma general. Pichai afirma que este es el siguiente paso en el camino de Google hacia el objetivo final del contexto infinito.

Gemini 1.5 Pro también ha tenido un aumento de rendimiento en traducción, razonamiento y codificación y será verdaderamente multimodal con la capacidad de analizar vídeo y audio cargados.

Espacio de trabajo de Google

El contexto ampliado y las capacidades multimodales permiten Gemini que resulta extremadamente útil cuando se integra con Google Workspace.

Los usuarios pueden utilizar consultas en lenguaje natural para preguntar Gemini preguntas relacionadas con sus correos electrónicos. En la demostración se dio el ejemplo de un padre que pedía un resumen de los correos electrónicos recientes del colegio de su hijo.

Gemini también podrá extraer lo más destacado de las reuniones de Google Meet de hasta una hora de duración y responder a sus preguntas.

NotebookLM - Descripción general de audio

Google publicó CuadernoLM el año pasado. Permite a los usuarios cargar sus propias notas y documentos en los que NotebookLM se convierte en experto.

Esto es extremadamente útil como guía de investigación o tutor y Google demostró una actualización experimental llamada Audio Overview.

Audio Overview utiliza los documentos fuente de entrada y genera una conversación de audio basada en el contenido. Los usuarios pueden unirse a la conversación y utilizar el habla para consultar NotebookLM y dirigir el debate.

Aún no se sabe cuándo se pondrá en marcha Audio Overview, pero podría ser de gran ayuda para cualquiera que necesite un tutor o una caja de resonancia para resolver un problema.

Google también ha anunciado LearnLM, una nueva familia de modelos basados en Gemini y perfeccionado para el aprendizaje y la educación. LearnLM potenciará NotebookLM, YouTube, Search y otras herramientas educativas para que sean más interactivas.

La demo era muy impresionante, pero ya parece que algunos de los errores cometidos por Google con su original Gemini vídeos de estreno se colaron en este evento.

Agentes de IA y Proyecto Astra

Pichai afirma que los agentes de IA Gemini pronto podrán ocuparse de nuestras tareas cotidianas. Google está creando prototipos de agentes que podrán funcionar en distintas plataformas y navegadores.

El ejemplo que dio Pichai fue el de un usuario que daba instrucciones Gemini Devolver un par de zapatos y que el agente tenga que trabajar con múltiples correos electrónicos para encontrar los detalles pertinentes, registrar la devolución con la tienda en línea y reservar la recogida con un servicio de mensajería.

Demis Hassabis presentó el Proyecto Astra, el prototipo de asistente conversacional de Google. La demostración de sus capacidades multimodales permitió vislumbrar un futuro en el que una IA responderá a preguntas en tiempo real basándose en vídeos en directo y recordando detalles de vídeos anteriores.

Según Hassabis, algunas de estas funciones se desplegarán a lo largo de este año.

IA Generativa

Google nos ha presentado las herramientas de IA generativa de imágenes, música y vídeo en las que ha estado trabajando.

Google ha presentado Imagen 3, su generador de imágenes más avanzado. Al parecer, responde con más precisión a los detalles de las indicaciones matizadas y ofrece imágenes más fotorrealistas.

Hassabis dijo que Imagen 3 es el "mejor modelo de Google hasta la fecha para renderizar texto, lo que ha supuesto un reto para los modelos de generación de imágenes".

Music AI Sandbox es un generador musical de IA diseñado para ser una herramienta profesional de creación musical colaborativa, más que un generador de pistas completo. Parece un magnífico ejemplo de cómo la IA puede utilizarse para crear buena música con un humano al frente del proceso creativo.

Veo es el generador de vídeo de Google que convierte texto, imágenes o vídeos en clips de un minuto a 1080p. También permite introducir texto para editar el vídeo. ¿Será Veo tan bueno como Sora?

Google desplegará su marca de agua digital SynthID en texto, audio, imágenes y vídeo.

 

Trillium

Todas estas nuevas capacidades multimodales necesitan mucha potencia de procesamiento para entrenar los modelos. Pichai presentó Trillium, la sexta iteración de sus unidades de procesamiento de sensores (TPU). Trillium ofrece más de 4 veces la capacidad de cálculo de la generación anterior de TPU.

Trillium estará disponible para los clientes de computación en la nube de Google a finales de este año y hará que la tecnología de NVIDIA GPU Blackwell disponible a principios de 2025.

Búsqueda AI

Google integrará Gemini en su plataforma de búsqueda a medida que avanza hacia el uso de la IA generativa para responder a las consultas.

Con AI Overview, una consulta de búsqueda da como resultado una respuesta exhaustiva recopilada de múltiples fuentes en línea. De este modo, la Búsqueda de Google se convierte más en un asistente de investigación que en una simple búsqueda de un sitio web que pueda contener la respuesta.

Gemini permite a la Búsqueda de Google utilizar el razonamiento en varios pasos para desglosar preguntas complejas de varias partes y devolver la información más relevante de varias fuentes.

Geminipronto permitirá a los usuarios utilizar un vídeo para consultar la Búsqueda de Google.

Esto será estupendo para los usuarios de la Búsqueda de Google, pero probablemente se traducirá en mucho menos tráfico para los sitios de los que Google obtiene la información.

Gemini 1,5 Flash

Google ha anunciado un modelo ligero, más barato y rápido llamado Gemini 1,5 Flash. Google dice que el modelo está "optimizado para tareas más estrechas o de alta frecuencia, donde la velocidad del tiempo de respuesta del modelo importa más".

Gemini 1,5 Flash costará $0,35 por millón de fichas, mucho menos que los $7 que habría que pagar por utilizar Gemini 1,5 Pro.

Cada uno de estos avances y nuevos productos merece un artículo aparte. Los iremos actualizando a medida que dispongamos de más información o cuando podamos probarlos nosotros mismos.

Únete al futuro


SUSCRÍBETE HOY

Claro, conciso y completo. Conozca los avances de la IA con DailyAI

Eugene van der Watt

Eugene es ingeniero electrónico y le encanta todo lo relacionado con la tecnología. Cuando descansa de consumir noticias sobre IA, lo encontrará jugando al billar.

×

PDF GRATUITO EXCLUSIVO
Adelántese con DailyAI

Suscríbase a nuestro boletín semanal y reciba acceso exclusivo al último eBook de DailyAI: 'Mastering AI Tools: Su guía 2024 para mejorar la productividad'.

*Al suscribirse a nuestro boletín de noticias, acepta nuestra política de privacidad. Política de privacidad y nuestro Condiciones generales