El último examen de la humanidad quiere que tus preguntas difíciles dejen perpleja a la IA

17 de septiembre de 2024

  • El proyecto Humanity's Last Exam (El último examen de la humanidad) pide que se envíen preguntas difíciles para desafiar a los modelos de IA.
  • Las capacidades de los modelos avanzados de IA están a punto de superar los parámetros de referencia estándar utilizados para probarlos
  • Se concederá una bolsa de un total de $500.000 a las preguntas mejor seleccionadas

Los puntos de referencia tienen dificultades para seguir el ritmo del avance de las capacidades de los modelos de IA y el proyecto Humanity's Last Exam quiere tu ayuda para solucionarlo.

El proyecto es una colaboración entre el Centro para la Seguridad de la IA (CAIS) y la empresa de datos de IA Scale AI. El proyecto pretende medir lo cerca que estamos de conseguir sistemas de IA de nivel experto, algo puntos de referencia existentes no son capaces.

OpenAI y CAIS desarrollaron el popular benchmark MMLU (Massive Multitask Language Understanding) en 2021. Por aquel entonces, dice CAIS, "los sistemas de IA no rendían mejor que los aleatorios".

El impresionante rendimiento del modelo o1 de OpenAI ha "destruido los puntos de referencia de razonamiento más populares", según Dan Hendrycks, director ejecutivo de CAIS.

Rendimiento del MMLU o1 de OpenAI comparado con modelos anteriores. Fuente: OpenAI

Una vez que los modelos de IA alcancen los 100% en el MMLU, ¿cómo los mediremos? CAIS afirma que "las pruebas existentes ahora se han vuelto demasiado fáciles y ya no podemos seguir bien la evolución de la IA, ni lo lejos que están de convertirse en nivel experto".

Cuando veas el salto en las puntuaciones de los benchmarks que o1 ha añadido a las ya impresionantes cifras de GPT-4o, no pasará mucho tiempo antes de que un modelo de IA se haga con el MMLU.

Humanity's Last Exam pide a los usuarios que envíen preguntas que realmente les sorprenderían si un modelo de inteligencia artificial diera la respuesta correcta. Quieren preguntas de examen de doctorado, no del tipo "cuántas erres hay en la fresa", con las que tropiezan algunos modelos.

Scale explicó que "a medida que las pruebas existentes se vuelven demasiado fáciles, perdemos la capacidad de distinguir entre los sistemas de IA que pueden aprobar exámenes de licenciatura y los que pueden contribuir realmente a la investigación de frontera y a la resolución de problemas".

Si tiene una pregunta original que pueda dejar perplejo a un modelo avanzado de inteligencia artificial, podrá añadir su nombre como coautor del documento del proyecto y participar en una bolsa de $500.000 que se concederá a las mejores preguntas.

Para dar una idea del nivel al que apunta el proyecto, Scale explicó que "si un estudiante universitario seleccionado al azar puede entender lo que se le pregunta, es probable que sea demasiado fácil para los LLM de frontera de hoy y mañana".

Hay algunas restricciones interesantes sobre el tipo de preguntas que pueden presentarse. No quieren nada relacionado con armas químicas, biológicas, radiológicas, nucleares o ciberarmas utilizadas para atacar infraestructuras críticas.

Si cree que tiene una pregunta que cumple los requisitos, puede enviarla aquí.

Únete al futuro


SUSCRÍBETE HOY

Claro, conciso y completo. Conozca los avances de la IA con DailyAI

Eugene van der Watt

Eugene es ingeniero electrónico y le encanta todo lo relacionado con la tecnología. Cuando descansa de consumir noticias sobre IA, lo encontrará jugando al billar.

×

PDF GRATUITO EXCLUSIVO
Adelántese con DailyAI

Suscríbase a nuestro boletín semanal y reciba acceso exclusivo al último eBook de DailyAI: 'Mastering AI Tools: Su guía 2024 para mejorar la productividad'.

*Al suscribirse a nuestro boletín de noticias, acepta nuestra política de privacidad. Política de privacidad y nuestro Condiciones generales