Los puntos de referencia tienen dificultades para seguir el ritmo del avance de las capacidades de los modelos de IA y el proyecto Humanity's Last Exam quiere tu ayuda para solucionarlo.
El proyecto es una colaboración entre el Centro para la Seguridad de la IA (CAIS) y la empresa de datos de IA Scale AI. El proyecto pretende medir lo cerca que estamos de conseguir sistemas de IA de nivel experto, algo puntos de referencia existentes no son capaces.
OpenAI y CAIS desarrollaron el popular benchmark MMLU (Massive Multitask Language Understanding) en 2021. Por aquel entonces, dice CAIS, "los sistemas de IA no rendían mejor que los aleatorios".
El impresionante rendimiento del modelo o1 de OpenAI ha "destruido los puntos de referencia de razonamiento más populares", según Dan Hendrycks, director ejecutivo de CAIS.
Una vez que los modelos de IA alcancen los 100% en el MMLU, ¿cómo los mediremos? CAIS afirma que "las pruebas existentes ahora se han vuelto demasiado fáciles y ya no podemos seguir bien la evolución de la IA, ni lo lejos que están de convertirse en nivel experto".
Cuando veas el salto en las puntuaciones de los benchmarks que o1 ha añadido a las ya impresionantes cifras de GPT-4o, no pasará mucho tiempo antes de que un modelo de IA se haga con el MMLU.
Esto es objetivamente cierto. pic.twitter.com/gorahh86ee
- Ethan Mollick (@emollick) 17 de septiembre de 2024
Humanity's Last Exam pide a los usuarios que envíen preguntas que realmente les sorprenderían si un modelo de inteligencia artificial diera la respuesta correcta. Quieren preguntas de examen de doctorado, no del tipo "cuántas erres hay en la fresa", con las que tropiezan algunos modelos.
Scale explicó que "a medida que las pruebas existentes se vuelven demasiado fáciles, perdemos la capacidad de distinguir entre los sistemas de IA que pueden aprobar exámenes de licenciatura y los que pueden contribuir realmente a la investigación de frontera y a la resolución de problemas".
Si tiene una pregunta original que pueda dejar perplejo a un modelo avanzado de inteligencia artificial, podrá añadir su nombre como coautor del documento del proyecto y participar en una bolsa de $500.000 que se concederá a las mejores preguntas.
Para dar una idea del nivel al que apunta el proyecto, Scale explicó que "si un estudiante universitario seleccionado al azar puede entender lo que se le pregunta, es probable que sea demasiado fácil para los LLM de frontera de hoy y mañana".
Hay algunas restricciones interesantes sobre el tipo de preguntas que pueden presentarse. No quieren nada relacionado con armas químicas, biológicas, radiológicas, nucleares o ciberarmas utilizadas para atacar infraestructuras críticas.
Si cree que tiene una pregunta que cumple los requisitos, puede enviarla aquí.