Последний экзамен человечества хочет, чтобы ваши сложные вопросы поставили ИИ в тупик

17 сентября 2024 года

  • Проект "Последний экзамен человечества" призывает присылать сложные вопросы, чтобы бросить вызов моделям искусственного интеллекта
  • Возможности передовых моделей ИИ почти превышают стандартные эталоны, используемые для их тестирования
  • В общей сложности $500 000 будет присуждено за лучшие вопросы.

Бенчмарки с трудом поспевают за развивающимися возможностями моделей ИИ, и проект Humanity's Last Exam просит вашей помощи, чтобы исправить ситуацию.

Проект осуществляется в сотрудничестве между Центром безопасности ИИ (CAIS) и компанией Scale AI, занимающейся разработкой данных ИИ. Цель проекта - определить, насколько мы близки к созданию систем ИИ экспертного уровня. существующие контрольные показатели не способны.

OpenAI и CAIS разработали популярный бенчмарк MMLU (Massive Multitask Language Understanding) в 2021 году. Тогда, по словам CAIS, "системы ИИ работали не лучше, чем случайные".

По словам Дэна Хендрикса, исполнительного директора CAIS, впечатляющая производительность модели o1 от OpenAI "уничтожила самые популярные эталоны рассуждений".

Производительность o1 MMLU от OpenAI по сравнению с более ранними моделями. Источник: OpenAI

Как только модели ИИ достигнут уровня 100% в MMLU, как мы будем их оценивать? В CAIS говорят: "Существующие тесты стали слишком простыми, и мы больше не можем хорошо отслеживать развитие ИИ и то, насколько они далеки от экспертного уровня".

Когда вы увидите скачок в результатах бенчмарков, которые o1 добавила к уже впечатляющим показателям GPT-4o, то недолго ждать, когда модель с искусственным интеллектом одержит победу в MMLU.

Компания Humanity's Last Exam просит людей присылать вопросы, которые действительно удивили бы вас, если бы модель искусственного интеллекта дала правильный ответ. Им нужны экзаменационные вопросы уровня доктора философии, а не "сколько букв "Р" в клубнике", которые ставят в тупик некоторые модели.

Масштаб объяснил: "По мере того как существующие тесты становятся слишком легкими, мы теряем способность различать системы искусственного интеллекта, которые могут сдать экзамены на степень бакалавра, и те, которые могут внести реальный вклад в передовые исследования и решение проблем".

Если у вас есть оригинальный вопрос, способный поставить в тупик продвинутую модель искусственного интеллекта, то вы можете стать соавтором статьи проекта и получить долю в пуле из $500 000, который будет присужден лучшим вопросам.

Чтобы дать вам представление об уровне, на который нацелен проект, Скейл объяснил, что "если случайно выбранный студент может понять, о чем его спрашивают, то это, скорее всего, слишком просто для передовых магистров сегодняшнего и завтрашнего дня".

Есть несколько интересных ограничений на типы вопросов, которые можно задавать. Им не нужны вопросы, связанные с химическим, биологическим, радиологическим и ядерным оружием, а также с кибероружием, используемым для атак на критически важные объекты инфраструктуры.

Если вы считаете, что у вас есть вопрос, который соответствует требованиям, вы можете отправить его здесь.

Присоединяйтесь к будущему


ПОДПИСАТЬСЯ СЕГОДНЯ

Четко, лаконично, всесторонне. Получите представление о развитии искусственного интеллекта с помощью DailyAI

Юджин ван дер Ватт

Юджин - выходец из электронной инженерии и обожает все, что связано с техникой. Когда он отдыхает от чтения новостей об искусственном интеллекте, вы можете найти его за столом для игры в снукер.

×

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI

Подпишитесь на нашу еженедельную рассылку и получите эксклюзивный доступ к последней электронной книге DailyAI: "Освоение инструментов искусственного интеллекта: Ваше руководство по повышению производительности в 2024 году".

* Подписываясь на нашу рассылку, вы принимаете наши Политика конфиденциальности и наш Условия и положения