Исследователи из Нью-Йоркского университета вдохновились процессом обучения детей, чтобы обучить систему искусственного интеллекта.
Метод, подробно описанный в журнал НаукаЭто позволяет искусственному интеллекту учиться на основе окружающей среды, не полагаясь в значительной степени на помеченные данные, что является ключевым моментом в дизайне исследования.
Она отражает то, как дети учатся, впитывая огромное количество информации из окружающей среды, постепенно осмысливая мир вокруг себя.
Команда создала набор данных из 60 часов видеозаписей от первого лица с камеры, установленной на голове, которые носили дети в возрасте от шести месяцев до двух лет, чтобы воспроизвести детскую точку зрения в своей модели ИИ.
1/ Сегодня в журнале Science мы обучаем нейронную сеть с нуля, используя глаза и уши одного ребенка. Модель учится сопоставлять слова с визуальными референтами, показывая, насколько обоснованное изучение языка с точки зрения одного ребенка возможно с помощью современных инструментов ИИ. https://t.co/hPZiiQt6Vv pic.twitter.com/wa8jfn9b5Z
- Вай Кин Вонг (@wkvong) 1 февраля 2024 года
Затем исследователи обучили модель ИИ с самоконтролем (SSL) на основе видеоданных, чтобы выяснить, сможет ли ИИ понять концепцию действий и изменений, анализируя временную или связанную со временем информацию в видеозаписях, как это делают дети.
Подходы SSL позволяют моделям ИИ изучать паттерны и структуры в данных без явных меток.
Автор исследования Эмри Орхан, пишет в своем исследовательском блогеРанее он выступал за то, чтобы в исследованиях ИИ больше внимания уделялось SSL, который, по его мнению, имеет ключевое значение для понимания сложных процессов обучения.
Орхан писал: "Часто говорят, что дети очень эффективно усваивают значения слов. Например, утверждается, что на втором году жизни дети учат в среднем несколько слов в день. Это говорит о том, что они, вероятно, способны выучить большую часть слов всего за несколько приемов (возможно, часто всего за один прием) - явление, известное также как быстрое картирование".
4/ Чтобы проверить это, что может быть лучше, чем обучить нейронную сеть не на огромном количестве данных из Интернета, а только на том, что получает один ребенок? Чему бы она научилась, если бы вообще чему-то научилась? pic.twitter.com/bQ9aVbXUlB
- Вай Кин Вонг (@wkvong) 1 февраля 2024 года
Исследование также было направлено на выяснение того, нужны ли ИИ встроенные предубеждения или "ярлыки" для эффективного обучения или же он может развивать понимание мира с помощью общих алгоритмов обучения, подобно тому, как это делает ребенок.
Результаты оказались интригующими. Несмотря на то что видеозапись охватывала всего 1% часов бодрствования ребенка, система искусственного интеллекта смогла выучить множество слов и понятий, продемонстрировав эффективность обучения на основе ограниченных, но целенаправленных данных.
Результаты включают:
- Эффективность распознавания действий: Модели искусственного интеллекта, обученные на наборе данных SAYCam, оказались весьма эффективными в распознавании действий на видео. При тестировании на таких задачах распознавания действий, как Kinetics-700 и Something-Something-V2 (SSV2), модели показали впечатляющую производительность даже при небольшом количестве помеченных примеров для обучения.
- Сравнение с набором данных Kinetics-700: Модели, обученные на SAYCam, сравнивались с моделями, обученными на Kinetics-700, разнообразном наборе коротких роликов YouTube. Примечательно, что модели SAYCam показали конкурентоспособные результаты, что говорит о том, что ориентированные на детей, реалистичные с точки зрения развития видеоданные обеспечивают богатую обучающую среду для ИИ, аналогичную или даже лучшую, чем разнообразный контент, найденный на YouTube.
- Мастерство интерполяции видео: Интересным результатом стала способность моделей выполнять видеоинтерполяцию - предсказывать недостающие сегменты в видеопоследовательности. Это продемонстрировало понимание временной динамики и непрерывности в визуальных сценах, что отражает способ восприятия и прогнозирования действий человеком.
- Надежные представления объектов: Исследование также показало, что модели, обученные на видео, развивают более устойчивые представления объектов, чем модели, обученные на статичных изображениях. Это было заметно в задачах, требующих распознавания объектов в различных условиях, что подчеркивает ценность временной информации для обучения более устойчивых и универсальных моделей.
- Масштабирование данных и производительность модели: В исследовании изучалось, как улучшается производительность моделей при увеличении объема видеоданных из набора данных SAYCam. Это говорит о том, что доступ к более обширным и реалистичным данным повышает производительность моделей.
6/ Результаты: Даже при ограниченном количестве данных мы обнаружили, что модель может приобретать отображения слов-референтов на основе всего лишь десятков-сотен примеров, обобщать их на новые наборы визуальных данных и достигать мультимодального согласования. И снова мы видим, что подлинное изучение языка возможно с детского... pic.twitter.com/FCHfZCqftr
- Вай Кин Вонг (@wkvong) 1 февраля 2024 года
Вай Кин Вонг, научный сотрудник Центра науки о данных Нью-Йоркского университета, обсудили новизну этого подходаМы впервые показали, что нейронная сеть, обученная на таком реалистичном с точки зрения развития материале, полученном от одного ребенка, может научиться связывать слова с их визуальными аналогами".
Затрагивая проблемы, с которыми сталкиваются современные генеративные модели ИИ, Вонг сказал: "Современные системы ИИ обучаются на астрономических объемах данных (часто миллиарды/триллионы слов), в то время как человеку удается изучать и использовать язык с гораздо меньшим количеством данных (сотни миллионов слов), поэтому связь между этими достижениями в машинном обучении и освоением языка человеком не ясна".
Интерес к новым, "облегченным" методам машинного обучения растет. Например, колоссальные монолитные модели, такие как GPT-3 и GPT-4 имеют огромные требования к мощности которые нелегко удовлетворить.
Во-вторых, создание биоинспирированные системы искусственного интеллекта является ключом к созданию моделей или роботов, которые достоверно "думают" и "ведут" себя так же, как мы.
Вонг также признал ограничения исследования, отметив: "Одна из оговорок заключается в том, что языковой вход в модель - это текст, а не основной речевой сигнал, который получают дети".
Это исследование поставило под сомнение традиционные модели обучения ИИ и внесло вклад в продолжающуюся дискуссию о наиболее эффективных способах имитации биологического обучения.
Интерес к этой теме будет расти по мере того, как колоссальные модели ИИ начнут демонстрировать ограничения будущего.