Исследователи Нью-Йоркского университета создали искусственный интеллект, который видит глазами ребенка

2 февраля 2024 года

ИИ для детских глаз

Исследователи из Нью-Йоркского университета вдохновились процессом обучения детей, чтобы обучить систему искусственного интеллекта. 

Метод, подробно описанный в журнал НаукаЭто позволяет искусственному интеллекту учиться на основе окружающей среды, не полагаясь в значительной степени на помеченные данные, что является ключевым моментом в дизайне исследования.

Она отражает то, как дети учатся, впитывая огромное количество информации из окружающей среды, постепенно осмысливая мир вокруг себя.

Команда создала набор данных из 60 часов видеозаписей от первого лица с камеры, установленной на голове, которые носили дети в возрасте от шести месяцев до двух лет, чтобы воспроизвести детскую точку зрения в своей модели ИИ. 

Затем исследователи обучили модель ИИ с самоконтролем (SSL) на основе видеоданных, чтобы выяснить, сможет ли ИИ понять концепцию действий и изменений, анализируя временную или связанную со временем информацию в видеозаписях, как это делают дети.

Подходы SSL позволяют моделям ИИ изучать паттерны и структуры в данных без явных меток.

Автор исследования Эмри Орхан, пишет в своем исследовательском блогеРанее он выступал за то, чтобы в исследованиях ИИ больше внимания уделялось SSL, который, по его мнению, имеет ключевое значение для понимания сложных процессов обучения. 

Орхан писал: "Часто говорят, что дети очень эффективно усваивают значения слов. Например, утверждается, что на втором году жизни дети учат в среднем несколько слов в день. Это говорит о том, что они, вероятно, способны выучить большую часть слов всего за несколько приемов (возможно, часто всего за один прием) - явление, известное также как быстрое картирование".

Исследование также было направлено на выяснение того, нужны ли ИИ встроенные предубеждения или "ярлыки" для эффективного обучения или же он может развивать понимание мира с помощью общих алгоритмов обучения, подобно тому, как это делает ребенок. 

Результаты оказались интригующими. Несмотря на то что видеозапись охватывала всего 1% часов бодрствования ребенка, система искусственного интеллекта смогла выучить множество слов и понятий, продемонстрировав эффективность обучения на основе ограниченных, но целенаправленных данных.

Результаты включают:

  • Эффективность распознавания действий: Модели искусственного интеллекта, обученные на наборе данных SAYCam, оказались весьма эффективными в распознавании действий на видео. При тестировании на таких задачах распознавания действий, как Kinetics-700 и Something-Something-V2 (SSV2), модели показали впечатляющую производительность даже при небольшом количестве помеченных примеров для обучения.
  • Сравнение с набором данных Kinetics-700: Модели, обученные на SAYCam, сравнивались с моделями, обученными на Kinetics-700, разнообразном наборе коротких роликов YouTube. Примечательно, что модели SAYCam показали конкурентоспособные результаты, что говорит о том, что ориентированные на детей, реалистичные с точки зрения развития видеоданные обеспечивают богатую обучающую среду для ИИ, аналогичную или даже лучшую, чем разнообразный контент, найденный на YouTube.
  • Мастерство интерполяции видео: Интересным результатом стала способность моделей выполнять видеоинтерполяцию - предсказывать недостающие сегменты в видеопоследовательности. Это продемонстрировало понимание временной динамики и непрерывности в визуальных сценах, что отражает способ восприятия и прогнозирования действий человеком.
  • Надежные представления объектов: Исследование также показало, что модели, обученные на видео, развивают более устойчивые представления объектов, чем модели, обученные на статичных изображениях. Это было заметно в задачах, требующих распознавания объектов в различных условиях, что подчеркивает ценность временной информации для обучения более устойчивых и универсальных моделей.
  • Масштабирование данных и производительность модели: В исследовании изучалось, как улучшается производительность моделей при увеличении объема видеоданных из набора данных SAYCam. Это говорит о том, что доступ к более обширным и реалистичным данным повышает производительность моделей.

Вай Кин Вонг, научный сотрудник Центра науки о данных Нью-Йоркского университета, обсудили новизну этого подходаМы впервые показали, что нейронная сеть, обученная на таком реалистичном с точки зрения развития материале, полученном от одного ребенка, может научиться связывать слова с их визуальными аналогами". 

Затрагивая проблемы, с которыми сталкиваются современные генеративные модели ИИ, Вонг сказал: "Современные системы ИИ обучаются на астрономических объемах данных (часто миллиарды/триллионы слов), в то время как человеку удается изучать и использовать язык с гораздо меньшим количеством данных (сотни миллионов слов), поэтому связь между этими достижениями в машинном обучении и освоением языка человеком не ясна".

Интерес к новым, "облегченным" методам машинного обучения растет. Например, колоссальные монолитные модели, такие как GPT-3 и GPT-4 имеют огромные требования к мощности которые нелегко удовлетворить. 

Во-вторых, создание биоинспирированные системы искусственного интеллекта является ключом к созданию моделей или роботов, которые достоверно "думают" и "ведут" себя так же, как мы.

Вонг также признал ограничения исследования, отметив: "Одна из оговорок заключается в том, что языковой вход в модель - это текст, а не основной речевой сигнал, который получают дети".

Это исследование поставило под сомнение традиционные модели обучения ИИ и внесло вклад в продолжающуюся дискуссию о наиболее эффективных способах имитации биологического обучения.

Интерес к этой теме будет расти по мере того, как колоссальные модели ИИ начнут демонстрировать ограничения будущего. 

Присоединяйтесь к будущему


ПОДПИСАТЬСЯ СЕГОДНЯ

Четко, лаконично, всесторонне. Получите представление о развитии искусственного интеллекта с помощью DailyAI

Сэм Джинс

Сэм - писатель в области науки и техники, работавший в различных AI-стартапах. Когда он не пишет, его можно найти за чтением медицинских журналов или копанием в коробках с виниловыми пластинками.

×

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI

Подпишитесь на нашу еженедельную рассылку и получите эксклюзивный доступ к последней электронной книге DailyAI: "Освоение инструментов искусственного интеллекта: Ваше руководство по повышению производительности в 2024 году".

* Подписываясь на нашу рассылку, вы принимаете наши Политика конфиденциальности и наш Условия и положения