UA

IBM заставила нейросеть обучаться непрерывно с перемещением во времени

Мобильная игра Flappy Bird была удалена в 2014 году по просьбе ее создателя, потому что оказалась слишком аддиктивной. Но IBM нашла способ использовать ее для исследований в области глубокого обучения. Специалисты компании представили на этой неделе исследование о том, как машины могли бы обучаться различным навыкам – в том числе, игре в Flappy Birds – постоянно, улучшая свои показатели, а не останавливаясь, столкнувшись со слишком сложным уровнем. Такой подход называется непрерывным обучением и, несмотря на десятки лет исследований, остается до сих пор сложной задачей. Об этом сообщает Информатор Tech, ссылаясь на ZDNet. Проблема непрерывного обучения была сформулирована в 1987 году Гейлом Карпентером и Стивеном Гроссбергом, которые назвали ее «дилеммой стабильности – пластичности». Искусственный интеллект должен быть «пластичным, чтобы узнавать о важных новых событиях, но должен оставаться стабильным в ответ на нерелевантные или часто повторяющиеся события». Другими словами, нейросеть должна быть создана таким образом, чтобы сохранять и расширять то, что оптимизировано, в каждом отрезке времени. Ее цель – минимизировать вмешательство, то есть помехи обучению, и в то же время максимизировать процесс будущего обучения, меняя приоритеты на основании новой информации. Для этого исследователи смешали два элемента оптимизации приоритетов: GEM, основанный на разработке специалистов Facebook 2017 года, и так называемый Reptile, созданный в прошлом году учеными из OpenAI. Это алгоритм помогает учиться новым вещам на опыте прошлого обучения. Исследователи пришли к выводу, что возможности GEM и Reptile ограничены: каждый алгоритм «смотрит» лишь в одну сторону стрелы времени. GEM хочет сохранить прошлое, а Reptile хочет менять значимость только в момент изучения нового. Вместо этого требуется симметрия, когда показатель значимости уточняется в обоих направлениях во времени.

Редкая птица

Игра Flappy Bird стала главным испытанием возможностей нового инструмента. В ней игрок должен помочь птичке безопасно добраться до места назначения, минуя преграды из труб. Разработчики определили каждое изменение аспекта игры – например, высоты труб – как новую задачу. Затем нейросеть должна была экстраполировать данные из одной задачи в следующую, чтобы максимизировать эффект от уже изученной и обработанной информации. Авторы испытали свой подход на двух разных тестах и в обоих случаях получили результаты, превосходящие возможности систем GEM и Reptile. Специалисты IBM и MIT учат ИИ просить помощи и помогать друг другу. Предложенная ими стратегия коллективного обучения имитирует то, как люди получают новую информацию – не только из непосредственного наблюдения, но и от других людей. Ранее мы писали, что ИИ от Alibaba сам создает новостные видео, а McDonald’s потратил больше $300 млн на искусственный интеллект. Также читайте ИИ: враг или помощник.

Мы используем файлы cookie, чтобы обеспечить должную работу сайта, а контент и реклама отвечали Вашим интересам.