Программисты из Google DeepMind с помощью метода обучения с подкреплением «научили» ИИ преодолевать препятствия в виртуальном мире. Ознакомиться со статьей по данной теме можно на сервере препринтов ArXiv (pdf), также об этом пишет The Verge.
Суть обучение с подкреплением заключается в том, что система, которая проходит испытания (агент) помещается в определенную среду, о которой ей ничего неизвестно, но в которой она имеет определенную свободу действий. Таким образом, система «учится», получая штраф или награду за то или иное действие. Главное отличие машинного обучения Google DeepMind от аналогичных систем – выработка сложного поведения ИИ.
Что же касается самого эксперимента, то он заключался в следующем: в виртуальный мир, наполненный препятствиями различной сложности, помещались трое «испытуемых» – тело с двумя ногами, четвероногий «паук» и фигура, напоминающая человека. Каждый из них имел свои сенсоры для отслеживания положения в пространстве. Все агенты должны были преодолеть расстояние из точки А в точку В, причем чем скорее они туда добирались, тем выше получали вознаграждение. Также была реализована система штрафов за определенные ошибки каждого агента.
В результате ИИ удалось научиться совершать сложные действия, вроде перепрыгивания ям, уклонения от препятствий сверху или же подъема на стены и барьеры. Кроме того, было отмечено, что сложная среда вместе с простой системой наград способствует выработке нестандартных приемов движения.
В прошлом году разработчики из Google DeepMind смогли «научить» ИИ высчитывать вес и количество объектов в виртуальном мире, также используя машинное обучение вышеотмеченного типа. В будущем такие наработки могу быть необычайно полезны при разработке роботов, которые должны будут перемещаться по неровным поверхностям.