Командой Google DeepMind в сотрудничестве с Оксфордским университетом была разработана инновационная ИИ-система, которая почти на 35% обошла результат профессионального считывателя по губам.
Для обучения системы были использованы новостные телеканалы Newsnight и BBC Breakfast and Question Time, выходившие в эфир с января 2010 по декабрь 2015 года. Полученный в ходе обучения массив данных составил порядка 5000 часов и 118 000 предложений.
Чтобы подтвердить эффективность приложения, был проведен сравнительный тест. Разработчики пригласили в качестве соперника для ИИ специалиста по чтению по губам. В ходе эксперимента ИИ и профессионал получили случайный набор в 200 видео из массива, использовавшегося при тестировании. В итоге человек сумел без ошибок распознать 12,4% слов, в то время как система — 46,8%.
За две недели до этих событий Оксфордский университет анонсировал похожую самообучающуюся систему на основе ИИ — LipNet, которая также превзошла человека в распознавании речи по губам. Впрочем, она «знает» всего 51 уникальное слово, против 17 500 слов у разработки от DeepMind.