Как правило, устройства, наподобие Amazon Echo или Google Home корректно выполняют указания, если «слышат» голос от одного человека. В случае если говорящих много – толку, скорее всего, не будет. Поэтому разработчики решили исправить это упущение.
Теперь же ИИ «научился» разделять голоса множества одновременно говорящих людей в режиме онлайн. Это обещает стать ощутимым толчком в развитии систем автоматического распознавания речи, которые могут быть очень полезны в бытовых и рабочих условиях.
Технология была разработана Лабораторией электрических исследований Мицубиси в Кембридже, Массачусетс. Ее первая демонстрация прошла в этом месяце в Токио.
В основе технологии – техника машинного обучения под названием «глубокое аггрегирование», позволяющая определять уникальные черты голоса каждого конкретного человека. Далее система группирует различные черты каждого говорящего вместе, что в итоге дает возможность различить отдельные голоса друг от друга и максимально точно реконструировать, что говорит каждый человек. Систему «натренировали» на речи 100 англоговорящих людей, что, впрочем, не помешает ей справиться с задачей, если один из них будет говорить на другом языке.
Точность распознавания и реконструкции речи двух одновременно говорящих человек составляет порядка 90%, тогда как в случае с тремя людьми этот показатель снижается до 80%. При этом в обоих случаях система никогда раньше не слышала людей, голос которых анализировала. Кроме того, предварительные испытания показали, что ИИ под силу различать даже пять голосов одновременно.