Информатор Tech

Новости

Нейросеть научилась создавать лицо человека по его голосу

Технологии искусственного интеллекта развиваются с каждым днем. Нейросети уже умеют создавать фото несуществующих людей и котовдописывать музыкальные симфонии, прогнозировать возможное увольнение сотрудников и даже заменять одну звезду на другую в уже отснятом фильме.

Исследователи из Массачусетского технологического института разработали алгоритм, который способен реконструировать облик человека на основе записи его голоса. Для работы искусственного интеллекта достаточно короткого аудиоклипа, сообщает Информатор Tech, ссылаясь на Futurism.

В основу алгоритма, получившего название Speech2Face, положена генеративная состязательная нейросеть, сопоставляющая особенности речи с рядом биометрических характеристик говорящего. Проанализировав небольшую запись, программа выдает примерное изображение лица говорящего. Создатели Speech2Face уже призвали к осторожности всех, кто планирует развивать и применять эту технологию. По их словам, для начала необходимо исключить нарушения конфиденциальности и дискриминации по расовому или гендерному признаку. Для создания образа человека нейросети достаточно 6 секунд записи голоса.

Нейросеть научилась создавать лицо человека по его голосу

Нейросеть научилась создавать лицо человека по его голосу

Результаты работы ИИ далеки от портретного сходства, но в качестве доказательства жизнеспособности концепции впечатляют: алгоритм достаточно уверенно определяет пол говорящего, его возраст (c точностью в 10 лет) и расовую принадлежность. «Таким образом, Speech2Face в очередной раз подтверждает, что современные алгоритмы способны делать невероятные выводы на основе крошечных фрагментов данных», — указывает Futurism. Исследователи MIT не являются первыми, кто создал алгоритм, воссоздающий физические характеристики говорящего на основе записи голоса. Их коллеги из Университета Карнеги-Меллона ведут аналогичные исследования уже второй год. Все говорит о том, что со временем на рынке появятся и такие сервисы, и визуализировать аудиозаписи или звонки в реальном времени они будут достаточно точно.

Результаты пока не обладают высокой точностью

Результаты пока не обладают высокой точностью

Отметим, что целью работы исследователей не было точное восстановление внешности человека по его голосу. Ученые сосредоточились на воссоздании конкретно пола, возраста и этнической принадлежности. Именно поэтому точно показать по голосу, как выглядит человек, пока что нельзя, однако в дальнейшем авторы планируют совершенствовать разработку. Такая технология в первую очередь пригодится сервисам визуализации аудиозвонков и разработчикам видеоигр, которые смогут воссоздавать виртуальные аватары пользователей с более высокой точностью, а также правоохранительным органам, которые получат возможность эффективнее идентифицировать телефонных хулиганов. В то же время, авторы предупреждают, что точность воссоздания внешности по голосу всегда будет относительно низкой из-за огромного множества факторов, влияющих на речь человека и качество ее записи.

Ранее мы сообщали, что покупка нового стартапа поможет Twitter бороться с фейковыми новостями. Также писали о том, что Google Stadia и Microsoft Project xCloud могут не появится в App Store.

Алексей Турчак

загрузка...
Наверх