Примерное время чтения: 7 минут
922

Плачь, робот. Как учёные придают голосу андроидов человеческие интонации

Еженедельник "Аргументы и Факты" № 25. АиФ-Прикамье 22/06/2022
Робот Дуняша, которая продаёт мороженое в парке Горького в Перми, произвела на Петербургском международном экономическом форуме настоящий фурор.
Робот Дуняша, которая продаёт мороженое в парке Горького в Перми, произвела на Петербургском международном экономическом форуме настоящий фурор. / Софья Штин / АиФ

Роботизация незаметно проникает в нашу жизнь. И вот уже робот с женским лицом продаёт мороженое, а её родственница выдаёт справки в МФЦ. Но есть одна проблема, которую учёным пока решить не удалось: голос по-прежнему выдаёт машину – в нём нет человеческих эмоциональных интонаций.

Доцент кафедры автоматики и телемеханики Пермского Политеха Юрий Липин рассказывает perm.aif.ru о тайнах мозга, голосе робота и о том, почему с андроидами нужно быть осторожными.

Война машин

Наталья Стерледева, «АиФ-Прикамье»: Юрий Николаевич,  нас уже не удивить роботами-пылесосами, андроидами-консультантами, которые всё больше похожи на людей. Кажется, вскоре они заменят людей. Вам не страшно?

Юрий Липин: Действительно, наступает бум производства роботов. И уже сейчас сфера их применения довольно велика. В этом есть негатив с социальной точки зрения. Моё личное мнение: уволить и молодых, и старых, а затем возложить всю работу на роботов – это неправильно. Люди тоже должны работать, ведь это интересно и есть возможность заработать на жизнь. Поэтому тут должен быть дифференцированный подход – нельзя роботов ставить на все без исключения рабочие места. Это себя не оправдает. Но есть и сферы, где они необходимы – конвейерные производства  автомобилей, пищевых продуктов, упаковочные и пр. А на фоне последних событий стали популярны ещё и военные роботы.

– Вы изучаете человека с разных сторон и придаёте роботу его свойства?

–  Да, много лет занимаюсь техникой распознавания лиц. На нашем лице написано очень много. На него оказывают влияние  физиология, психология, антропология, здоровье, неврология. Всё это можно прочесть, если обладать нужными знаниями. Работая над проблемой распознавания лиц, я и мои коллеги сталкивались с разными нюансами. Например, возникла проблема распознавания близнецов. Очень похожие люди могут прожить разные жизни.

По сути, они разные, а для криминалистов  – одно лицо. И эту проблему в какой-то мере мы решили с помощью программных методов. Работал я и с темой распознавания лица одного и того же человека, но разного возраста. И это тоже проблема, которой нашлось решение. Занимался и идентификацией отпечатков пальцев, и определением характера, и созданием психологического портрета по подписи человека. Все эти вопросы в той или иной мере удалось решить. Сейчас много времени уделяю идентификации человека по голосу. А ещё обучаю магистров, веду курс по техническому зрению робота и другие дисциплины.

Поговорить с де Голлем

– Вы создаёте программы, которые проводят анализ лица, голоса, отпечатков?

– Да, сам пишу программы, ведь я ещё и программист. Наша кафедра работает с фирмой «Промобот». Сейчас занимаюсь интересной задачей – очеловечиванием синтезированного голоса робота. Когда-то давно перед разработчиками «Промобота» клиенты поставили задачу, чтобы те андроиды, которых будут продавать в Америку, отвечали посетителям голосом Трампа. А во Франции – хорошо бы голосом Шарля де Голля или Ширака. Так их будет легче продать. Мы пытались решить эту задачу.

– Удалось?

– Пока нет. Дело в том, что проблема эта гораздо глубже, чем просто воссоздание речи. Голосом управляет мозг, а мозг человека не был создан мозгом человека. Его создали высшие силы. Какие, мы не знаем. Возможно, тайна мозга никогда не будет разрешена. Потому что мозг – это высокоорганизованная система. А чтобы познать её, нужна система более высокого порядка. А такой не существует.

– Как же вы решаете проблему очеловечивания голоса?

– Пока пошли по такому пути: записали группу эмоций, наиболее важных для человека. Тех, которые являются последствием психики, психологии, здоровья человека. Для записи пригласили профессионалов – бывших артистов, которые ведут занятия по дикции.

Каждый звук представлен в процессе программно-технических преобразований в виде набора множества цифр – от 0 до 250. И это множество можно представить в виде той или иной модели. Первую модель я создал методом наименьших квадратов и результатом был не слишком доволен.

Вторую модель создал один из наших магистрантов, пермяк Ян Якубчик. Сейчас он учится и работает в Японии. Он применил в своей разработке метод анализа фонем языка. У него тоже есть определённые подвижки. Сейчас я занимаюсь созданием третьей модели – с  использованием  частотных кепстральных коэффициентов, которые применяются в техниках распознавания голоса. Оформляю полученный материал в статью. Но сказать, что проблема придания голосу определённых эмоций решена, пока нельзя. Но мы вошли в проблему, поняли её, знаем, в каком направлении работать.

Они враги?

– В чём же проблема?

– Представьте, есть спокойная, не окрашенная эмоционально фраза: «Жаворонки прилетели». И восемь фраз с теми же словами, но выражающими разные чувства – горе, печаль, радость и пр.

Из множества цифр, которые описывают конкретные фразы, мы стараемся выделить те, которые отвечают за эмоции. И исключаем сами слова «жаворонки прилетели». Нам важно понять, чем цифры одного ряда, например, грустного, отличаются от ряда счастливого, какие цифры добавляют в него эмоции.

– Речь идёт об интонационном подъёме голоса?

– Да, где-то мы вычитаем, где-то прибавляем, голос поднимается, опускается. Мы преобразуем всё это в модель. Нам не понять мозг, но мы подходим к нему с другой стороны. Идеи о том, как это сделать, есть. Это работа, в которой меня никто не подгоняет, это просто личный интерес.  Когда она будет сделана? Возможно, никогда. Да, мы получили небольшие изменения голоса, немного меняем интонации. Но цель – загрузить голос Трампа, чтобы робот отвечал на спонтанные вопросы именно им, ещё далека. Робот должен отвечать с нужной тональностью, тембром. Вершина этой работы – чтобы робот отвечал человеку, который подошёл и обратился к нему, его собственным голосом.  Этой цели достигнут уже следующие поколения разработчиков.

Нам не понять мозг, но мы подходим к нему с другой стороны. Идеи о том, как это сделать, есть. Это работа, в которой меня никто не подгоняет, это просто личный интерес.

– Роботы всё больше проникают в нашу жизнь. Опасны ли они?

– Есть точка зрения, что роботы изначально враждебно настроены к тем, кто их создал. Это сложный вопрос, связанный с нейронными системами, которые ими управляют. Вот и фантасты нам предрекают бунт роботов. Отчасти я согласен. Считаю, что в социум роботов пускать нельзя.

– Через сколько лет роботы приблизятся по облику и голосу к людям настолько, что будут неотличимы?

– Год назад я пришёл в организацию в Перми. За столом сидит девушка, обращаюсь к ней: «Здравствуйте». И не сразу понял, что она – робот. На расстоянии это понять было невозможно. Да, наши роботы не ходят на своих ногах. У нас робот на колёсиках. А американцы пошли по другому пути – у них у робота четыре ноги, он может подниматься и опускаться по лестнице, нагибаться, мыть пол. У нас другой путь. Когда будут неотличимы? На этот вопрос разумнее всего ответить: мы с вами этого не знаем. Ведь мы не философы, а обычные люди. Конечно, процесс очеловечивания роботов запущен, его не остановить. А с какой интенсивностью и качеством изменения он будет идти – неизвестно. Мы же над этой темой работаем, понимаем, куда нужно двигаться. И будем работать.

Досье
Юрий Липин. Родился в Перми в 1935 г. В 1958 г. окончил Пермский государственный университет. Доцент кафедры автоматики и телемеханики ПНИПУ, кандидат технических наук. Темы его разработок – методы идентификации зрительных объектов в робототехнике, распознавание лиц, криптографическая защита данных и пр.

Оцените материал
Оставить комментарий (0)

Также вам может быть интересно

Топ 5 читаемых

Самое интересное в регионах