Ещё вчера он собирал самодельные кассеты с народными песнями. Сегодня – создаёт генеративные модели, распознающие родную речь, и учит нейросети понимать и говорить на малых языках. Это история того, как язык может шагнуть в будущее, если за него борется человек с айтишным умом и сердцем фольклориста.
О том, как перевести малые языки в цифру и зачем он писал Биллу Гейтсу, рассказывает спикер межрегиональной научно-практической конференции «Языковая политика в Пермском крае: поддержка и развитие языкового многообразия», прошедшей на днях в Кудымкаре, лингвист и языковой активист Андрей Чемышев.
Когда Windows не справился
Марина Сизова, «АиФ-Прикамье»: Андрей Валерьевич, что нужно, чтобы выжить малым языкам, таким как коми-пермяцкий язык или ваш родной марийский?
Андрей Чемышев: Семь пунктов минимум:
1. стандартизированные шрифты и клавиатурные раскладки,
2. электронные словари,
3. автокорректоры и проверки орфографии,
4. машинный перевод,
5. поддержка поисковиками,
6. речевые технологии — синтез и распознавание речи,
7. генеративные модели, чтобы язык развивался в ИИ.
Если хотя бы один из этих компонентов отсутствует, язык выталкивается из цифровой среды.
— А с чего начался ваш путь к цифровизации языка?
— Первое, что я начал делать, — собирать марийские песни. Договорился с «Барс-Медиа» в Казани, мы начали выпускать кассеты. Так и пошло: работал с татарами, издавали музыку.
— И именно тогда вы начали работать с марийским языком в цифровом пространстве?
— Да, всё началось с запуска «Марий Эл Радио» в 2005 г. — круглосуточного вещания на марийском языке. А на фоне этого я решил сделать сайт на марийском. Тогда были проблемы с шрифтами. Я использовал нестандартные, и мои первые сайты критиковали. Иные буквы не отображались — вместо них кракозябры. А я ведь купил Windows и думал, что всё должно работать. Даже письмо Биллу Гейтсу написал — открытое, мол, купил у вас продукт, а язык мой он не поддерживает: в операционной системе Windows не хватает пяти букв марийского алфавита.
— И какова была реакция?
— О, резонанс был! Про это сняли сюжет на ТВ. В один из дней его крутили каждый час, с 6 утра до полуночи. И федеральные газеты написали — заголовки вроде «Индейцы и марийцы против Билла Гейтса». С этого всё и закрутилось.
— Когда вы поняли, что нужен целый цифровой экосистемный подход к языку?
— Мы поняли (это было, кажется, в 2011 г.), что одной раскладкой клавиатуры дело не ограничивается. Нужны электронные словари, автопроверка орфографии, системы правильного прописания, машинные переводчики. Мы даже формализовали этот список тогда: раскладки, словари, проверка орфографии, машинный перевод, поисковые системы, речевые технологии. И сейчас к ним добавились генеративные модели.
— Что было самым сложным?
— Наверное, отсутствие системной поддержки. В начале пути мы работали на энтузиазме, без денег. Но потом нас поддержали — сначала в Центре марийской культуры, потом мы втроём создали корпус в 20 миллионов словопотреблений. Это был титанический труд — сканировать, распознавать, собирать.
— И вы даже добились включения марийского языка в Яндекс.Переводчик?
— Это был результат многолетней работы с текстами. Когда появилась первая возможность, мы договорились, и марийский язык туда добавили. А дальше начались работы над речевыми технологиями: синтез речи, распознавание. Это следующий этап.
— Сегодня вы продолжаете этим заниматься?
— Конечно. Это уже не просто работа — это дело жизни. Я не хочу, чтобы мой родной язык остался за бортом XXI века. И другие языки — тоже.Нет комментариев
Нужные буквы
— С какими техническими проблемами вы сталкивались, когда занимались раскладками и шрифтами?
— Сейчас уже раскладок, в принципе, хватает. Но вот у хантов, например, есть буквы, которых даже в Юникоде нет! А Юникод нужен для того, чтобы компьютеры могли понимать и отображать тексты на разных языках. Представьте — регион богатейший: нефть, газ. А Юникодов на все буквы хантыйского языка до сих пор нет. Сергей Бобрышев (эксперт комитета ЮНЕСКО «Информация для всех» по шрифтам и многоязычию. - Ред.) подготовил обращение от имени Федерального агентства по делам национальностей, и сейчас оно лежит в консорциуме Unicode. Ждём. Когда буквы внесут, тогда такие ребята, как Бобрышев, уже смогут быстро их встроить в шрифты.
— Это только ханты?
— И у других тоже. У нивхов, к примеру, есть буква р̆, которой тоже в Юникоде нет. Мы были на Сахалине, делали раскладку для нивхского языка по просьбе местной редакции газеты «Нивх диф». Пришлось эту букву собирать из двух символов. А ещё есть исторические символы, которые исчезли после 1938 г., когда вышла статья Сталина «Марксизм и вопросы языкознания». Тогда в алфавитах всех народов решили убрать «лишние» буквы и приблизить их к русскому. Эти символы теперь тоже трудно оцифровать.
— То есть раскладки и шрифты — это только верхушка айсберга?
— Конечно. У кого-то нет букв в Юникоде, у кого-то — транскрипций. Особенно у финно-угорских языков. Плюс ещё проблема — если ты работаешь на чужом компьютере, а там админ, к примеру, закрыл установку раскладок, тебе нужна виртуальная клавиатура. Через браузер, чтобы просто включил - и набирай.

«Маленький принц» на всех языках
— Электронные словари вы тоже делали?
— Да. Мы использовали движок для электронных словарей и загрузили туда кучу словарей. Сейчас даже по коми-пермяцкому есть один. Но это мало.
Раньше говорили — зачем словари, есть же переводчики. А как появились генеративные модели вроде ChatGPT — сразу стало понятно: без словарей никуда. Модель не знает слово – подгружаешь ей словарь, обучаешь - и всё, начинает переводить корректно.
— А как работаете с машинным переводом?
— Чтобы сделать нормальный переводчик, нужен параллельный корпус — одно и то же предложение на двух языках. Мы берём, например, «Маленького принца» на русском и на марийском. Раньше, в двадцатых-тридцатых годах, по партийной директиве переводили кучу литературы на языки народов СССР. В библиотеках до сих пор лежат эти переводы, можно составлять списки, оцифровывать, вычитывать. Всё пригодится.
— Сколько нужно предложений для качественного переводчика?
— Раньше Яндекс брал языки только с миллионом пар предложений. Я упросил — включили мой язык, хотя было всего сто тысяч. Сейчас, кстати, технологий хватает — сто тысяч уже достаточно. У меня сейчас больше 400 тысяч.
— Какие ещё есть способы собрать корпус?
— Можно, например, переводить статьи из интернет-энциклопедий. Русские статьи на тот же коми-пермяцкий. Главное – тексты должны быть из разных жанров: публицистика, новости, фольклор, наука. Не только литература или религия.

Мечта о мультиках
– А как с озвучкой речи?
– Мы построили студию звукозаписи, где записываем не только аудиокниги, но и корпус для синтеза речи. Нужно 20-30 часов записи одного диктора, чтобы создать базу для синтеза.
Для распознавания речи всё сложнее. Использовали платформу Mozilla Common Voice, где можно читать подготовленные предложения и загружать записи. Процесс модерации включает проверку качества в несколько этапов. Изначально мы думали, что активных волонтёров будет много, но оказалось, что их только около двадцати. Для качественной модели нужно больше разнообразных голосов — женских, мужских, детских. Тогда мы привлекли спонсора, устроили розыгрыши с призами, что помогло собрать около 300 часов проверенной речи. Это уже даёт возможность строить систему распознавания речи.
— Теперь, когда есть и синтезатор, и распознавание, можно делать голосовых помощников?
— Айгиз Кунафин из Башкирии создал свою умную колонку на башкирском языке и назвал её «Хомай». Это из эпоса «Урал-Батыр», где Хомай — дочь божества неба Самрау и богини солнца Солнце-матери (Кояш), жена главного героя. А у меня будет «Айвика» на марийском — это старинное женское имя.
— Следующий шаг?
— Автоматический перевод аудио и видео. Например, вы пошли на спектакль в национальном театре. Сейчас для перевода на русский работает человек-синхронист. А можно сделать так, чтобы зритель сам выбирал язык (марийский, коми-пермяцкий, татарский) и программа сама бы всё переводила и озвучивала. Или взять старые видео на марийском и автоматически перевести их на английский или китайский.
— Зачем вам всё это?
— Ради наших детей. Вот у меня дочка: с года у неё — и «Алиса», и айпад, и смартфон. Всё — на русском. Мы идём в садик, она показывает на птицу и говорит по-марийски - кайык. А вечером, вернувшись из детсада, уже говорит это слово по-русски — птичка.
Чтобы язык сохранялся, дети с самого начала должны иметь доступ к технологиям на родном языке: голосовые помощники, переводчики… Чтобы с малых лет можно было смотреть мультфильмы на русских или английских каналах, а перевод автоматически бы шёл на свой родной язык.