От кассет к ИИ. Андрей Чемышев о цифровизации языков и письме Биллу Гейтсу

Ещё вчера он собирал самодельные кассеты с народными песнями. Сегодня – создаёт генеративные модели, распознающие родную речь, и учит нейросети понимать и говорить на малых языках. Это история того, как язык может шагнуть в будущее, если за него борется человек с айтишным умом и сердцем фольклориста.

О том, как перевести малые языки в цифру и зачем он писал Биллу Гейтсу, рассказывает спикер межрегиональной научно-практической конференции «Языковая политика в Пермском крае: поддержка и развитие языкового многообразия», прошедшей на днях в Кудымкаре, лингвист и языковой активист Андрей Чемышев.

ДОСЬЕ

Андрей Валерьевич Чемышев родился 6 июля 1970 года в деревне Большая Мушка Сернурского района Марийской АССР. С детства владел марийским языком как родным. Окончил Ленинградское высшее военное инженерное училище связи по специальности «Радиосвязь». Работал на «Марий Эл Радио», в Центре инновационных языковых технологий Коми республиканской академии госслужбы в Сыктывкаре. С 2016 года — сотрудник Марийского института языка, литературы и истории. Руководитель отдела по координации работы в разделах на региональных языках народов России интернет-энциклопедии «РУВИКИ». Создатель первого марийского подкаста «Марий йогын», основной переводчик социальной сети «ВКонтакте» на марийский язык. Один из разработчиков электронных марийских словарей и активный участник цифровизации финно-угорских языков. Работает над созданием национального корпуса марийского языка, участник объединения языковых активистов «Страна языков». Лауреат Государственной премии Республики Марий Эл имени М. Н. Янтемира за создание фундаментальных марийских словарей, а также лауреат Всероссийской общественной премии «Гордость нации» (2021) в номинации «За вклад в сохранение и развитие родных языков». Любимая цитата: «Если хочешь, чтобы язык жил, заставь его работать».Девиз по жизни: «Делать молча. Говорить — когда уже есть что показать».

Когда Windows не справился

Марина Сизова, «АиФ-Прикамье»: Андрей Валерьевич, что нужно, чтобы выжить малым языкам, таким как коми-пермяцкий язык или ваш родной марийский?

Андрей Чемышев: Семь пунктов минимум:

1. стандартизированные шрифты и клавиатурные раскладки,

2. электронные словари,

3. автокорректоры и проверки орфографии,

4. машинный перевод,

5. поддержка поисковиками,

6. речевые технологии — синтез и распознавание речи,

7. генеративные модели, чтобы язык развивался в ИИ.

Если хотя бы один из этих компонентов отсутствует, язык выталкивается из цифровой среды.

— А с чего начался ваш путь к цифровизации языка?

— Первое, что я начал делать, — собирать марийские песни. Договорился с «Барс-Медиа» в Казани, мы начали выпускать кассеты. Так и пошло: работал с татарами, издавали музыку.

— И именно тогда вы начали работать с марийским языком в цифровом пространстве?

— Да, всё началось с запуска «Марий Эл Радио» в 2005 г. — круглосуточного вещания на марийском языке. А на фоне этого я решил сделать сайт на марийском. Тогда были проблемы с шрифтами. Я использовал нестандартные, и мои первые сайты критиковали. Иные буквы не отображались — вместо них кракозябры. А я ведь купил Windows и думал, что всё должно работать. Даже письмо Биллу Гейтсу написал — открытое, мол, купил у вас продукт, а язык мой он не поддерживает: в операционной системе Windows не хватает пяти букв марийского алфавита.

Русская и коми-пермяцкая культуры долгое время взаимодействовали друг с другом.

— И какова была реакция?

— О, резонанс был! Про это сняли сюжет на ТВ. В один из дней его крутили каждый час, с 6 утра до полуночи. И федеральные газеты написали — заголовки вроде «Индейцы и марийцы против Билла Гейтса». С этого всё и закрутилось.

— Когда вы поняли, что нужен целый цифровой экосистемный подход к языку?

— Мы поняли (это было, кажется, в 2011 г.), что одной раскладкой клавиатуры дело не ограничивается. Нужны электронные словари, автопроверка орфографии, системы правильного прописания, машинные переводчики. Мы даже формализовали этот список тогда: раскладки, словари, проверка орфографии, машинный перевод, поисковые системы, речевые технологии. И сейчас к ним добавились генеративные модели.

— Что было самым сложным?

— Наверное, отсутствие системной поддержки. В начале пути мы работали на энтузиазме, без денег. Но потом нас поддержали — сначала в Центре марийской культуры, потом мы втроём создали корпус в 20 миллионов словопотреблений. Это был титанический труд — сканировать, распознавать, собирать.

— И вы даже добились включения марийского языка в Яндекс.Переводчик?

— Это был результат многолетней работы с текстами. Когда появилась первая возможность, мы договорились, и марийский язык туда добавили. А дальше начались работы над речевыми технологиями: синтез речи, распознавание. Это следующий этап.

— Сегодня вы продолжаете этим заниматься?

— Конечно. Это уже не просто работа — это дело жизни. Я не хочу, чтобы мой родной язык остался за бортом XXI века. И другие языки — тоже.Нет комментариев

Нужные буквы

— С какими техническими проблемами вы сталкивались, когда занимались раскладками и шрифтами?

— Сейчас уже раскладок, в принципе, хватает. Но вот у хантов, например, есть буквы, которых даже в Юникоде нет! А Юникод нужен для того, чтобы компьютеры могли понимать и отображать тексты на разных языках. Представьте — регион богатейший: нефть, газ. А Юникодов на все буквы хантыйского языка до сих пор нет. Сергей Бобрышев (эксперт комитета ЮНЕСКО «Информация для всех» по шрифтам и многоязычию. - Ред.) подготовил обращение от имени Федерального агентства по делам национальностей, и сейчас оно лежит в консорциуме Unicode. Ждём. Когда буквы внесут, тогда такие ребята, как Бобрышев, уже смогут быстро их встроить в шрифты.

— Это только ханты?

— И у других тоже. У нивхов, к примеру, есть буква р̆, которой тоже в Юникоде нет. Мы были на Сахалине, делали раскладку для нивхского языка по просьбе местной редакции газеты «Нивх диф». Пришлось эту букву собирать из двух символов. А ещё есть исторические символы, которые исчезли после 1938 г., когда вышла статья Сталина «Марксизм и вопросы языкознания». Тогда в алфавитах всех народов решили убрать «лишние» буквы и приблизить их к русскому. Эти символы теперь тоже трудно оцифровать.

— То есть раскладки и шрифты — это только верхушка айсберга?

— Конечно. У кого-то нет букв в Юникоде, у кого-то — транскрипций. Особенно у финно-угорских языков. Плюс ещё проблема — если ты работаешь на чужом компьютере, а там админ, к примеру, закрыл установку раскладок, тебе нужна виртуальная клавиатура. Через браузер, чтобы просто включил - и набирай.

В Кудымкаре. Фото: Из личного архива Андрея Чемышева

«Маленький принц» на всех языках

— Электронные словари вы тоже делали?

— Да. Мы использовали движок для электронных словарей и загрузили туда кучу словарей. Сейчас даже по коми-пермяцкому есть один. Но это мало.

Раньше говорили — зачем словари, есть же переводчики. А как появились генеративные модели вроде ChatGPT — сразу стало понятно: без словарей никуда. Модель не знает слово – подгружаешь ей словарь, обучаешь - и всё, начинает переводить корректно.

— А как работаете с машинным переводом?

— Чтобы сделать нормальный переводчик, нужен параллельный корпус — одно и то же предложение на двух языках. Мы берём, например, «Маленького принца» на русском и на марийском. Раньше, в двадцатых-тридцатых годах, по партийной директиве переводили кучу литературы на языки народов СССР. В библиотеках до сих пор лежат эти переводы, можно составлять списки, оцифровывать, вычитывать. Всё пригодится.

— Сколько нужно предложений для качественного переводчика?

— Раньше Яндекс брал языки только с миллионом пар предложений. Я упросил — включили мой язык, хотя было всего сто тысяч. Сейчас, кстати, технологий хватает — сто тысяч уже достаточно. У меня сейчас больше 400 тысяч.

— Какие ещё есть способы собрать корпус?

— Можно, например, переводить статьи из интернет-энциклопедий. Русские статьи на тот же коми-пермяцкий. Главное – тексты должны быть из разных жанров: публицистика, новости, фольклор, наука. Не только литература или религия.

В Кызыле. Фото: Из личного архива Андрея Чемышева

Мечта о мультиках

– А как с озвучкой речи?

– Мы построили студию звукозаписи, где записываем не только аудиокниги, но и корпус для синтеза речи. Нужно 20-30 часов записи одного диктора, чтобы создать базу для синтеза.

Для распознавания речи всё сложнее. Использовали платформу Mozilla Common Voice, где можно читать подготовленные предложения и загружать записи. Процесс модерации включает проверку качества в несколько этапов. Изначально мы думали, что активных волонтёров будет много, но оказалось, что их только около двадцати. Для качественной модели нужно больше разнообразных голосов — женских, мужских, детских. Тогда мы привлекли спонсора, устроили розыгрыши с призами, что помогло собрать около 300 часов проверенной речи. Это уже даёт возможность строить систему распознавания речи.

— Теперь, когда есть и синтезатор, и распознавание, можно делать голосовых помощников?

— Айгиз Кунафин из Башкирии создал свою умную колонку на башкирском языке и назвал её «Хомай». Это из эпоса «Урал-Батыр», где Хомай — дочь божества неба Самрау и богини солнца Солнце-матери (Кояш), жена главного героя. А у меня будет «Айвика» на марийском — это старинное женское имя.

— Следующий шаг?

— Автоматический перевод аудио и видео. Например, вы пошли на спектакль в национальном театре. Сейчас для перевода на русский работает человек-синхронист. А можно сделать так, чтобы зритель сам выбирал язык (марийский, коми-пермяцкий, татарский) и программа сама бы всё переводила и озвучивала. Или взять старые видео на марийском и автоматически перевести их на английский или китайский.

— Зачем вам всё это?

— Ради наших детей. Вот у меня дочка: с года у неё — и «Алиса», и айпад, и смартфон. Всё — на русском. Мы идём в садик, она показывает на птицу и говорит по-марийски - кайык. А вечером, вернувшись из детсада, уже говорит это слово по-русски — птичка.

Чтобы язык сохранялся, дети с самого начала должны иметь доступ к технологиям на родном языке: голосовые помощники, переводчики… Чтобы с малых лет можно было смотреть мультфильмы на русских или английских каналах, а перевод автоматически бы шёл на свой родной язык.

Полуязычникам нужны были образы понятные — скульптурные, объёмные, ближе к идолам.

Оцените материал

Оставить комментарий (0)

Подписывайтесь на АиФ в

MAX

Правила комментирования

Эти несложные правила помогут Вам получать удовольствие от общения на нашем сайте!

Для того, чтобы посещение нашего сайта и впредь оставалось для Вас приятным, просим неукоснительно соблюдать правила для комментариев:

Сообщение не должно содержать более 2500 знаков (с пробелами)

Языком общения на сайте АиФ является русский язык. В обсуждении Вы можете использовать другие языки, только если уверены, что читатели смогут Вас правильно понять.

В комментариях запрещаются выражения, содержащие ненормативную лексику, унижающие человеческое достоинство, разжигающие межнациональную рознь.

Запрещаются спам, а также реклама любых товаров и услуг, иных ресурсов, СМИ или событий, не относящихся к контексту обсуждения статьи.

Не приветствуются сообщения, не относящиеся к содержанию статьи или к контексту обсуждения.

Давайте будем уважать друг друга и сайт, на который Вы и другие читатели приходят пообщаться и высказать свои мысли. Администрация сайта оставляет за собой право удалять комментарии или часть комментариев, если они не соответствуют данным требованиям.

Редакция оставляет за собой право публикации отдельных комментариев в бумажной версии издания или в виде отдельной статьи на сайте www.aif.ru.

Если у Вас есть вопрос или предложение, отправьте сообщение для администрации сайта.

Закрыть