ИИ и машинное обучение могут стать спасением для редких и исчезающих языков мира

Популярная механикаHi-Tech

Лингвистический гомункул

Текст: Роман Фишман

Из 7,3 млрд человек больше половины разговаривают на одном из десяти крупнейших языков. Большая часть текстов в интернете написаны на английском или севернокитайском (мандаринском) – это вызывает опасения, что вскоре они вовсе вытеснят языки менее распространенные. Однако судьба малых языков в сети развивается совершенно противоположным образом.

В безопасности

Русский язык и в Сети, и в офлайне занимает вполне достойное восьмое место среди крупнейших. Благодаря широкому распространению в России интернета на нем говорят в общей сложности 103 млн пользователей – почти 3% от их общего числа в мире. В одной только русскоязычной «Википедии» наберется почти 1,4 млн страниц, а из 10 млн самых посещаемых сайтов 6,4% написаны на русском. Все это создает внушительную базу текстов, существующих параллельно на русском и других крупных языках. А она позволяет использовать стандартные, статистические подходы к созданию систем машинного перевода между такими языковыми парами.

Одинаковые статьи в версиях «Википедии» на разных языках, переводы религиозных канонов и классических литературных произведений дополняются колоссальным объемом нового материала. Такие страницы часто легко обнаружить по названиям документов, которые могут отличаться лишь указанием RU или ENG. А если учесть характерные последовательности специальных символов, редких слов, цифр и другие особенности, то можно автоматически дополнять исходный набор еще бόльшим числом параллельных текстов. Неудивительно, что заняты этим в основном крупные интернет-компании, поисковики, которые индексируют многие миллиарды страниц на разных языках.

Однако начало современному статистическому подходу положили разработчики IBM Research. Еще в 1980-х они работали с массивом документов канадского парламента, которые обязательно переводятся на английский и французский, и предложили рассматривать текст на одном языке как полученный по сильно зашумленному каналу – а значит, «с ошибками» – текст другого языка. В такой модели «шумного канала» в исходные фразы требуется вносить исправление за исправлением, пока они не превратятся в аналогичные фразы уже на новом языке.

Это и делается на основе статистики параллельного употребления слов в одинаковых фразах на разных языках. При этом система может учитывать правила морфологии (образования и изменения слов) и синтаксиса (построения предложений), а качество машинного перевода проверяют люди, пока он не достигнет приемлемого уровня. «И хрюкотали зелюки, как мюмзики в мове», – интерпретирует оригинальный текст онлайн-система переводов Google; заметно, что машине знакомы параллельные фразы на английском и русском, и это простейший вариант.

Под угрозой

Определить, что же такое языки, и отделить их от диалектов, удается не всегда, так что даже точное число человеческих языков назвать не возьмется, наверное, никто. Обычные оценки колеблются в пределах от 6000 до 7000, причем выпускаемый ЮНЕСКО «Атлас языков мира, находящихся под угрозой исчезновения» выделяет среди них 2473, существование которых в будущем совсем не гарантировано. Цыганский и эрзянский, идиш и крымско-татарский практически не осваиваются молодыми поколениями, их носители стареют, использование сокращается.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Что естественно, то прекрасно Что естественно, то прекрасно

Нас будут окружать вещи, соавторами которых наравне с людьми выступят компьютеры

Популярная механика
Главный винодел России Леонид Попович: В СССР делали премиальное вино Главный винодел России Леонид Попович: В СССР делали премиальное вино

Как жили виноделы в годы горбачевской антиалкогольной кампании

СНОБ
Восток и его обитатели Восток и его обитатели

В озере Восток под ледовым щитом Антарктиды есть жизнь

Популярная механика
Банкократия Банкократия

Как получилось, что банки растут в разы быстрее, чем вся остальная экономика

Монокль
Заблудился в Америке Заблудился в Америке

Дизельпанк: параллельная вселенная словенского художника Андрея Трохи

Популярная механика
Важный нюанс, из-за которого у вас плохо получаются снимки с зумом Важный нюанс, из-за которого у вас плохо получаются снимки с зумом

Съемка с оптическим увеличением только на первый взгляд кажется простой

CHIP
Из помазанников Божьих в святые мученики Из помазанников Божьих в святые мученики

Расстрел царской семьи — едва ли не самый хорошо исследованный сюжет

Дилетант
На полюс из стратосферы На полюс из стратосферы

Каково это — десантироваться с парашютом на Северный полюс с высоты 10,5 км?

ТехИнсайдер
«Как живые: Двуногие змеи, акулы-зомби и другие исчезнувшие животные» «Как живые: Двуногие змеи, акулы-зомби и другие исчезнувшие животные»

Какой была переходная форма от рыбы к четвероногому

N+1
Что такое компилятор? Как работает: виды и примеры Что такое компилятор? Как работает: виды и примеры

Как компилятор помогает человек и компьютеру понять друг друга

Цифровой океан
Бегущая с волками. Какой получилась «Фуриоса: Хроники Безумного Макса»? Бегущая с волками. Какой получилась «Фуриоса: Хроники Безумного Макса»?

Несмотря на 2,5 часа хронометража, «Фуриоса» справляется с экспозицией за минуту

Правила жизни
Загадка «ангарского цветка» Загадка «ангарского цветка»

Ученые находят растения, которые относят к цветковым, в слоях юрского периода

Наука и Техника
Дядя честных правил Дядя честных правил

«Дядя Леша»: Юрий Деточкин нового времени

Weekend
Позолоти перчатку: как зарабатывает и на что тратит состояние Тайсон Фьюри Позолоти перчатку: как зарабатывает и на что тратит состояние Тайсон Фьюри

Forbes Sport рассказывает о сумасшедших заработках Тайсона и его инвестициях

Forbes
Как перестать тратить и начать зарабатывать: 3 совета Михаила Лабковского Как перестать тратить и начать зарабатывать: 3 совета Михаила Лабковского

Деньги — цель или средство? Источник удовольствия или тяжкое бремя?

Psychologies
Петербург будущего Петербург будущего

Владимир Ильич Травуш проектировал самые высокие здания современной России

Собака.ru
Ты лучший: можно ли завести роман с близким другом? Ты лучший: можно ли завести роман с близким другом?

Стоит ли вступать в отношения с близким другом? Расцениваем все риски

VOICE
Запах белых ночей. Кем был создатель духов Chanel №5 Эрнест Бо Запах белых ночей. Кем был создатель духов Chanel №5 Эрнест Бо

Каким человеком был парфюмер Эрнест Бо?

СНОБ
Штормовое предупреждение. 4 факта про укачивание (кинетоз) Штормовое предупреждение. 4 факта про укачивание (кинетоз)

Ищем оптимальное решение от «морской болезни» у детей

Лиза
Владимир Медведев: Жители России ничего не знают о молчаливых пришельцах, живущих рядом Владимир Медведев: Жители России ничего не знают о молчаливых пришельцах, живущих рядом

Писатель Владимир Медведев — о медленном письме и сюжете, явившемся в полусне

СНОБ
Больше молока от фермы до прилавка Больше молока от фермы до прилавка

Производство сырья и готовой продукции в молочном секторе будет увеличиваться

Агроинвестор
12 вещей, которые нельзя вытирать бумажными полотенцами: мнение профессиональных клинеров 12 вещей, которые нельзя вытирать бумажными полотенцами: мнение профессиональных клинеров

Стоят ли бумажные полотенца денег, которые мы за них платим?

VOICE
3 признака в поведении, по которым легко заподозрить деменцию 3 признака в поведении, по которым легко заподозрить деменцию

Ключевые признаки, которые указывают на то, что у пациента развивается деменция

Psychologies
Краса всей зелени известной Краса всей зелени известной

Спаржа лекарственная ведёт своё происхождение с берегов Средиземного моря

Наука и жизнь
Море без границ Море без границ

Bering Yachts разработала проект моторной суперъяхты Bering B165

Y Magazine
Синдром Дон Жуана: какая детская травма скрыта за образом мачо Синдром Дон Жуана: какая детская травма скрыта за образом мачо

Что такое синдром Дон Жуана, как с ним живут мужчины?

Psychologies
Зеркальце, перышко и пучок льна: как на Руси без врачей определяли наступление смерти Зеркальце, перышко и пучок льна: как на Руси без врачей определяли наступление смерти

Как и кто на Руси констатировал смерть в момент её наступления?

ТехИнсайдер
Город в поисках культурной идентичности Город в поисках культурной идентичности

Улан-Удэ: русская провинциальная архитектура и монгольская героика

Weekend
«Встретить ее с состраданием и принять»: как правильно реагировать на боль «Встретить ее с состраданием и принять»: как правильно реагировать на боль

Как умение принимать неприятные чувства может помочь вам стать счастливее

Psychologies
Новое слово от зумеров: кого молодежь называет анками и что это значит Новое слово от зумеров: кого молодежь называет анками и что это значит

Что такое «анк» и кого так называет молодежь?

Psychologies
Открыть в приложении