Информационные цунами можно и нужно уметь предсказывать

Цифровой океанHi-Tech

Вeликий pусский читатель

Восемь миллиардов человек, населяющих землю, — это сила. Пять миллиардов из них, имеющих доступ в Интернет, — это уже стихия. Информационные цунами, которые люди с легкостью разгоняют в соцсетях, можно и нужно уметь предсказывать. Для этого достаточно всего лишь читать и понимать все, что пишут пять миллиардов человек

Текст: Виталий Кавтарадзе

Людям такая работа не по плечу, исследовать коллективное бессознательное в планетарных масштабах можно только с помощью роботов. Специалисты по компьютерной лингвистике и машинному обучению из компании Brand Analytics уже 10 лет учат машины понимать людей. Они рассказали нам, что…

Язык — это алгоритм, но…

Люди часто меняют правила по ходу игры. Так, еще в 1960-е годы пионеры компьютерной лингвистики решили представить язык как базу данных слов во всех возможных формах, а также свод правил их использования. При таком подходе обучение машины чтению напоминает знакомые всем уроки русского языка в школе. Учитель одновременно развивает словарный запас учеников и тренирует их определять части речи, проводить синтаксический анализ предложений, морфологический разбор слов по формальным признакам.

Пример: «Танцовщица распрямила кисть». Первое слово — существительное «танцовщица», имеет окончание «-а», а значит, используется в именительном падеже, единственном числе, имеет женский род. «Распрямила» — глагол, в котором окончание «-а» указывает на прошедшее время. Также можно установить, что «танцовщица» — подлежащее, это существительное указывает на объект, совершавший действие.

Такой простой, на первый взгляд, подход позволял машинам неплохо справляться с переводом официальных документов. Если слово нашлось в словаре на одном языке, нетрудно подобрать смысловой аналог из базы данных другого языка. Однако сразу возникли препятствия: алгоритмический анализ спотыкался об омонимы — одинаковые слова разного значения. Например, существительное «кисть» может означать часть руки, инструмент для рисования или ветку с ягодами. Для разрешения таких случаев лингвисты добавили в алгоритм анализ контекста, заставив машину смотреть, какие слова связаны со спорным словом. Другой проблемой стали редко используемые в языке слова и термины. Например, фамилию бывшего президента Франции Саркози компьютер может считать несуществующим глаголом «саркозить» в повелительном наклонении. Такие казусы решаются регулярным пополнением словарей, а также анализом частоты упоминания каждого слова вместе с другими.

Однако когда в 2000-е годы появились соцмедиа — площадки, на которых пользователи сами оставляют сообщения, — языки начали очень быстро меняться. Люди стали пользоваться письменной речью как устной*, и для выражения интонаций и эмоций потребовались новые инструменты: сокращения, эмодзи, фонетическое письмо. «Дратути» вместо «здравствуйте», «щас» вместо «сейчас» и «кагбэ» вместо «как бы». Чтобы понять такое, машины должны приспособиться к творческому использованию языка человеком.

* Подробнее об этом «Цифровой океан» вместе с лингвистом Максимом Кронгаузом рассказывал в материале «Садись, два!», опубликованном в выпуске № 5.

«В начале нашей работы с лингвистическими алгоритмами мы использовали готовые словари, но быстро поняли, что для качественного распознавания живого языка нужно создавать свои базы данных и тезаурус реального современного языка, а также регулярно их пополнять. Вложения в разработку словарей окупились: нам удалось поднять точность классификации текста и его тональности в среднем с 85% до 92%. Позже мы стали первой компанией в мире, разработавшей определение тональности для казахского языка». 

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Одежда – новая литература Одежда – новая литература

Ближайшие 15 лет мода затронет не только гардероб, но и дополненную реальность

Популярная механика
Всё что вам нужно знать об обновлённом Skoda Kodiaq Всё что вам нужно знать об обновлённом Skoda Kodiaq

Что изменилось в новом поколении Skoda Kodiaq?

4x4 Club
Диалoг с миллионами Диалoг с миллионами

Как три власти взаимодействуют с гражданами в социальных сетях?

Цифровой океан
Как перестать тратить и начать зарабатывать: 3 совета Михаила Лабковского Как перестать тратить и начать зарабатывать: 3 совета Михаила Лабковского

Деньги — цель или средство? Источник удовольствия или тяжкое бремя?

Psychologies
Мaшины во вpeмени Мaшины во вpeмени

Изучать лунные кратеры и понимать животных — что еще нейросети делают лучше нас?

Цифровой океан
Горячие головы Горячие головы

Как позаботиться о прическе с приходом теплого времени года

Лиза
11 способов становиться немного умнее каждый день 11 способов становиться немного умнее каждый день

Интеллект, как и тело, требует правильного питания и регулярных тренировок

Psychologies
Для кого звонит рассветный колокол новой деревни? Для кого звонит рассветный колокол новой деревни?

Факторы эффективности проектов развития территорий на примере движения Сэмаыль

Позитивные изменения
1962: 60 лeт нaзaд 1962: 60 лeт нaзaд

Что было 60 лет назад и как появился первый троичный компьютер

Цифровой океан
Как определить забитый катализатор не снимая его. Признаки Как определить забитый катализатор не снимая его. Признаки

Все о проверке катализатора: признаки неисправности и способы ремонта

РБК
Обpaтный отсчeт Обpaтный отсчeт

Сегодня есть множество приложений, которые сокращают подготовку к празднику

Цифровой океан
На полюс из стратосферы На полюс из стратосферы

Каково это — десантироваться с парашютом на Северный полюс с высоты 10,5 км?

ТехИнсайдер
Беспилотное путешествие из Петepбургa в Мoскву Беспилотное путешествие из Петepбургa в Мoскву

Из северной столицы по платной трассе М11 выехал автомобиль без водителя

Цифровой океан
Что такое компилятор? Как работает: виды и примеры Что такое компилятор? Как работает: виды и примеры

Как компилятор помогает человек и компьютеру понять друг друга

Цифровой океан
Английский Гитлер Английский Гитлер

Освальд Эрнальд Мосли известен советским людям по фильму «Обыкновенный фашизм»

Дилетант
Загадка «ангарского цветка» Загадка «ангарского цветка»

Ученые находят растения, которые относят к цветковым, в слоях юрского периода

Наука и Техника
Выживут только инфорги Выживут только инфорги

«Инфорги» — люди, которые придут на смену Homo Sapiens

Популярная механика
Главный винодел России Леонид Попович: В СССР делали премиальное вино Главный винодел России Леонид Попович: В СССР делали премиальное вино

Как жили виноделы в годы горбачевской антиалкогольной кампании

СНОБ
Храп Храп

Как говорят специалисты, «звуковой феномен» храпа не является  болезнью

Здоровье
Агрессоры в саду Агрессоры в саду

В статье речь пойдёт не о диких сорняках, а об обитателях сада, посаженных нами

Наука и жизнь
Красный, как помидор: почему во время тренировки краснеет лицо и как это можно предотвратить Красный, как помидор: почему во время тренировки краснеет лицо и как это можно предотвратить

Почему люди краснеют во время занятий спортом?

ТехИнсайдер
10 крупных народов, у которых нет своего государства 10 крупных народов, у которых нет своего государства

В мире существует большое число этносов, лишенных собственного государства

ТехИнсайдер
Откровения сталкерши: прототип героини сериала «Олененок» дала интервью Откровения сталкерши: прототип героини сериала «Олененок» дала интервью

Ричард Гэдд качестве сюжета использовал свою личную историю о сталкинге

Psychologies
Себе — все, другим — ничего: почему эгоизм на самом деле полезен Себе — все, другим — ничего: почему эгоизм на самом деле полезен

Действительно ли эгоизм столь плохое качество, от которого стоит избавиться?

Psychologies
Кошмар владельца: самые сложные автомобили всех времен и народов Кошмар владельца: самые сложные автомобили всех времен и народов

Приобретя эти машины, вы можете очень сильно пожалеть

Maxim
Зерно раскладывают на фракции Зерно раскладывают на фракции

Компании увеличивают производство и экспорт продуктов глубокой переработки зерна

Агроинвестор
10 цитат Жан-Поля Сартра, которые укажут, где притаился смысл жизни 10 цитат Жан-Поля Сартра, которые укажут, где притаился смысл жизни

Французский философ и писатель был одной из главных фигур экзистенциализма

Psychologies
Еще по одной: 10 мини-сериалов, которые можно посмотреть за вечер Еще по одной: 10 мини-сериалов, которые можно посмотреть за вечер

Необычные мини-сериалы, которые вы могли пропустить

Правила жизни
Великая Отечественная война: многие не знают, как было на самом деле Великая Отечественная война: многие не знают, как было на самом деле

Как на самом деле развивались знаковые события Великой Отечественной войны?

ТехИнсайдер
Бэби-бум Бэби-бум

Мечтаете о классическом бэбифейсе?

Собака.ru
Открыть в приложении