Почему научить машину писать — легко, а искать ошибки в написанном — трудно

VC.RUHi-Tech

Обработка естественного языка: как создать «грамотного робота»

Узнали у разработчиков, почему научить машину писать — легко, а искать ошибки в написанном — трудно.

1280

Уже десяток российских команд включились в сложнейшую задачу по машинному обучению. Вот её условия:

Дано: реальные сочинения с ЕГЭ на двух языках — русском и английском. Их разметили школьные учителя: выделили смысловые блоки (аргументы, примеры, выводы) и нашли ошибки. В их числе — нарушение логики, искажение смысла, несоответствие теме.

1280

Задача: создать алгоритм, который сможет размечать такие же тексты и находить ошибки не хуже учителей. То есть разметка алгоритма должна отличаться от разметок педагогов не сильнее, чем разметки педагогов отличаются друг от друга. Язык можно выбрать на своё усмотрение.

Мы пообщались с тремя командами, работающими над решением.

  • «Антиплагиат» разработал одноимённый сервис обнаружения заимствований в текстах. В конкурсной команде эксперты в области машинного обучения, исследователи-алгоритмисты и специалисты по подготовке данных.
  • В составе команды «Наносемантика» — сотрудники «Нейросетей Ашманова» и системы проверки правописания «ОРФО»: нейросетевики, разработчики и лингвисты.
  • Команда DeepPavlov сформировалась во время работы над библиотекой разговорного AI DeepPavlov. Все участники — сотрудники лаборатории МФТИ.

Расскажите про своё решение. Какие ошибки оно уже определяет? Использовали в нём готовые модули или собственные наработки?

Антиплагиат: Делиться секретами до подведения хотя бы предварительных итогов было бы очень самонадеянно. Создание такого непростого алгоритма — задача творческая, каждая команда идёт к её решению особым путём.

Что касается результатов, то наш алгоритм приблизился к человеку в плане обнаружения грамматических ошибок.

Наносемантика: Конкурс лежит прямо в русле нашей работы. Мы развиваем одну из самых продвинутых систем проверки правописания — «ОРФО» — и как раз сейчас доделываем для неё английский граммер. А заодно экспериментируем с нейросетевыми модулями для выявления сложных ошибок — например, в расстановке артиклей, употреблении форм глагола или выборе слов из тех, которые для иностранца звучат похоже (steal вместо still или thin вместо thing).

Мы не стали ничего выдумывать, а просто попробовали подготовить бета-версию некоего продукта, напоминающего тот, который мы собираемся выпустить в будущем. Получилась в лучшем случае альфа (что тоже неплохо) — и, конечно, не хватило нескольких дней на то, чтобы выявить и исправить кучу крайне обидных ошибок. Не говоря уже о том, чтобы что-то отполировать.

Если в двух словах, то наше решение — соединение нейромодулей с традиционным граммером на правилах, который пока находит больше ошибок, но и сам ошибается чаще.

Это решение не было самым простым — кажется, мы знаем, как написать примитивную заглушку, которая формально дала бы результаты получше. И не удивлюсь, если какая-то из команд в условиях цейтнота так и поступила. Но мы заметно продвинулись в тех направлениях, в которых хотели продвинуться. Судя по разметке экспертов в доступных эссе, наша модель уже исправляет артикли не хуже среднестатистического учителя. Не знаем, насколько это серьёзный комплимент.

1280

На скриншоте — редкий пример текста, в котором найдено много ошибок. К другим эссе у нейросети претензий было меньше — часто одна-две, иногда ни одной. Сочинение, впрочем, действительно выдающееся: внимательный читатель, хотя бы немного знающий английский, легко найдёт в нём ошибки, которые наши модули пропустили.

Среди отмеченных ошибок, к сожалению, встречаются и ложные срабатывания. В предложении «дети предпочитают компьютерные игры обучению» нейросеть предлагает добавить местоимение (them), но тогда смысл исказится: «дети предпочитают играть в компьютерные игры, а не изучать их».

DeepPavlov: Мы использовали буквально всё, что могли, из нашей библиотеки и не только из неё. Для конкурса Alexa Prize от Amazon мы разработали DeepPavlov Agent — платформу для оркестрирования диалогов. Она отлично подошла и для этого конкурса и позволила нам совмещать несколько моделей, управлять ими и агрегировать результаты.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Не думайте о покупателе: как вырастить стартап, который купит Apple Не думайте о покупателе: как вырастить стартап, который купит Apple

Что необходимо учитывать при создании стартапа, чтобы заинтересовать Apple

Forbes
Как быстро прекратить истерику у девушки Как быстро прекратить истерику у девушки

Как справиться с истинной и манипулятивной истерикой своей партнерши?

Maxim
Спрячьте смартфон, если хотите произвести хорошее впечатление на рабочей встрече — особенно с малознакомыми людьми Спрячьте смартфон, если хотите произвести хорошее впечатление на рабочей встрече — особенно с малознакомыми людьми

Почему люди со смартфонами не производят хорошее впечатление

Inc.
Punch: Наша марка Punch: Наша марка

Интервью с создателем российско-белорусского электрического мотоцикла Punch

Мото
Держи крепче Держи крепче

Линор Горалик — о главных ценностях уходящего года и о том, как нам жить дальше

Vogue
«Будущее без работы. Технологии, автоматизация и стоит ли их бояться» «Будущее без работы. Технологии, автоматизация и стоит ли их бояться»

Отрывок из книги «Будущее без работы», переведенной Яндекс.Переводчиком

N+1
88 м² 88 м²

Дизайнер Анастасия Хальчицкая оформила собственную квартиру в Санкт-Петербурге

AD
Светлана Кузнецова: «Мужчины так сильно бьют, что мне просто страшно» Светлана Кузнецова: «Мужчины так сильно бьют, что мне просто страшно»

Теннисистка Светлана Кузнецова о будущем и прошлом российского тенниса

GQ
42 м² 42 м²

Стилист Дарья Соболева оформила квартиру, сделав акцент на цвете и искусстве

AD
Хочу как они! Звездные пары, которые доказали существование любви на всю жизнь Хочу как они! Звездные пары, которые доказали существование любви на всю жизнь

Пары, доказавшие, что настоящую любовь все же не сочинили сказочники

Cosmopolitan
Эпиляция и депиляция: что можно и нельзя во время беременности Эпиляция и депиляция: что можно и нельзя во время беременности

Какие методы эпиляции и депиляции можно использовать во время беременности?

9 месяцев
Придумала облачные услуги, борется с Microsoft и мечтает о выручке $60 млрд: чем известна Salesforce, покупающая Slack Придумала облачные услуги, борется с Microsoft и мечтает о выручке $60 млрд: чем известна Salesforce, покупающая Slack

Как развивается одна из самых успешных компаний на рынке облачного ПО

VC.RU
Загадка Антона Лапенко: как комик из многодетной семьи стал звездой YouTube и зарабатывает миллионы на ностальгии по 90-м Загадка Антона Лапенко: как комик из многодетной семьи стал звездой YouTube и зарабатывает миллионы на ностальгии по 90-м

В чем заключается гениальность Антона Лапенко?

Forbes
Контуринг по форме лица: примеры звезд и полезные советы Контуринг по форме лица: примеры звезд и полезные советы

"Всемогущий" контуринг способен зрительно скорректировать твои черты лица

Cosmopolitan
Подземная изоляция Подземная изоляция

Кроты настолько асоциальны, насколько это возможно для млекопитающих

Вокруг света
Живые клетки — химики Живые клетки — химики

Природные аналоги широко известных искусственных соединений

Наука и жизнь
Подъем с переворотом Подъем с переворотом

И века, и десятилетия не всегда совпадают с показаниями календарей

GQ
От Ice Bucket до Skibidi: 10 самых популярных челленджей От Ice Bucket до Skibidi: 10 самых популярных челленджей

Самые знаменитые интернет-челленджи и флешмобы

РБК
Правила жизни Тайгера Вудса Правила жизни Тайгера Вудса

Правила жизни великого гольфиста Тайгера Вудса

Esquire
Можно ли самостоятельно преодолеть психологическую травму? Можно ли самостоятельно преодолеть психологическую травму?

Психолог объясняет, как справиться с психологической травмой

Reminder
Совсем не прекрасный принц: 5 громких конфузов принца Чарльза Совсем не прекрасный принц: 5 громких конфузов принца Чарльза

Иногда принц Чарльз попадает в слишком неловкие ситуации

Cosmopolitan
7,3 млн рублей за 4,8 секунд: зачем в России спортивный внедорожник Audi SQ8 7,3 млн рублей за 4,8 секунд: зачем в России спортивный внедорожник Audi SQ8

Одна из важных новинок 2020 года — Audi SQ8

Forbes
5 причин заблокировать свой аккаунт в социальных сетях 5 причин заблокировать свой аккаунт в социальных сетях

Почему всем нам порой отказываться от интернета и социальных сетей

Psychologies
Выпускают змей и устраивают дебоши: звезды, на которых жалуются соседи Выпускают змей и устраивают дебоши: звезды, на которых жалуются соседи

Талантливые творческие люди не всегда могут быть приятными в быту

Cosmopolitan
Страшные тайны королевских браков: измены, внебрачные дети и скандальный развод Страшные тайны королевских браков: измены, внебрачные дети и скандальный развод

Королевский брак может казаться сказкой, но за ним кроются ограничения

Cosmopolitan
Какой алкогольный напиток самый безвредный? Какой алкогольный напиток самый безвредный?

Пиво, водка, вино и ликеры: что из них медленее опьяняет и меньше отравляет

Reminder
«День праха»: глава из нового романа Жана-Кристофа Гранже о комиссаре Ньемане «День праха»: глава из нового романа Жана-Кристофа Гранже о комиссаре Ньемане

Отрывок из нового романа признанного мастера триллера Жана-Кристофа Гранже

Forbes
Колонизация островов Сен-Пьер и Микелон привела к упадку колонии качурок Колонизация островов Сен-Пьер и Микелон привела к упадку колонии качурок

С 1816 года количество птиц на острове Гран-Коломбье упало до 16% от возможных

N+1
Пол Томас Андерсон и Милла Иовович Пол Томас Андерсон и Милла Иовович

Пол Томас Андерсон и Милла Йовович – о фильме «Охотник на монстров»

Maxim
Ешь конфеты! И еще 4 неожиданных способа укрепить силу воли! Ешь конфеты! И еще 4 неожиданных способа укрепить силу воли!

Теперь мы знаем, как укрепить силу воли и самоконтроль!

Maxim
Открыть в приложении