«Яндекс» стал использовать в «Переводчике» нейросети для улучшения перевода. Нейросеть захватила переводчик яндекса Гибридный переводчик слов и фраз

14.09.2017, Чт, 14:19, Мск , Текст: Валерия Шмырова

В сервисе «Яндекс.Переводчик» помимо статистического перевода стал доступен вариант перевода от нейросети. Ее преимущество в том, что она работает с целыми предложениями, лучше учитывает контекст и выдает согласованный, естественный текст. Однако когда нейросеть чего-то не понимает, она начинает фантазировать.

Запуск нейросети

Сервис «Яндекс.Переводчик» запустил нейронную сеть, которая поможет повысить качество перевода. Ранее перевод с одного языка на другой осуществлялся с помощью статистического механизма. Теперь процесс будет гибридным: свой вариант перевода будет предлагать и статистическая модель, и нейросеть. После этого алгоритм CatBoost, в основе которого лежит машинное обучение, будет выбирать лучший из полученных результатов.

Пока что нейросеть выполняет только перевод с английского на русский и только в веб-версии сервиса. По данным компании, в «Яндекс.Переводчике» запросы на англо-русский перевод составляют 80% всех запросов. В ближайшие месяцы разработчики намерены внедрить гибридную модель и в других направлениях. Чтобы пользователь мог сравнить переводы от разных механизмов, предусмотрен специальный переключатель.

Отличия от статистического переводчика

Принцип работы нейронной сети отличается от статистической модели перевода. Вместо того, чтобы переводить текст слово за словом, выражение за выражением, она работает с целыми предложениями, не разбивая их на части. Благодаря этому в переводе учитывается контекст и лучше передается смысл. Кроме того переведенное предложение получается согласованным, естественным, легким для чтения и восприятия. По словам разработчиков, его можно принять за результат работы переводчика-человека.

Перевод нейросети напоминает перевод человека

К особенностям нейросети относится склонность «фантазировать», когда ей что-то не понятно. Таким образом она пытается угадать правильный перевод.

У статистического переводчика есть свои преимущества: он удачнее переводит редкие слова и выражения - мало распространенные имена, топонимы и т. д. Кроме того, он не фантазирует в том случае, если смысл предложения не ясен. По словам разработчиков, статистическая модель лучше справляется с короткими фразами.

Другие механизмы

В «Яндекс.Переводчике» есть специальный механизм, который дорабатывает перевод нейросети, как и перевод статистического переводчика, корректируя в нем рассогласованные сочетания слов и орфографические ошибки. Благодаря этому пользователь не увидит в переводе сочетаний типа «папа пошла» или «сильный боль», уверяют разработчики. Этот эффект достигается за счет сравнения перевода с моделью языка - всеми знаниями о языке, накопленными системой.

В затруднительных случаях нейросеть склонна фантазировать

Модель языка содержит список слов и выражений языка, а также данные о частоте их употребления. Она нашла применение и за пределами «Яндекс.Переводчика». Например, при использовании «Яндекс.Клавиатуры» именно она угадывает, какое слово пользователь хочет набрать следующим, и предлагает ему готовые варианты. Например, модель языка понимает, что за «привет, как», скорее всего последуют варианты «дела» или «ты».

Что такое «Яндекс.Переводчик»

«Яндекс.Переводчик - сервис по переводу текстов с одного языка на другой от компании «Яндекс», начавший работу в 2011 г. Изначально он работал только с русским, украинским и английским языком.

За время существования сервиса количество языков увеличилось до 94 языка. Среди них присутствуют и экзотические, такие как коса или папьяменто. Перевод можно выполнить между любыми двумя языками.

В 2016 г. в «Яндекс.Переводчик» был добавлен вымышленный и искусственно созданный язык, на котором общаются эльфы в книгах Дж. Р. Р. Толкина.

Перевод веб-страниц в «Яндекс.Браузере» станет намного корректнее. Теперь в браузере используют технологии искусственного интеллекта, которые позволяют избежать неточностей статистического перевода. Ранее в компании уже статистический перевод с переводом, осуществляемым искусственным интеллектом в сервисе «Яндекс.Переводчик».

Алгоритмы анализируют расположение текста на странице, оформление и тип записи; сравнивают заголовки и содержимое. На основе такого анализа удается создавать более точные и читаемые переводы. Как сообщили в «Яндексе», искусственный интеллект сравнивает речевые обороты, лексику и другие особенности заголовков в разных языках и затем самостоятельно формирует правила, которые помогают распознать заголовок на странице и правильно его перевести. Также нейросеть различает слова в тексте и слова в пунктах меню или навигационных элементах.

Например, если раньше текст:

«Game of Thrones prequel announced
Book author George RR Martin co-created the as-yet-untitled show, one of five potential spinoffs»

браузер переводил в такие фразы:

«Игра престолов приквел объявил
Книгу автора Джорджа Мартина совместно создали пока безымянного шоу, одна из пяти возможных продолжениях»

то теперь перевод будет звучать так:

«Анонсирован приквел Game of Thrones
Автор книги Джордж РР Мартин выступил соавтором пока еще не названного шоу, одного из пяти потенциальных спиноффов»

Кроме того, перевод стал не только более точным, но и быстрым - теперь переводится не вся страница целиком, а только та часть, которую видит пользователь. Новые алгоритмы перевода в «Яндекс.Браузере» уже доступны в браузере для ПК и для Android-устройств. Версия для гаджетов под управлением операционной системы iOS появится в ближайшее время.

Яндекс.Переводчик научился дружить с нейросетью и отдавать пользователям более качественные тексты. В Яндексе стали использовать гибридную систему перевода: изначально работала статистическая, а теперь её дополняет технология машинного обучения CatBoost. Правда есть одно но. Пока что лишь для перевода с английского на русский.

В Яндексе утверждают, что это самое популярное направление переводов, которое занимает 80% от общего числа.

CatBoost - умная штука, которая, получив две версии перевода сравнивает их, выбирая наиболее человекоподобную.

В статистической версии обычно перевод разбивается на отдельные фразы и слова. Нейроесть этого не делает, анализирую предложение в целом, учитывая по возможности контекст. Отсюда большая похожесть на человеческий перевод, ведь нейросеть может учесть согласования слов. Однако, у статистического подхода тоже есть свои преимущества, когда он не фантазирует, если видит редкое или непонятное слово. нейросеть же может проявить попытку креатива.

После сегодняшнего анонса должно сократить количество грамматических ошибок в автоматических переводах. Теперь они проходят через модель языка. Теперь не должны попадаться моменты в духе «папа пошла» или «сильный боль».

В веб-версии в данный момент пользователи могут выбрать ту версию перевода, которая им кажется наиболее правильной и удачно, для этого есть отдельный триггер.

Если вам интересны новости мира ИТ также сильно, как нам, подписывайтесь на наш Telegram-канал . Там все материалы появляются максимально оперативно. Или, может быть, вам удобнее ? Мы есть даже в .

Понравилась статья?

Или хотя бы оставить довольный комментарий, чтобы мы знали, какие темы наиболее интересны читателям. Кроме того, нас это вдохновляет. Форма комментариев ниже.

Что с ней так? Своё негодование вы можете высказать на [email protected]. Мы постараемся учесть ваше пожелание в будущем, чтобы улучшить качество материалов сайта. А сейчас проведём воспитательную работу с автором.

Сервис «Яндекс.Переводчик» стал использовать технологии нейронных сетей при переводе текстов, что позволяет повысить качество перевода, сообщили сайт в «Яндексе».

В закладки

Сервис работает по гибридной системе, объясняли в «Яндексе»: к статистической модели, которая работает в «Переводчике» с момента запуска, была добавлена технология перевода с помощью нейросети.

«В отличие от статистического переводчика, нейронная сеть не разбивает тексты на отдельные слова и фразы. Она получает на вход предложение целиком и выдаёт его перевод», - объяснил представитель компании. По его словам, такой подход позволяет учесть контекст и лучше передать смысл переводимого текста.

Статистическая модель, в свою очередь, лучше справляется с редкими словами и фразами, подчеркнули в «Яндексе». «Если смысл предложения непонятен, она не фантазирует, как это может делать нейросеть», - отметили в компании.

При переводе сервис использует обе модели, затем алгоритм машинного обучения сравнивает результаты и предлагает лучший, на его взгляд, вариант. «Гибридная система позволяет взять лучшее от каждого метода и повысить качество перевода», - говорят в «Яндексе».

В течение дня 14 сентября в веб-версии «Переводчика» должен появиться переключатель, с помощью которого можно будет сравнить переводы, выполненные гибридной и статистической моделями. При этом иногда сервис может не изменять тексты, отметили в компании: «Это значит, что гибридная модель решила, что статистический перевод лучше».