Лингвистика, Технологии Яндекс научил нейросеть переводить тексты (в том числе, песни Кулио)

14.09.17 10:51 , ,

Яндекс научил нейросеть переводить тексты (в том числе, песни Кулио)

Яндекс.Переводчик начал использовать гибридную систему перевода: к статистической модели добавилась технология перевода на нейронной сети. Теперь текст переводят обе модели, а затем алгоритм на основе машинного обучения сравнивает результаты и предлагает лучший. В результате повышается качество перевода. 

Нейронная сеть не разбивает тексты на отдельные слова и фразы, а получает на вход предложение целиком и выдает его перевод. Такой подход позволяет учесть контекст и лучше передать смысл. Результат получается «гладким»: предложение хорошо читается, и иногда даже можно подумать, что его перевел человек. Статистическая модель, в свою очередь, лучше справляется с редкими словами и фразами и не фантазирует, если смысл предложения непонятен, как это может делать нейросеть.

Пока гибридная система работает только для переводов с английского на русский, на которые приходится около 80% запросов. 

Я решил потестировать новую технологию на бессмертной песне Кулио Gangsta’s Paradise:

As I walk through the valley of the shadow of death
I take a look at my life and realize there's nothin' left
‘Cause I've been blastin' and laughin' so long
That even my momma thinks that my mind is gone

Вот, что получилось у Яндекс.Переводчика:

Как я пешком через долину смертной тени
Я смотрю на свою жизнь и понимаю, что ничего не осталось
Потому что я так долго смеялся и взрывался.
Это даже моя мама думает, что мой разум ушел

Получилось вполне сносно, хотя почему-то исчез глагол из первой строки. А вот вариант перевода, сделанный только статистической моделью:

Как я пешком через долину смертной тени
Я взгляну на свою жизнь и осознать ничего не осталось
Потому что я был blastin' и смеялся так долго
Что даже мама думает, что я сошел с ума

Здесь тоже нет глагола, но в остальном можно присудить уверенную победу нейросети. Вкалывают роботы — счастлив человек!

Этому блогу больше 15 лет — за это время многие сайты, на которые я ссылался, перестали работать. Подпишитесь на мою научную рассылку Hypertextual — там много более актуальных материалов.