TMNT: память переводов и нейронный перевод

TMNT: память переводов и нейронный перевод

21 апреля 2022 г.

На заре цивилизации перевод очаровывал стремление человечества доносить идеи через языковые и культурные барьеры. Историки обнаружили, что аккадский перевод шумерского [Эпоса о Гильгамеше] (https://en.wikipedia.org/wiki/Epic_of_Gilgamesh#Translations) является самым ранним переведенным текстом. (Нет, я не имею в виду Дона Ли в «Вечных Марвел», и нет, он не Вонг из «Доктора Стрэнджа»).


Ближе к современной истории лингвисты бросились расшифровывать египетские иероглифы на Розеттском камне.


Сегодня переводы в форме шифров заставляют страны спешить с разработкой автоматических устройств-переводчиков, таких как [Engima in World War II] (https://www.101computing.net/enigma/enigma-M3.html) и IBM Thinking Машина времен холодной войны.


«Означает ли это конец человеческих переводчиков? Да, для научных и технических материалов, но что касается поэзии и романов, нет, я не думаю, что мы когда-нибудь заменим этих переводчиков» — Paramount News (1954)


Информатика продвинулась далеко от 1950-х годов. С недавним возрождением глубокого обучения современные системы машинного перевода достигли « [человеческого паритета] (https://www.microsoft.com/en-us/translator/blog/2019/06/17). /нейронно-машинный-перевод-включение-человеческого-паритета-инноваций-в-облаке/)', достиг качество перевода, сравнимое с человеческими профессионалами, и правильно перевел суть французского стихотворения .


Это последний рубеж машинного перевода?


Технологи, ученые и крупные технологические компании будут использовать любую возможность, чтобы рекламировать любые рекордные достижения. И это тот момент, когда статьи обычно нагнетают страх: «Конец переводчиков-людей» или «Переводчики заменены машинами в четвертой промышленной революции».


Но это не та статья. Вместо этого я хотел бы познакомить читателей с простым понятием Translation Memory (TM).


Нет никаких сомнений в том, что машинный перевод допускает ошибки, и вмешательство человека абсолютно необходимо для перевода с высокой точностью (на данный момент). Приложения для перевода варьируются от некритичных переводов игр Zelda до опасных ситуаций, когда врачу необходимо перевести медицинские заключения, чтобы дать точный прогноз.


Правильный перевод имеет решающее значение, особенно в медицинских и фармацевтических переводах, которые требуют специальных знаний в мире.


Например, машина без некоторой базы знаний никогда не сможет правильно перевести «przedawkowanie paracetamolu» (польский) в «Передозировка ацетаминофена/тайленола» (американский английский); «парацетамолу» переводится как «парацетамол», что обычно встречается в британском английском.


В этих ситуациях для редактирования машинного перевода требуется человек, или хорошая память переводов должна быть в состоянии позаботиться о замене терминологии.


Машина… никогда не сможет перевести «przedawkowanie paracetamolu» (польский) на американский английский.


Translation Memory — это просто база данных


Простейшая форма памяти переводов (TM) — это база данных переведенных текстов, созданная людьми. Как правило, прежде чем переводчик переведет документ, [он использует программное обеспечение для редактирования перевода] (https://en.wikipedia.org/wiki/Computer- Assistance_translation), которое сначала пытается найти совпадения в базе данных ТМ и предварительно заполняет переводы. для сегментов, которые идеально или почти идеально совпадают.


Память переводов — очень полезный инструмент для людей и машин. Обычно они включают:


  • Smart Remembering: A translator has previously translated, “水のように” to “be like water” and “火“ to “fire”, now the TM is able to find translations for “火のように”.

  • Сокращение повторений: Представьте себе скуку, связанную с переводом и повторным переводом веб-сайтов и шаблонов контрактов; или перевод «Ссылка… Сила Ганона растет…» каждую кровавую луну.


Подождите минутку, а не является ли TM просто обучающими данными для машинного перевода?


Да, это может быть. Но это может быть намного больше, чем просто тренировочные данные. Есть несколько сценариев, которые TM можно интегрировать с машинным переводом (MT), и это не только обучающие данные. Рассмотрим следующее:


  1. TM доступен только после обучения модели MT.

  1. ТМ имеет постоянные обновления и добавления/удаления

  1. ТМ используется для исправления ошибок машинного перевода.

В первом сценарии у компаний и частных лиц, которые не создают свои собственные механизмы машинного перевода, нет другого выбора, кроме как подключить TM как специальное if-else, например.


```питон


из aomame импортировать GoogleTranslator


gt = GoogleTranslator(host="translation.googleapis.com", key="***")


def translate(текст, исходный_язык, целевой_язык, тм):


если текст в тм:


вернуть тм[текст]


еще:


вернуть gt.translate (текст, исходный_язык, целевой_язык)


tm = {"przedawkowanie paracetamolu": "Передозировка тайленола"}


input = "приготовление парацетамола"


перевести(ввод, "pl", "en", tm)


Для второго сценария представьте, если медицинский директор постановит, что во всех документах должны использоваться непатентованные названия лекарств, то есть «Ацетаминофен» вместо «Тайленол». Даже если в какой-то момент Google каким-то образом удалось получить правильный перевод приведенного выше примера, вы все равно не можете пойти в офис Google и заставить переводить только непатентованные названия лекарств.


И последний сценарий, после расширения всех ваших средств обучения/настройки или жалобы в Google, у модели нет возможности узнать правильный перевод «przedawkowanie» на «Acetaminophen», вам придется прибегнуть к использование TM поверх MT для определенных переводов.


Если модель не обучается, вы недостаточно тщательно настраиваете


Вполне возможно, что модель в конечном итоге выучит правильный перевод после того, как приготовит правильную смесь обучающих данных с ТМ и повернет ручки на радиолюбительском гиперпараметре. Но во что обойдется исправление этого конкретного перевода? Следует учитывать рентабельность инвестиций:


  • Инфраструктурные затраты и вычислительные затраты на настройку механизма настройки модели

  • Человеческие усилия по настройке гиперпараметров или написание кода для настройки гиперпараметров

  • Время, необходимое для доставки пользователю правильных переводов

Существуют ли предложения, которые машинный перевод просто не может правильно воспроизвести, независимо от того, сколько данных/настроек вы в него вложите?


Независимо от задачи, всегда будет точка данных, которую машина не сможет правильно обработать, особенно когда люди тоже иногда испытывают трудности. Задача «Чихуахуа или Маффин» существует и в машинном переводе.


Шиба или зефир? - Карен Зак,


@teenybiscuit (2016)



Со времен [проекта GALE] (https://www.ldc.upenn.edu/sites/www.ldc.upenn.edu/files/amta2008-identifying-common-challenges.pdf) мы поняли, что некоторые тексты труднее переводить, чем другие, особенно веб-текст; склонные к ошибкам комментарии, сокращения, сленг и толстые пальцы «covfefe» делают переводы веб-текстов сложные.


Почему Google Translate так хорошо справляется с переводом веб-текстов?


Магия машинного обучения часто заключается в данных и, косвенно, в данных, созданных человеком. Задумывались ли вы, почему рядом с переводом в Google иногда появляется символ человеческой фигуры?


Переводчик Google


Это пример специального использования переводческой памяти в машинном переводе. «Covfefe» было сохранено как проверенный человеком перевод, и, скорее всего, это часто переводимое слово, и Google хочет обеспечить сохранение слова в качестве правильного перевода.


Даже если общедоступные API-интерфейсы перевода не сообщают вам явно, что люди курируют свои переводческие данные за кулисами, очистка данных имеет решающее значение для современной модели машинного обучения. Настолько, что существует специальная [общая задача по очистке данных перевода] (https://www.statmt.org/wmt20/parallel-corpus-filtering.html).


Резюме: Память переводов (TM)


Управление ожиданиями было проклятием для существующего ажиотажа вокруг систем машинного перевода, которые крадут рабочие места у переводчиков-людей с 1950-х годов. В то время как технология NLP/MT развивается беспрецедентными темпами, языки и переводы всегда будут содержать нюансы, которые трудно понять даже людям.


По мере того, как мы совершенствуем машинный перевод, память переводов занимает свое место в сегодняшнем стеке технологий перевода, который приносит пользу пользователям машинного перевода и людям-переводчикам. Даже если технологические гиганты прямо не говорят вам, что люди, создающие данные, являются ключевыми компонентами, которые делают возможным машинный перевод, они определенно нанимают много переводчиков косвенно, покупая брокеров языковых данных.



Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE