Гибридный машинный перевод
Эта статья во многом или полностью опирается на неавторитетные источники, что может вызвать сомнения в нейтральности и проверяемости представленной информации. |
Стиль этой статьи неэнциклопедичен или нарушает нормы литературного русского языка. |
Эту статью необходимо исправить в соответствии с правилом Википедии об оформлении статей. |
Эта статья или раздел нуждается в переработке. |
Гибридный машинный перевод (Hybrid machine translation — HMT) — интеграция разных подходов машинного перевода из возможных вариантов МП:[1]
- Rule-based machine translation (RBMT) — Машинный перевод на основе правил.
- Corpus-based machine translation (CBMT) — Машинный перевод на корпусах текстов.
- Example-based machine translation (EBMT) Машинный перевод на примерах.
- Statistical machine translation (SMT) — Статистический машинный перевод.
Ожидается, что с помощью гибридной архитектуры удастся объединить преимущества этих подходов.[1] Машинный перевод на сегодняшний день представлен двумя основными технологиями: Статистический машинный перевод (Statistical machine translation — SMT) и Машинный перевод на основе правил (Rule-Based Machine Translation — RBMT).[2]
Разработчики software Hybrid MT
[править | править код]- AppTek HMT[3] «TranSphere®» — полная интеграция SMT и RBMT методологий.
- Asia Online[4] «SAIC’s OmnifluentTM Human Language Technology».
- LinguaSys[5] «Carabao Machine Translation engine».
- Systran[6][7] «SYSTRAN’s hybrid engine»
- Polytechnic University of Valencia[8]
- PROMT[2] «PROMT DeepHybrit»[9]
Гибридная технология «SMT и RBMT»
[править | править код]Гибридная технология перевода предполагает использование статистических методов для построения словарных баз автоматическим путём на основе параллельных корпусов, формирования нескольких возможных переводов как на лексическом уровне, так и на уровне синтаксической структуры предложения выходного языка, применения постредактирования в автоматическом режиме и выбор лучшего (наиболее вероятного) перевода из возможных на основе языковой модели, построенной по определенному корпусу выходного языка.[2]
Hybrid (SMT + RBMT) System различаются: (п.2.4.3[4])
- Rule-based MT с пост-обработкой статистического подхода.
- Statistical MT с предварительной обработкой по Rule-based подходу.
- Полная интеграция RBMT и SMT.[3]
Статистический МП стремится использовать лингвистические данные, а системы с «классическим» подходом, основанном на правилах, применяют статистические методы.[2] Добавление некоторых "сквозных" правил, то есть создание гибридных систем, несколько[сколько?] улучшает качество переводов, особенно при недостаточном объеме входных данных, используемых при построении индексных файлов хранения лингвистической информации машинного переводчика, базирующегося на N-граммах.[10]
Объединение RBMT и статистического машинного перевода:
- Лингвистический анализ входного предложения;
- Порождение вариантов перевода;
- Использование статистических технологий;
- Оценка и выбор лучшего варианта перевода с использованием Языковой модели.[11][12][13]
Этапы Гибридной технологии SMT и RBMT:[2]
- Обучение RBMT на основе параллельного корпуса с использованием статистических технологий;
- Эксплуатация на основе натренированной системы.
Архитектура Гибридной технологии «SMT и RBMT»
[править | править код]В гибридном машинном переводе RBMT-система дополнена двумя компонентами[14]: модулем статистического постредактирования и модулем языковых моделей. Статистическое постредактирование позволяет сгладить RB-перевод, приближая его к естественному языку и при этом сохраняя четкую структуру синтезируемого текста. Языковые модели используются для оценки гладкости и грамматической правильности вариантов перевода, порождаемых гибридной системой.
Типичная архитектура HMT:[14]
- Параллельный корпус;
- Обучение;
- Языковая модель;
- Данные для постредактирования;
- Правила синтеза;
- Словарь терминологии.
- Эксплуатация:
- — Гибридный перевод.
Принцип работы HMT
[править | править код]Эта статья написана в рекламном стиле. |
Стиль этого раздела неэнциклопедичен или нарушает нормы литературного русского языка. |
Совмещение, казалось бы, несовместимых методов перевода, а именно классической технологии машинного перевода Машинный перевод на основе правил (Rule-Based MT) и Статистический машинный перевод (Statistical MT) можно реализовать в гибридной технологии перевода.[15] Кардинальное отличие нового решения состоит в том, что вместо одного варианта перевода программа порождает множество переводов, число которых у одного предложения, в зависимости от многозначности слов, конструкций, и результатов статистической обработки, может доходить до нескольких сотен. Далее вероятностная модель языка позволяет выбрать самый вероятный из предложенных вариантов.
Алгоритм работы типичной HMT:[2]
- Создание терминологического словаря из параллельных текстов для RBMT автоматическим путём.
- Порождение всех возможных вариантов перевода на основе:
- — лексических вариантов;
- — вариантов синтеза разных конструкций;
- — применения постредактирования.
- Выбор лучшего варианта, через реализованную Языковую модель.
Преимущества и недостатки
[править | править код]Что даёт гибридная технология перевода?
- Быструю автоматическую настройку на основе Translation Memories заказчика;
- Терминологическую точность перевода, а также единство стиля;
- Получение дополнительных полезных данных — двуязычного терминологического словаря.
Преимущества и недостатки Машинного перевода на основе правил
[править | править код]Преимущества RBMT:[16]
Сохраняются:
- — синтаксическая и морфологическая точность;
- — стабильность и предсказуемость результата;
- — возможность настройки на предметную область.
Недостатки RBMT:
- — трудоемкость и длительность разработки;
- — необходимость поддерживать и актуализировать лингвистические БД;
- — «машинный акцент» при переводе.
Недостатки нивелируются за счет использования параллельных корпусов и статистических методов.
- — автоматическая настройка лингвистических баз данных (быстрое и качественное извлечение терминологии),
- — исчезает «машинный» акцент при переводе (варианты синтеза и постредактирование).
Преимущества и недостатки Статистических систем перевода
[править | править код]Преимущества SMT:[17]
- — быстрая настройка;
- — легко добавлять новые направления перевода;
- — гладкость перевода.
Недостатки SMT:
- — «Дефицит» параллельных корпусов;
- — многочисленные грамматические ошибки;
- — нестабильность перевода.
См. также
[править | править код]- Автоматический перевод устной речи
- Автоматизированный перевод
- Машинный перевод
- Распознавание речи
- Синтез речи
Примечания
[править | править код]- ↑ 1 2 http://www.iai-sb.de/docs/sci00.pdf
- ↑ 1 2 3 4 5 6 Гибридная технология перевода.-Ю.Епифанцева,ООО<ПРОМТ>,Конференция "Рос.интернет-технологии",2011 . Архивировано 8 апреля 2013 года.
- ↑ 1 2 Request Rejected
- ↑ 1 2 http://nlp.amrita.edu:8080/project/mhrd/ms/Final_Thesis.pdf
- ↑ http://www-304.ibm.com/partnerworld/gsd/showimage.do?id=31815
- ↑ SYSTRAN's machine translation technology . Дата обращения: 1 апреля 2013. Архивировано 8 апреля 2013 года.
- ↑ SYSTRAN Hybrid Technology . Дата обращения: 1 апреля 2013. Архивировано 8 апреля 2013 года.
- ↑ http://web.iti.upv.es/~fcn/Students/ta/Talk-ToniL-PRACT_ISSUES-13_4p.pdf
- ↑ http://www.statmt.org/wmt12/pdf/WMT43.pdf
- ↑ http://poiskbook.kiev.ua/art/ml/lande.pdf
- ↑ http://www.intsys.msu.ru/magazine/archive/v6(1-4)/kholod.pdf
- ↑ http://vestnik.stavsu.ru/70-2010/06.pdf
- ↑ Об автоматной аппроксимации реальных языков - скачать бесплатно автореферат на тему Дискретная математика и математическая кибернетика. Заказать доставку диссертации по матема … Дата обращения: 4 апреля 2013. Архивировано 8 апреля 2013 года.
- ↑ 1 2 Зачем нужна гибридная технология перевода.-А.Молчанов,ООО«ПРОМТ»,Конференция "AINL",2013 . Архивировано 8 апреля 2013 года.
- ↑ Компания PROMT - переводчики и словари для перевода текста с английского, русского, немецкого, французского, испанского, португальского и итальянского языков . Дата обращения: 23 марта 2013. Архивировано 8 апреля 2013 года.
- ↑ http://www.promt.ru/images/ainl_molchanov_promt.pdf
- ↑ Зачем нужна гибридная технология перевода.-А.Молчанов,ООО<ПРОМТ>,Конференция "AINL",2013 . Архивировано 8 апреля 2013 года.