Гибридный машинный перевод: различия между версиями

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску
[отпатрулированная версия][непроверенная версия]
Содержимое удалено Содержимое добавлено
м →‎top: ВП:ЗКБВ, replaced: {{чистить} → {{переработать}
 
(не показано 12 промежуточных версий 5 участников)
Строка 1: Строка 1:
'''Гибридный машинный перевод''' (Hybrid machine translation — HMT) — интеграция разных подходов машинного перевода из возможных вариантов МП:<ref name="Hybrid_iaiRef">{{cite web |url=http://www.iai-sb.de/docs/sci00.pdf |title=Архивированная копия |accessdate=2013-03-27 |deadlink=да |archiveurl=https://web.archive.org/web/20160313214828/http://www.iai-sb.de/docs/sci00.pdf |archivedate=2016-03-13 }}</ref>
{{неавторитетные источники|дата=2013-3-20}}
{{стиль}}{{викифицировать}}{{переработать}}
'''Гибридный машинный перевод''' (Hybrid machine translation — HMT) — интеграция разных подходов машинного перевода из возможных вариантов МП:<ref name="Hybrid_iaiRef">http://www.iai-sb.de/docs/sci00.pdf</ref>
* Rule-based machine translation (RBMT) — [[Машинный перевод на основе правил]].
* Rule-based machine translation (RBMT) — [[Машинный перевод на основе правил]].
* Corpus-based machine translation (CBMT) — [[Машинный перевод на корпусах текстов]].
* Corpus-based machine translation (CBMT) — [[Машинный перевод на корпусах текстов]].
Строка 7: Строка 5:
** Statistical machine translation (SMT) — [[Статистический машинный перевод]].
** Statistical machine translation (SMT) — [[Статистический машинный перевод]].


Ожидается, что с помощью гибридной архитектуры удастся объединить преимущества этих подходов.<ref name="Hybrid_iaiRef" /> Машинный перевод на сегодняшний день представлен двумя основными технологиями: Статистический машинный перевод (Statistical machine translation — SMT) и Машинный перевод на основе правил (Rule-Based Machine Translation — RBMT).<ref name="ritconfRef">{{cite web|url=http://2011.ritconf.ru/2011/abstracts/806.html|title=Гибридная технология перевода.-Ю.Епифанцева,ООО<ПРОМТ>,Конференция "Рос.интернет-технологии",2011|archiveurl=http://www.webcitation.org/6Fj6uKGP2|archivedate=2013-04-08}}</ref>
Ожидается, что с помощью гибридной архитектуры удастся объединить преимущества этих подходов.<ref name="Hybrid_iaiRef" /> Машинный перевод на сегодняшний день представлен двумя основными технологиями: Статистический машинный перевод (Statistical machine translation — SMT) и Машинный перевод на основе правил (Rule-Based Machine Translation — RBMT).<ref name="ritconfRef">{{cite web|url=http://2011.ritconf.ru/2011/abstracts/806.html|title=Гибридная технология перевода.-Ю.Епифанцева,ООО<ПРОМТ>,Конференция "Рос.интернет-технологии",2011|archiveurl=https://www.webcitation.org/6Fj6uKGP2?url=http://2011.ritconf.ru/2011/abstracts/806.html|archivedate=2013-04-08}}</ref>


== Разработчики software Hybrid MT ==
== Разработчики software Hybrid MT ==
* AppTek HMT<ref name="AppTekRef">[http://amta2010.amtaweb.org/AMTA_2010_AppTek.pdf Request Rejected<!-- Заголовок добавлен ботом -->]</ref> «TranSphere®» — полная интеграция SMT и RBMT методологий.
* AppTek HMT<ref name="AppTekRef">{{Cite web |url=http://amta2010.amtaweb.org/AMTA_2010_AppTek.pdf |title=Request Rejected<!-- Заголовок добавлен ботом --> |access-date=2013-03-29 |archive-date=2016-03-04 |archive-url=https://web.archive.org/web/20160304073047/http://amta2010.amtaweb.org/AMTA_2010_AppTek.pdf |deadlink=no }}</ref> «TranSphere®» — полная интеграция SMT и RBMT методологий.
* Asia Online<ref name="AsiaOnlineRef">http://nlp.amrita.edu:8080/project/mhrd/ms/Final_Thesis.pdf</ref> «SAIC’s OmnifluentTM Human Language Technology».
* Asia Online<ref name="AsiaOnlineRef">http://nlp.amrita.edu:8080/project/mhrd/ms/Final_Thesis.pdf{{Недоступная ссылка|date=2018-06|bot=InternetArchiveBot }}</ref> «SAIC’s OmnifluentTM Human Language Technology».
* LinguaSys<ref name="LinguaSysRef">http://www-304.ibm.com/partnerworld/gsd/showimage.do?id=31815</ref> «Carabao Machine Translation engine».
* LinguaSys<ref name="LinguaSysRef">{{Cite web |url=http://www-304.ibm.com/partnerworld/gsd/showimage.do?id=31815 |title=Архивированная копия |accessdate=2013-03-29 |archiveurl=https://web.archive.org/web/20160304202735/http://www-304.ibm.com/partnerworld/gsd/showimage.do?id=31815 |archivedate=2016-03-04 |deadlink=yes }}</ref> «Carabao Machine Translation engine».
* Systran<ref name="systranRef">{{cite web|url=http://www.systransoft.com/systran/corporate-profile/translation-technology|title=SYSTRAN's machine translation technology|accessdate=2013-04-01|archiveurl=http://www.webcitation.org/6Fj6wMzV2|archivedate=2013-04-08}}</ref><ref name="systransoftRef">{{cite web|url=http://www.systransoft.com/systran/corporate-profile/translation-technology/systran-hybrid-technology|title=SYSTRAN Hybrid Technology|accessdate=2013-04-01|archiveurl=http://www.webcitation.org/6Fj6wzLLf|archivedate=2013-04-08}}</ref> «SYSTRAN’s hybrid engine»
* Systran<ref name="systranRef">{{cite web|url=http://www.systransoft.com/systran/corporate-profile/translation-technology|title=SYSTRAN's machine translation technology|accessdate=2013-04-01|archiveurl=https://www.webcitation.org/6Fj6wMzV2?url=http://www.systransoft.com/systran/corporate-profile/translation-technology|archivedate=2013-04-08}}</ref><ref name="systransoftRef">{{cite web|url=http://www.systransoft.com/systran/corporate-profile/translation-technology/systran-hybrid-technology|title=SYSTRAN Hybrid Technology|accessdate=2013-04-01|archiveurl=https://www.webcitation.org/6Fj6wzLLf?url=http://www.systransoft.com/systran/corporate-profile/translation-technology/systran-hybrid-technology|archivedate=2013-04-08}}</ref> «SYSTRAN’s hybrid engine»
* Polytechnic University of Valencia<ref name="PolytechnicRef">http://web.iti.upv.es/~fcn/Students/ta/Talk-ToniL-PRACT_ISSUES-13_4p.pdf</ref>
* Polytechnic University of Valencia<ref name="PolytechnicRef">http://web.iti.upv.es/~fcn/Students/ta/Talk-ToniL-PRACT_ISSUES-13_4p.pdf{{Недоступная ссылка|date=2018-06|bot=InternetArchiveBot }}</ref>
* PROMT<ref name="ritconfRef" /> «PROMT DeepHybrit»<ref name="PROMTDeepHybridRef">http://www.statmt.org/wmt12/pdf/WMT43.pdf</ref>
* PROMT<ref name="ritconfRef" /> «PROMT DeepHybrid»<ref name="PROMTDeepHybridRef">{{Cite web |url=http://www.statmt.org/wmt12/pdf/WMT43.pdf |title=Архивированная копия |access-date=2013-03-29 |archive-date=2015-05-12 |archive-url=https://web.archive.org/web/20150512145439/http://statmt.org/wmt12/pdf/WMT43.pdf |deadlink=no }}</ref>

== Подходы ==

==== Многоуровненвый ====
Этот подход к гибридному машинному переводу предполагает параллельное выполнение нескольких систем машинного перевода. Окончательный результат получается путем объединения результатов всех подсистем. Чаще всего в этих системах используются подсистемы статистического и основанного на правилах перевода, но были изучены и другие комбинации. Например, исследователи из Университета Карнеги-Меллона добились определенного успеха, объединив подсистемы перевода на основе примеров , передачи , знаний и статистического перевода в одну систему машинного перевода.

==== Статистическая генерация правил ====
Этот подход включает использование статистических данных для создания лексических и синтаксических правил. Затем ввод обрабатывается с использованием этих правил, как если бы это был переводчик на основе правил . Этот подход пытается избежать сложной и отнимающей много времени задачи создания набора всеобъемлющих, детализированных лингвистических правил путем извлечения этих правил из учебного корпуса. Этот подход по-прежнему страдает от многих проблем нормального статистического машинного перевода , а именно от того, что точность перевода будет сильно зависеть от сходства входного текста с текстом обучающего корпуса. В результате этот метод имел наибольший успех в приложениях, ориентированных на конкретную предметную область, и имеет те же трудности с адаптацией предметной области, что и многие системы статистического машинного перевода.

==== Многопроходный ====
Этот подход предполагает последовательную обработку ввода несколько раз. Наиболее распространенный метод, используемый в системах многопроходного машинного перевода, - это предварительная обработка ввода с помощью системы машинного перевода на основе правил . Выходные данные основанного на правилах препроцессора передаются в систему статистического машинного перевода , которая производит окончательный результат. Этот метод используется для ограничения объема информации, которую необходимо учитывать статистической системе, что значительно снижает требуемую вычислительную мощность. Это также устраняет необходимость в системе, основанной на правилах, быть полной системой перевода для языка, что значительно снижает количество человеческих усилий и труда, необходимых для создания системы.

==== На основе уверенности ====
Этот подход отличается от других гибридных подходов тем, что в большинстве случаев используется только одна технология перевода. Для каждого переведенного предложения создается показатель достоверности, на основе которого можно принять решение, попробовать ли вторичную технологию перевода или продолжить работу с исходным переводом. Omniscien Technologies - одна из компаний, использующих этот подход, при этом NMT является основной технологией, но возвращается к SMT, если показатель достоверности ниже порогового значения или длина предложения очень короткая (например, 1 или 2 слова). SMT также используется, когда общие шаблоны ошибок, такие как несколько повторяющихся слов, появляются последовательно, как это часто бывает с NMT, когда механизм внимания сбит с толку.


== Гибридная технология «SMT и RBMT» ==
== Гибридная технология «SMT и RBMT» ==
Строка 25: Строка 37:
* Полная интеграция RBMT и SMT.<ref name="AppTekRef" />
* Полная интеграция RBMT и SMT.<ref name="AppTekRef" />


Статистический МП стремится использовать лингвистические данные, а системы с «классическим» подходом, основанном на правилах, применяют статистические методы.<ref name="ritconfRef" /> Добавление некоторых "сквозных" правил, то есть создание гибридных систем, несколько{{сколько}} улучшает качество переводов, особенно при недостаточном объеме входных данных, используемых при построении индексных файлов хранения лингвистической информации машинного переводчика, базирующегося на N-граммах.<ref name="landeRef">http://poiskbook.kiev.ua/art/ml/lande.pdf</ref>
Статистический МП стремится использовать лингвистические данные, а системы с «классическим» подходом, основанном на правилах, применяют статистические методы.<ref name="ritconfRef" /> Добавление некоторых "сквозных" правил, то есть создание гибридных систем, несколько{{сколько}} улучшает качество переводов, особенно при недостаточном объеме входных данных, используемых при построении индексных файлов хранения лингвистической информации машинного переводчика, базирующегося на N-граммах.<ref name="landeRef">{{Cite web |url=http://poiskbook.kiev.ua/art/ml/lande.pdf |title=Архивированная копия |accessdate=2013-04-17 |archiveurl=https://web.archive.org/web/20140419053839/http://poiskbook.kiev.ua/art/ml/lande.pdf |archivedate=2014-04-19 |deadlink=yes }}</ref>


Объединение RBMT и статистического машинного перевода:
Объединение RBMT и статистического машинного перевода:
Строка 31: Строка 43:
* Порождение вариантов перевода;
* Порождение вариантов перевода;
* Использование статистических технологий;
* Использование статистических технологий;
* Оценка и выбор лучшего варианта перевода с использованием Языковой модели.<ref name="kholodRef">http://www.intsys.msu.ru/magazine/archive/v6(1-4)/kholod.pdf</ref><ref name="stavsuRef">http://vestnik.stavsu.ru/70-2010/06.pdf</ref><ref name="fizmathimRef">{{cite web|url=http://fizmathim.com/ob-avtomatnoy-approksimatsii-realnyh-yazykov|title=Об автоматной аппроксимации реальных языков - скачать бесплатно автореферат на тему Дискретная математика и математическая кибернетика. Заказать доставку диссертации по матема …|accessdate=2013-04-04|archiveurl=http://www.webcitation.org/6Fj6xR0kb|archivedate=2013-04-08}}</ref>
* Оценка и выбор лучшего варианта перевода с использованием Языковой модели.<ref name="kholodRef">{{Cite web |url=http://www.intsys.msu.ru/magazine/archive/v6(1-4)/kholod.pdf |title=Архивированная копия |access-date=2013-04-01 |archive-date=2016-03-04 |archive-url=https://web.archive.org/web/20160304115247/http://www.intsys.msu.ru/magazine/archive/v6(1-4)/kholod.pdf |deadlink=no }}</ref><ref name="stavsuRef">{{Cite web |url=http://vestnik.stavsu.ru/70-2010/06.pdf |title=Архивированная копия |access-date=2013-04-01 |archive-date=2016-03-05 |archive-url=https://web.archive.org/web/20160305215651/http://vestnik.stavsu.ru/70-2010/06.pdf |deadlink=no }}</ref><ref name="fizmathimRef">{{cite web|url=http://fizmathim.com/ob-avtomatnoy-approksimatsii-realnyh-yazykov|title=Об автоматной аппроксимации реальных языков - скачать бесплатно автореферат на тему Дискретная математика и математическая кибернетика. Заказать доставку диссертации по матема …|accessdate=2013-04-04|archiveurl=https://www.webcitation.org/6Fj6xR0kb?url=http://fizmathim.com/ob-avtomatnoy-approksimatsii-realnyh-yazykov|archivedate=2013-04-08}}</ref>


Этапы Гибридной технологии SMT и RBMT:<ref name="ritconfRef" />
Этапы Гибридной технологии SMT и RBMT:<ref name="ritconfRef" />
Строка 38: Строка 50:


=== Архитектура Гибридной технологии «SMT и RBMT» ===
=== Архитектура Гибридной технологии «SMT и RBMT» ===
В гибридном машинном переводе RBMT-система дополнена двумя компонентами<ref name="Hybrid_promtRef">{{cite web|url=http://nlpseminar.ru/ainl/program/aleksandr-molchanov|title=Зачем нужна гибридная технология перевода.-А.Молчанов,ООО«ПРОМТ»,Конференция "AINL",2013|archiveurl=http://www.webcitation.org/6Fj6y96EI|archivedate=2013-04-08}}</ref>: модулем статистического постредактирования и модулем языковых моделей. Статистическое постредактирование позволяет сгладить RB-перевод, приближая его к естественному языку и при этом сохраняя четкую структуру синтезируемого текста. Языковые модели используются для оценки гладкости и грамматической правильности вариантов перевода, порождаемых гибридной системой.
В гибридном машинном переводе RBMT-система дополнена двумя компонентами<ref name="Hybrid_promtRef">{{cite web|url=https://nlpseminar.ru/ainl/program/aleksandr-molchanov|title=Зачем нужна гибридная технология перевода.-А.Молчанов,ООО«ПРОМТ»,Конференция "AINL",2013|archiveurl=https://www.webcitation.org/6Fj6yUCwi?url=https://nlpseminar.ru/ainl/program/aleksandr-molchanov|archivedate=2013-04-08}}</ref>: модулем статистического постредактирования и модулем языковых моделей. Статистическое постредактирование позволяет сгладить RB-перевод, приближая его к естественному языку и при этом сохраняя четкую структуру синтезируемого текста. Языковые модели используются для оценки гладкости и грамматической правильности вариантов перевода, порождаемых гибридной системой.


Типичная архитектура HMT:<ref name="Hybrid_promtRef" />
Типичная архитектура HMT:<ref name="Hybrid_promtRef" />
Строка 51: Строка 63:


=== Принцип работы HMT ===
=== Принцип работы HMT ===
Совмещение, казалось бы, несовместимых методов перевода, а именно классической технологии машинного перевода [[Машинный перевод на основе правил]] (Rule-Based MT) и [[Статистический машинный перевод]] (Statistical MT) можно реализовать в гибридной технологии перевода.<ref name="promtpressRef">{{cite web|url=http://www.promt.ru/press/release/33362|title=Компания PROMT - переводчики и словари для перевода текста с английского, русского, немецкого, французского, испанского, португальского и итальянского языков|accessdate=2013-03-23|archiveurl=https://www.webcitation.org/6Fj6yvDce?url=http://www.promt.ru/press/release/?arrFilter_pf%5bpr%5d=51|archivedate=2013-04-08|deadlink=yes}}</ref> Кардинальное отличие нового решения состоит в том, что вместо одного варианта перевода программа порождает множество переводов, число которых у одного предложения, в зависимости от многозначности слов, конструкций, и результатов статистической обработки, может доходить до нескольких сотен. Далее вероятностная модель языка позволяет выбрать самый вероятный из предложенных вариантов.
{{Реклама}}
{{Стиль раздела}}
Совмещение, казалось бы, несовместимых методов перевода, а именно классической технологии машинного перевода [[Машинный перевод на основе правил]] (Rule-Based MT) и [[Статистический машинный перевод]] (Statistical MT) можно реализовать в гибридной технологии перевода.<ref name="promtpressRef">{{cite web|url=http://www.promt.ru/press/release/33362|title=Компания PROMT - переводчики и словари для перевода текста с английского, русского, немецкого, французского, испанского, португальского и итальянского языков|accessdate=2013-03-23|archiveurl=http://www.webcitation.org/6Fj6yvDce|archivedate=2013-04-08}}</ref> Кардинальное отличие нового решения состоит в том, что вместо одного варианта перевода программа порождает множество переводов, число которых у одного предложения, в зависимости от многозначности слов, конструкций, и результатов статистической обработки, может доходить до нескольких сотен. Далее вероятностная модель языка позволяет выбрать самый вероятный из предложенных вариантов.


Алгоритм работы типичной HMT:<ref name="ritconfRef" />
Алгоритм работы типичной HMT:<ref name="ritconfRef" />
Строка 70: Строка 80:


==== Преимущества и недостатки Машинного перевода на основе правил ====
==== Преимущества и недостатки Машинного перевода на основе правил ====
Преимущества RBMT:<ref name="promt_RBMTRef">http://www.promt.ru/images/ainl_molchanov_promt.pdf</ref>
Преимущества RBMT:<ref name="promt_RBMTRef">{{Cite web |url=http://www.promt.ru/images/ainl_molchanov_promt.pdf |title=Архивированная копия |accessdate=2013-03-27 |archiveurl=https://web.archive.org/web/20121109063139/http://www.promt.ru/images/ainl_molchanov_promt.pdf |archivedate=2012-11-09 |deadlink=yes }}</ref>


Сохраняются:
Сохраняются:
Строка 88: Строка 98:
==== Преимущества и недостатки Статистических систем перевода ====
==== Преимущества и недостатки Статистических систем перевода ====


Преимущества SMT:<ref name=autogenerated1>{{cite web|url=http://nlpseminar.ru/ainl/program/aleksandr-molchanov|title=Зачем нужна гибридная технология перевода.-А.Молчанов,ООО<ПРОМТ>,Конференция "AINL",2013|archiveurl=http://www.webcitation.org/6Fj6y96EI|archivedate=2013-04-08}}</ref>
Преимущества SMT:<ref name=autogenerated1>{{cite web|url=https://nlpseminar.ru/ainl/program/aleksandr-molchanov|title=Зачем нужна гибридная технология перевода.-А.Молчанов,ООО<ПРОМТ>,Конференция "AINL",2013|archiveurl=https://www.webcitation.org/6Fj6yUCwi?url=https://nlpseminar.ru/ainl/program/aleksandr-molchanov|archivedate=2013-04-08}}</ref>
* — быстрая настройка;
* — быстрая настройка;
* — легко добавлять новые направления перевода;
* — легко добавлять новые направления перевода;
Строка 110: Строка 120:
{{примечания}}
{{примечания}}


{{Подходы к машинному переводу}}
{{Обработка естественного языка}}
{{Обработка естественного языка}}



Текущая версия от 21:38, 21 июля 2024

Гибридный машинный перевод (Hybrid machine translation — HMT) — интеграция разных подходов машинного перевода из возможных вариантов МП:[1]

Ожидается, что с помощью гибридной архитектуры удастся объединить преимущества этих подходов.[1] Машинный перевод на сегодняшний день представлен двумя основными технологиями: Статистический машинный перевод (Statistical machine translation — SMT) и Машинный перевод на основе правил (Rule-Based Machine Translation — RBMT).[2]

Разработчики software Hybrid MT

[править | править код]
  • AppTek HMT[3] «TranSphere®» — полная интеграция SMT и RBMT методологий.
  • Asia Online[4] «SAIC’s OmnifluentTM Human Language Technology».
  • LinguaSys[5] «Carabao Machine Translation engine».
  • Systran[6][7] «SYSTRAN’s hybrid engine»
  • Polytechnic University of Valencia[8]
  • PROMT[2] «PROMT DeepHybrid»[9]

Многоуровненвый

[править | править код]

Этот подход к гибридному машинному переводу предполагает параллельное выполнение нескольких систем машинного перевода. Окончательный результат получается путем объединения результатов всех подсистем. Чаще всего в этих системах используются подсистемы статистического и основанного на правилах перевода, но были изучены и другие комбинации. Например, исследователи из Университета Карнеги-Меллона добились определенного успеха, объединив подсистемы перевода на основе примеров , передачи , знаний и статистического перевода в одну систему машинного перевода.

Статистическая генерация правил

[править | править код]

Этот подход включает использование статистических данных для создания лексических и синтаксических правил. Затем ввод обрабатывается с использованием этих правил, как если бы это был переводчик на основе правил . Этот подход пытается избежать сложной и отнимающей много времени задачи создания набора всеобъемлющих, детализированных лингвистических правил путем извлечения этих правил из учебного корпуса. Этот подход по-прежнему страдает от многих проблем нормального статистического машинного перевода , а именно от того, что точность перевода будет сильно зависеть от сходства входного текста с текстом обучающего корпуса. В результате этот метод имел наибольший успех в приложениях, ориентированных на конкретную предметную область, и имеет те же трудности с адаптацией предметной области, что и многие системы статистического машинного перевода.

Многопроходный

[править | править код]

Этот подход предполагает последовательную обработку ввода несколько раз. Наиболее распространенный метод, используемый в системах многопроходного машинного перевода, - это предварительная обработка ввода с помощью системы машинного перевода на основе правил . Выходные данные основанного на правилах препроцессора передаются в систему статистического машинного перевода , которая производит окончательный результат. Этот метод используется для ограничения объема информации, которую необходимо учитывать статистической системе, что значительно снижает требуемую вычислительную мощность. Это также устраняет необходимость в системе, основанной на правилах, быть полной системой перевода для языка, что значительно снижает количество человеческих усилий и труда, необходимых для создания системы.

На основе уверенности

[править | править код]

Этот подход отличается от других гибридных подходов тем, что в большинстве случаев используется только одна технология перевода. Для каждого переведенного предложения создается показатель достоверности, на основе которого можно принять решение, попробовать ли вторичную технологию перевода или продолжить работу с исходным переводом. Omniscien Technologies - одна из компаний, использующих этот подход, при этом NMT является основной технологией, но возвращается к SMT, если показатель достоверности ниже порогового значения или длина предложения очень короткая (например, 1 или 2 слова). SMT также используется, когда общие шаблоны ошибок, такие как несколько повторяющихся слов, появляются последовательно, как это часто бывает с NMT, когда механизм внимания сбит с толку.

Гибридная технология «SMT и RBMT»

[править | править код]

Гибридная технология перевода предполагает использование статистических методов для построения словарных баз автоматическим путём на основе параллельных корпусов, формирования нескольких возможных переводов как на лексическом уровне, так и на уровне синтаксической структуры предложения выходного языка, применения постредактирования в автоматическом режиме и выбор лучшего (наиболее вероятного) перевода из возможных на основе языковой модели, построенной по определенному корпусу выходного языка.[2]

Hybrid (SMT + RBMT) System различаются: (п.2.4.3[4])

  • Rule-based MT с пост-обработкой статистического подхода.
  • Statistical MT с предварительной обработкой по Rule-based подходу.
  • Полная интеграция RBMT и SMT.[3]

Статистический МП стремится использовать лингвистические данные, а системы с «классическим» подходом, основанном на правилах, применяют статистические методы.[2] Добавление некоторых "сквозных" правил, то есть создание гибридных систем, несколько[сколько?] улучшает качество переводов, особенно при недостаточном объеме входных данных, используемых при построении индексных файлов хранения лингвистической информации машинного переводчика, базирующегося на N-граммах.[10]

Объединение RBMT и статистического машинного перевода:

  • Лингвистический анализ входного предложения;
  • Порождение вариантов перевода;
  • Использование статистических технологий;
  • Оценка и выбор лучшего варианта перевода с использованием Языковой модели.[11][12][13]

Этапы Гибридной технологии SMT и RBMT:[2]

  • Обучение RBMT на основе параллельного корпуса с использованием статистических технологий;
  • Эксплуатация на основе натренированной системы.

Архитектура Гибридной технологии «SMT и RBMT»

[править | править код]

В гибридном машинном переводе RBMT-система дополнена двумя компонентами[14]: модулем статистического постредактирования и модулем языковых моделей. Статистическое постредактирование позволяет сгладить RB-перевод, приближая его к естественному языку и при этом сохраняя четкую структуру синтезируемого текста. Языковые модели используются для оценки гладкости и грамматической правильности вариантов перевода, порождаемых гибридной системой.

Типичная архитектура HMT:[14]

  • Параллельный корпус;
  • Обучение;
  • Языковая модель;
  • Данные для постредактирования;
  • Правила синтеза;
  • Словарь терминологии.
  • Эксплуатация:
    •  — Гибридный перевод.

Принцип работы HMT

[править | править код]

Совмещение, казалось бы, несовместимых методов перевода, а именно классической технологии машинного перевода Машинный перевод на основе правил (Rule-Based MT) и Статистический машинный перевод (Statistical MT) можно реализовать в гибридной технологии перевода.[15] Кардинальное отличие нового решения состоит в том, что вместо одного варианта перевода программа порождает множество переводов, число которых у одного предложения, в зависимости от многозначности слов, конструкций, и результатов статистической обработки, может доходить до нескольких сотен. Далее вероятностная модель языка позволяет выбрать самый вероятный из предложенных вариантов.

Алгоритм работы типичной HMT:[2]

  • Создание терминологического словаря из параллельных текстов для RBMT автоматическим путём.
  • Порождение всех возможных вариантов перевода на основе:
    •  — лексических вариантов;
    •  — вариантов синтеза разных конструкций;
    •  — применения постредактирования.
  • Выбор лучшего варианта, через реализованную Языковую модель.

Преимущества и недостатки

[править | править код]

Что даёт гибридная технология перевода?

  • Быструю автоматическую настройку на основе Translation Memories заказчика;
  • Терминологическую точность перевода, а также единство стиля;
  • Получение дополнительных полезных данных — двуязычного терминологического словаря.

Преимущества и недостатки Машинного перевода на основе правил

[править | править код]

Преимущества RBMT:[16]

Сохраняются:

  •  — синтаксическая и морфологическая точность;
  •  — стабильность и предсказуемость результата;
  •  — возможность настройки на предметную область.

Недостатки RBMT:

  •  — трудоемкость и длительность разработки;
  •  — необходимость поддерживать и актуализировать лингвистические БД;
  •  — «машинный акцент» при переводе.

Недостатки нивелируются за счет использования параллельных корпусов и статистических методов.

  •  — автоматическая настройка лингвистических баз данных (быстрое и качественное извлечение терминологии),
  •  — исчезает «машинный» акцент при переводе (варианты синтеза и постредактирование).

Преимущества и недостатки Статистических систем перевода

[править | править код]

Преимущества SMT:[17]

  •  — быстрая настройка;
  •  — легко добавлять новые направления перевода;
  •  — гладкость перевода.

Недостатки SMT:

  •  — «Дефицит» параллельных корпусов;
  •  — многочисленные грамматические ошибки;
  •  — нестабильность перевода.

Примечания

[править | править код]
  1. 1 2 Архивированная копия. Дата обращения: 27 марта 2013. Архивировано 13 марта 2016 года.
  2. 1 2 3 4 5 6 Гибридная технология перевода.-Ю.Епифанцева,ООО<ПРОМТ>,Конференция "Рос.интернет-технологии",2011. Архивировано 8 апреля 2013 года.
  3. 1 2 Request Rejected. Дата обращения: 29 марта 2013. Архивировано 4 марта 2016 года.
  4. 1 2 http://nlp.amrita.edu:8080/project/mhrd/ms/Final_Thesis.pdf (недоступная ссылка)
  5. Архивированная копия. Дата обращения: 29 марта 2013. Архивировано из оригинала 4 марта 2016 года.
  6. SYSTRAN's machine translation technology. Дата обращения: 1 апреля 2013. Архивировано 8 апреля 2013 года.
  7. SYSTRAN Hybrid Technology. Дата обращения: 1 апреля 2013. Архивировано 8 апреля 2013 года.
  8. http://web.iti.upv.es/~fcn/Students/ta/Talk-ToniL-PRACT_ISSUES-13_4p.pdf (недоступная ссылка)
  9. Архивированная копия. Дата обращения: 29 марта 2013. Архивировано 12 мая 2015 года.
  10. Архивированная копия. Дата обращения: 17 апреля 2013. Архивировано из оригинала 19 апреля 2014 года.
  11. Архивированная копия. Дата обращения: 1 апреля 2013. Архивировано 4 марта 2016 года.
  12. Архивированная копия. Дата обращения: 1 апреля 2013. Архивировано 5 марта 2016 года.
  13. Об автоматной аппроксимации реальных языков - скачать бесплатно автореферат на тему Дискретная математика и математическая кибернетика. Заказать доставку диссертации по матема … Дата обращения: 4 апреля 2013. Архивировано 8 апреля 2013 года.
  14. 1 2 Зачем нужна гибридная технология перевода.-А.Молчанов,ООО«ПРОМТ»,Конференция "AINL",2013. Архивировано 8 апреля 2013 года.
  15. Компания PROMT - переводчики и словари для перевода текста с английского, русского, немецкого, французского, испанского, португальского и итальянского языков. Дата обращения: 23 марта 2013. Архивировано из оригинала 8 апреля 2013 года.
  16. Архивированная копия. Дата обращения: 27 марта 2013. Архивировано из оригинала 9 ноября 2012 года.
  17. Зачем нужна гибридная технология перевода.-А.Молчанов,ООО<ПРОМТ>,Конференция "AINL",2013. Архивировано 8 апреля 2013 года.