Гибридный машинный перевод: различия между версиями
[отпатрулированная версия] | [непроверенная версия] |
MBHbot (обсуждение | вклад) |
РобоСтася (обсуждение | вклад) |
||
(не показано 12 промежуточных версий 5 участников) | |||
Строка 1: | Строка 1: | ||
⚫ | '''Гибридный машинный перевод''' (Hybrid machine translation — HMT) — интеграция разных подходов машинного перевода из возможных вариантов МП:<ref name="Hybrid_iaiRef">{{cite web |url=http://www.iai-sb.de/docs/sci00.pdf |title=Архивированная копия |accessdate=2013-03-27 |deadlink=да |archiveurl=https://web.archive.org/web/20160313214828/http://www.iai-sb.de/docs/sci00.pdf |archivedate=2016-03-13 }}</ref> |
||
{{неавторитетные источники|дата=2013-3-20}} |
|||
{{стиль}}{{викифицировать}}{{переработать}} |
|||
⚫ | |||
* Rule-based machine translation (RBMT) — [[Машинный перевод на основе правил]]. |
* Rule-based machine translation (RBMT) — [[Машинный перевод на основе правил]]. |
||
* Corpus-based machine translation (CBMT) — [[Машинный перевод на корпусах текстов]]. |
* Corpus-based machine translation (CBMT) — [[Машинный перевод на корпусах текстов]]. |
||
Строка 7: | Строка 5: | ||
** Statistical machine translation (SMT) — [[Статистический машинный перевод]]. |
** Statistical machine translation (SMT) — [[Статистический машинный перевод]]. |
||
Ожидается, что с помощью гибридной архитектуры удастся объединить преимущества этих подходов.<ref name="Hybrid_iaiRef" /> Машинный перевод на сегодняшний день представлен двумя основными технологиями: Статистический машинный перевод (Statistical machine translation — SMT) и Машинный перевод на основе правил (Rule-Based Machine Translation — RBMT).<ref name="ritconfRef">{{cite web|url=http://2011.ritconf.ru/2011/abstracts/806.html|title=Гибридная технология перевода.-Ю.Епифанцева,ООО<ПРОМТ>,Конференция "Рос.интернет-технологии",2011|archiveurl= |
Ожидается, что с помощью гибридной архитектуры удастся объединить преимущества этих подходов.<ref name="Hybrid_iaiRef" /> Машинный перевод на сегодняшний день представлен двумя основными технологиями: Статистический машинный перевод (Statistical machine translation — SMT) и Машинный перевод на основе правил (Rule-Based Machine Translation — RBMT).<ref name="ritconfRef">{{cite web|url=http://2011.ritconf.ru/2011/abstracts/806.html|title=Гибридная технология перевода.-Ю.Епифанцева,ООО<ПРОМТ>,Конференция "Рос.интернет-технологии",2011|archiveurl=https://www.webcitation.org/6Fj6uKGP2?url=http://2011.ritconf.ru/2011/abstracts/806.html|archivedate=2013-04-08}}</ref> |
||
== Разработчики software Hybrid MT == |
== Разработчики software Hybrid MT == |
||
* AppTek HMT<ref name="AppTekRef"> |
* AppTek HMT<ref name="AppTekRef">{{Cite web |url=http://amta2010.amtaweb.org/AMTA_2010_AppTek.pdf |title=Request Rejected<!-- Заголовок добавлен ботом --> |access-date=2013-03-29 |archive-date=2016-03-04 |archive-url=https://web.archive.org/web/20160304073047/http://amta2010.amtaweb.org/AMTA_2010_AppTek.pdf |deadlink=no }}</ref> «TranSphere®» — полная интеграция SMT и RBMT методологий. |
||
* Asia Online<ref name="AsiaOnlineRef">http://nlp.amrita.edu:8080/project/mhrd/ms/Final_Thesis.pdf</ref> «SAIC’s OmnifluentTM Human Language Technology». |
* Asia Online<ref name="AsiaOnlineRef">http://nlp.amrita.edu:8080/project/mhrd/ms/Final_Thesis.pdf{{Недоступная ссылка|date=2018-06|bot=InternetArchiveBot }}</ref> «SAIC’s OmnifluentTM Human Language Technology». |
||
* LinguaSys<ref name="LinguaSysRef">http://www-304.ibm.com/partnerworld/gsd/showimage.do?id=31815</ref> «Carabao Machine Translation engine». |
* LinguaSys<ref name="LinguaSysRef">{{Cite web |url=http://www-304.ibm.com/partnerworld/gsd/showimage.do?id=31815 |title=Архивированная копия |accessdate=2013-03-29 |archiveurl=https://web.archive.org/web/20160304202735/http://www-304.ibm.com/partnerworld/gsd/showimage.do?id=31815 |archivedate=2016-03-04 |deadlink=yes }}</ref> «Carabao Machine Translation engine». |
||
* Systran<ref name="systranRef">{{cite web|url=http://www.systransoft.com/systran/corporate-profile/translation-technology|title=SYSTRAN's machine translation technology|accessdate=2013-04-01|archiveurl= |
* Systran<ref name="systranRef">{{cite web|url=http://www.systransoft.com/systran/corporate-profile/translation-technology|title=SYSTRAN's machine translation technology|accessdate=2013-04-01|archiveurl=https://www.webcitation.org/6Fj6wMzV2?url=http://www.systransoft.com/systran/corporate-profile/translation-technology|archivedate=2013-04-08}}</ref><ref name="systransoftRef">{{cite web|url=http://www.systransoft.com/systran/corporate-profile/translation-technology/systran-hybrid-technology|title=SYSTRAN Hybrid Technology|accessdate=2013-04-01|archiveurl=https://www.webcitation.org/6Fj6wzLLf?url=http://www.systransoft.com/systran/corporate-profile/translation-technology/systran-hybrid-technology|archivedate=2013-04-08}}</ref> «SYSTRAN’s hybrid engine» |
||
* Polytechnic University of Valencia<ref name="PolytechnicRef">http://web.iti.upv.es/~fcn/Students/ta/Talk-ToniL-PRACT_ISSUES-13_4p.pdf</ref> |
* Polytechnic University of Valencia<ref name="PolytechnicRef">http://web.iti.upv.es/~fcn/Students/ta/Talk-ToniL-PRACT_ISSUES-13_4p.pdf{{Недоступная ссылка|date=2018-06|bot=InternetArchiveBot }}</ref> |
||
* PROMT<ref name="ritconfRef" /> «PROMT |
* PROMT<ref name="ritconfRef" /> «PROMT DeepHybrid»<ref name="PROMTDeepHybridRef">{{Cite web |url=http://www.statmt.org/wmt12/pdf/WMT43.pdf |title=Архивированная копия |access-date=2013-03-29 |archive-date=2015-05-12 |archive-url=https://web.archive.org/web/20150512145439/http://statmt.org/wmt12/pdf/WMT43.pdf |deadlink=no }}</ref> |
||
== Подходы == |
|||
==== Многоуровненвый ==== |
|||
Этот подход к гибридному машинному переводу предполагает параллельное выполнение нескольких систем машинного перевода. Окончательный результат получается путем объединения результатов всех подсистем. Чаще всего в этих системах используются подсистемы статистического и основанного на правилах перевода, но были изучены и другие комбинации. Например, исследователи из Университета Карнеги-Меллона добились определенного успеха, объединив подсистемы перевода на основе примеров , передачи , знаний и статистического перевода в одну систему машинного перевода. |
|||
==== Статистическая генерация правил ==== |
|||
Этот подход включает использование статистических данных для создания лексических и синтаксических правил. Затем ввод обрабатывается с использованием этих правил, как если бы это был переводчик на основе правил . Этот подход пытается избежать сложной и отнимающей много времени задачи создания набора всеобъемлющих, детализированных лингвистических правил путем извлечения этих правил из учебного корпуса. Этот подход по-прежнему страдает от многих проблем нормального статистического машинного перевода , а именно от того, что точность перевода будет сильно зависеть от сходства входного текста с текстом обучающего корпуса. В результате этот метод имел наибольший успех в приложениях, ориентированных на конкретную предметную область, и имеет те же трудности с адаптацией предметной области, что и многие системы статистического машинного перевода. |
|||
==== Многопроходный ==== |
|||
Этот подход предполагает последовательную обработку ввода несколько раз. Наиболее распространенный метод, используемый в системах многопроходного машинного перевода, - это предварительная обработка ввода с помощью системы машинного перевода на основе правил . Выходные данные основанного на правилах препроцессора передаются в систему статистического машинного перевода , которая производит окончательный результат. Этот метод используется для ограничения объема информации, которую необходимо учитывать статистической системе, что значительно снижает требуемую вычислительную мощность. Это также устраняет необходимость в системе, основанной на правилах, быть полной системой перевода для языка, что значительно снижает количество человеческих усилий и труда, необходимых для создания системы. |
|||
==== На основе уверенности ==== |
|||
Этот подход отличается от других гибридных подходов тем, что в большинстве случаев используется только одна технология перевода. Для каждого переведенного предложения создается показатель достоверности, на основе которого можно принять решение, попробовать ли вторичную технологию перевода или продолжить работу с исходным переводом. Omniscien Technologies - одна из компаний, использующих этот подход, при этом NMT является основной технологией, но возвращается к SMT, если показатель достоверности ниже порогового значения или длина предложения очень короткая (например, 1 или 2 слова). SMT также используется, когда общие шаблоны ошибок, такие как несколько повторяющихся слов, появляются последовательно, как это часто бывает с NMT, когда механизм внимания сбит с толку. |
|||
== Гибридная технология «SMT и RBMT» == |
== Гибридная технология «SMT и RBMT» == |
||
Строка 25: | Строка 37: | ||
* Полная интеграция RBMT и SMT.<ref name="AppTekRef" /> |
* Полная интеграция RBMT и SMT.<ref name="AppTekRef" /> |
||
Статистический МП стремится использовать лингвистические данные, а системы с «классическим» подходом, основанном на правилах, применяют статистические методы.<ref name="ritconfRef" /> Добавление некоторых "сквозных" правил, то есть создание гибридных систем, несколько{{сколько}} улучшает качество переводов, особенно при недостаточном объеме входных данных, используемых при построении индексных файлов хранения лингвистической информации машинного переводчика, базирующегося на N-граммах.<ref name="landeRef">http://poiskbook.kiev.ua/art/ml/lande.pdf</ref> |
Статистический МП стремится использовать лингвистические данные, а системы с «классическим» подходом, основанном на правилах, применяют статистические методы.<ref name="ritconfRef" /> Добавление некоторых "сквозных" правил, то есть создание гибридных систем, несколько{{сколько}} улучшает качество переводов, особенно при недостаточном объеме входных данных, используемых при построении индексных файлов хранения лингвистической информации машинного переводчика, базирующегося на N-граммах.<ref name="landeRef">{{Cite web |url=http://poiskbook.kiev.ua/art/ml/lande.pdf |title=Архивированная копия |accessdate=2013-04-17 |archiveurl=https://web.archive.org/web/20140419053839/http://poiskbook.kiev.ua/art/ml/lande.pdf |archivedate=2014-04-19 |deadlink=yes }}</ref> |
||
Объединение RBMT и статистического машинного перевода: |
Объединение RBMT и статистического машинного перевода: |
||
Строка 31: | Строка 43: | ||
* Порождение вариантов перевода; |
* Порождение вариантов перевода; |
||
* Использование статистических технологий; |
* Использование статистических технологий; |
||
* Оценка и выбор лучшего варианта перевода с использованием Языковой модели.<ref name="kholodRef">http://www.intsys.msu.ru/magazine/archive/v6(1-4)/kholod.pdf</ref><ref name="stavsuRef">http://vestnik.stavsu.ru/70-2010/06.pdf</ref><ref name="fizmathimRef">{{cite web|url=http://fizmathim.com/ob-avtomatnoy-approksimatsii-realnyh-yazykov|title=Об автоматной аппроксимации реальных языков - скачать бесплатно автореферат на тему Дискретная математика и математическая кибернетика. Заказать доставку диссертации по матема …|accessdate=2013-04-04|archiveurl= |
* Оценка и выбор лучшего варианта перевода с использованием Языковой модели.<ref name="kholodRef">{{Cite web |url=http://www.intsys.msu.ru/magazine/archive/v6(1-4)/kholod.pdf |title=Архивированная копия |access-date=2013-04-01 |archive-date=2016-03-04 |archive-url=https://web.archive.org/web/20160304115247/http://www.intsys.msu.ru/magazine/archive/v6(1-4)/kholod.pdf |deadlink=no }}</ref><ref name="stavsuRef">{{Cite web |url=http://vestnik.stavsu.ru/70-2010/06.pdf |title=Архивированная копия |access-date=2013-04-01 |archive-date=2016-03-05 |archive-url=https://web.archive.org/web/20160305215651/http://vestnik.stavsu.ru/70-2010/06.pdf |deadlink=no }}</ref><ref name="fizmathimRef">{{cite web|url=http://fizmathim.com/ob-avtomatnoy-approksimatsii-realnyh-yazykov|title=Об автоматной аппроксимации реальных языков - скачать бесплатно автореферат на тему Дискретная математика и математическая кибернетика. Заказать доставку диссертации по матема …|accessdate=2013-04-04|archiveurl=https://www.webcitation.org/6Fj6xR0kb?url=http://fizmathim.com/ob-avtomatnoy-approksimatsii-realnyh-yazykov|archivedate=2013-04-08}}</ref> |
||
Этапы Гибридной технологии SMT и RBMT:<ref name="ritconfRef" /> |
Этапы Гибридной технологии SMT и RBMT:<ref name="ritconfRef" /> |
||
Строка 38: | Строка 50: | ||
=== Архитектура Гибридной технологии «SMT и RBMT» === |
=== Архитектура Гибридной технологии «SMT и RBMT» === |
||
В гибридном машинном переводе RBMT-система дополнена двумя компонентами<ref name="Hybrid_promtRef">{{cite web|url= |
В гибридном машинном переводе RBMT-система дополнена двумя компонентами<ref name="Hybrid_promtRef">{{cite web|url=https://nlpseminar.ru/ainl/program/aleksandr-molchanov|title=Зачем нужна гибридная технология перевода.-А.Молчанов,ООО«ПРОМТ»,Конференция "AINL",2013|archiveurl=https://www.webcitation.org/6Fj6yUCwi?url=https://nlpseminar.ru/ainl/program/aleksandr-molchanov|archivedate=2013-04-08}}</ref>: модулем статистического постредактирования и модулем языковых моделей. Статистическое постредактирование позволяет сгладить RB-перевод, приближая его к естественному языку и при этом сохраняя четкую структуру синтезируемого текста. Языковые модели используются для оценки гладкости и грамматической правильности вариантов перевода, порождаемых гибридной системой. |
||
Типичная архитектура HMT:<ref name="Hybrid_promtRef" /> |
Типичная архитектура HMT:<ref name="Hybrid_promtRef" /> |
||
Строка 51: | Строка 63: | ||
=== Принцип работы HMT === |
=== Принцип работы HMT === |
||
⚫ | Совмещение, казалось бы, несовместимых методов перевода, а именно классической технологии машинного перевода [[Машинный перевод на основе правил]] (Rule-Based MT) и [[Статистический машинный перевод]] (Statistical MT) можно реализовать в гибридной технологии перевода.<ref name="promtpressRef">{{cite web|url=http://www.promt.ru/press/release/33362|title=Компания PROMT - переводчики и словари для перевода текста с английского, русского, немецкого, французского, испанского, португальского и итальянского языков|accessdate=2013-03-23|archiveurl=https://www.webcitation.org/6Fj6yvDce?url=http://www.promt.ru/press/release/?arrFilter_pf%5bpr%5d=51|archivedate=2013-04-08|deadlink=yes}}</ref> Кардинальное отличие нового решения состоит в том, что вместо одного варианта перевода программа порождает множество переводов, число которых у одного предложения, в зависимости от многозначности слов, конструкций, и результатов статистической обработки, может доходить до нескольких сотен. Далее вероятностная модель языка позволяет выбрать самый вероятный из предложенных вариантов. |
||
{{Реклама}} |
|||
{{Стиль раздела}} |
|||
⚫ | Совмещение, казалось бы, несовместимых методов перевода, а именно классической технологии машинного перевода [[Машинный перевод на основе правил]] (Rule-Based MT) и [[Статистический машинный перевод]] (Statistical MT) можно реализовать в гибридной технологии перевода.<ref name="promtpressRef">{{cite web|url=http://www.promt.ru/press/release/33362|title=Компания PROMT - переводчики и словари для перевода текста с английского, русского, немецкого, французского, испанского, португальского и итальянского языков|accessdate=2013-03-23|archiveurl= |
||
Алгоритм работы типичной HMT:<ref name="ritconfRef" /> |
Алгоритм работы типичной HMT:<ref name="ritconfRef" /> |
||
Строка 70: | Строка 80: | ||
==== Преимущества и недостатки Машинного перевода на основе правил ==== |
==== Преимущества и недостатки Машинного перевода на основе правил ==== |
||
Преимущества RBMT:<ref name="promt_RBMTRef">http://www.promt.ru/images/ainl_molchanov_promt.pdf</ref> |
Преимущества RBMT:<ref name="promt_RBMTRef">{{Cite web |url=http://www.promt.ru/images/ainl_molchanov_promt.pdf |title=Архивированная копия |accessdate=2013-03-27 |archiveurl=https://web.archive.org/web/20121109063139/http://www.promt.ru/images/ainl_molchanov_promt.pdf |archivedate=2012-11-09 |deadlink=yes }}</ref> |
||
Сохраняются: |
Сохраняются: |
||
Строка 88: | Строка 98: | ||
==== Преимущества и недостатки Статистических систем перевода ==== |
==== Преимущества и недостатки Статистических систем перевода ==== |
||
Преимущества SMT:<ref name=autogenerated1>{{cite web|url= |
Преимущества SMT:<ref name=autogenerated1>{{cite web|url=https://nlpseminar.ru/ainl/program/aleksandr-molchanov|title=Зачем нужна гибридная технология перевода.-А.Молчанов,ООО<ПРОМТ>,Конференция "AINL",2013|archiveurl=https://www.webcitation.org/6Fj6yUCwi?url=https://nlpseminar.ru/ainl/program/aleksandr-molchanov|archivedate=2013-04-08}}</ref> |
||
* — быстрая настройка; |
* — быстрая настройка; |
||
* — легко добавлять новые направления перевода; |
* — легко добавлять новые направления перевода; |
||
Строка 110: | Строка 120: | ||
{{примечания}} |
{{примечания}} |
||
{{Подходы к машинному переводу}} |
|||
{{Обработка естественного языка}} |
{{Обработка естественного языка}} |
||
Текущая версия от 21:38, 21 июля 2024
Гибридный машинный перевод (Hybrid machine translation — HMT) — интеграция разных подходов машинного перевода из возможных вариантов МП:[1]
- Rule-based machine translation (RBMT) — Машинный перевод на основе правил.
- Corpus-based machine translation (CBMT) — Машинный перевод на корпусах текстов.
- Example-based machine translation (EBMT) Машинный перевод на примерах.
- Statistical machine translation (SMT) — Статистический машинный перевод.
Ожидается, что с помощью гибридной архитектуры удастся объединить преимущества этих подходов.[1] Машинный перевод на сегодняшний день представлен двумя основными технологиями: Статистический машинный перевод (Statistical machine translation — SMT) и Машинный перевод на основе правил (Rule-Based Machine Translation — RBMT).[2]
Разработчики software Hybrid MT
[править | править код]- AppTek HMT[3] «TranSphere®» — полная интеграция SMT и RBMT методологий.
- Asia Online[4] «SAIC’s OmnifluentTM Human Language Technology».
- LinguaSys[5] «Carabao Machine Translation engine».
- Systran[6][7] «SYSTRAN’s hybrid engine»
- Polytechnic University of Valencia[8]
- PROMT[2] «PROMT DeepHybrid»[9]
Подходы
[править | править код]Многоуровненвый
[править | править код]Этот подход к гибридному машинному переводу предполагает параллельное выполнение нескольких систем машинного перевода. Окончательный результат получается путем объединения результатов всех подсистем. Чаще всего в этих системах используются подсистемы статистического и основанного на правилах перевода, но были изучены и другие комбинации. Например, исследователи из Университета Карнеги-Меллона добились определенного успеха, объединив подсистемы перевода на основе примеров , передачи , знаний и статистического перевода в одну систему машинного перевода.
Статистическая генерация правил
[править | править код]Этот подход включает использование статистических данных для создания лексических и синтаксических правил. Затем ввод обрабатывается с использованием этих правил, как если бы это был переводчик на основе правил . Этот подход пытается избежать сложной и отнимающей много времени задачи создания набора всеобъемлющих, детализированных лингвистических правил путем извлечения этих правил из учебного корпуса. Этот подход по-прежнему страдает от многих проблем нормального статистического машинного перевода , а именно от того, что точность перевода будет сильно зависеть от сходства входного текста с текстом обучающего корпуса. В результате этот метод имел наибольший успех в приложениях, ориентированных на конкретную предметную область, и имеет те же трудности с адаптацией предметной области, что и многие системы статистического машинного перевода.
Многопроходный
[править | править код]Этот подход предполагает последовательную обработку ввода несколько раз. Наиболее распространенный метод, используемый в системах многопроходного машинного перевода, - это предварительная обработка ввода с помощью системы машинного перевода на основе правил . Выходные данные основанного на правилах препроцессора передаются в систему статистического машинного перевода , которая производит окончательный результат. Этот метод используется для ограничения объема информации, которую необходимо учитывать статистической системе, что значительно снижает требуемую вычислительную мощность. Это также устраняет необходимость в системе, основанной на правилах, быть полной системой перевода для языка, что значительно снижает количество человеческих усилий и труда, необходимых для создания системы.
На основе уверенности
[править | править код]Этот подход отличается от других гибридных подходов тем, что в большинстве случаев используется только одна технология перевода. Для каждого переведенного предложения создается показатель достоверности, на основе которого можно принять решение, попробовать ли вторичную технологию перевода или продолжить работу с исходным переводом. Omniscien Technologies - одна из компаний, использующих этот подход, при этом NMT является основной технологией, но возвращается к SMT, если показатель достоверности ниже порогового значения или длина предложения очень короткая (например, 1 или 2 слова). SMT также используется, когда общие шаблоны ошибок, такие как несколько повторяющихся слов, появляются последовательно, как это часто бывает с NMT, когда механизм внимания сбит с толку.
Гибридная технология «SMT и RBMT»
[править | править код]Гибридная технология перевода предполагает использование статистических методов для построения словарных баз автоматическим путём на основе параллельных корпусов, формирования нескольких возможных переводов как на лексическом уровне, так и на уровне синтаксической структуры предложения выходного языка, применения постредактирования в автоматическом режиме и выбор лучшего (наиболее вероятного) перевода из возможных на основе языковой модели, построенной по определенному корпусу выходного языка.[2]
Hybrid (SMT + RBMT) System различаются: (п.2.4.3[4])
- Rule-based MT с пост-обработкой статистического подхода.
- Statistical MT с предварительной обработкой по Rule-based подходу.
- Полная интеграция RBMT и SMT.[3]
Статистический МП стремится использовать лингвистические данные, а системы с «классическим» подходом, основанном на правилах, применяют статистические методы.[2] Добавление некоторых "сквозных" правил, то есть создание гибридных систем, несколько[сколько?] улучшает качество переводов, особенно при недостаточном объеме входных данных, используемых при построении индексных файлов хранения лингвистической информации машинного переводчика, базирующегося на N-граммах.[10]
Объединение RBMT и статистического машинного перевода:
- Лингвистический анализ входного предложения;
- Порождение вариантов перевода;
- Использование статистических технологий;
- Оценка и выбор лучшего варианта перевода с использованием Языковой модели.[11][12][13]
Этапы Гибридной технологии SMT и RBMT:[2]
- Обучение RBMT на основе параллельного корпуса с использованием статистических технологий;
- Эксплуатация на основе натренированной системы.
Архитектура Гибридной технологии «SMT и RBMT»
[править | править код]В гибридном машинном переводе RBMT-система дополнена двумя компонентами[14]: модулем статистического постредактирования и модулем языковых моделей. Статистическое постредактирование позволяет сгладить RB-перевод, приближая его к естественному языку и при этом сохраняя четкую структуру синтезируемого текста. Языковые модели используются для оценки гладкости и грамматической правильности вариантов перевода, порождаемых гибридной системой.
Типичная архитектура HMT:[14]
- Параллельный корпус;
- Обучение;
- Языковая модель;
- Данные для постредактирования;
- Правила синтеза;
- Словарь терминологии.
- Эксплуатация:
- — Гибридный перевод.
Принцип работы HMT
[править | править код]Совмещение, казалось бы, несовместимых методов перевода, а именно классической технологии машинного перевода Машинный перевод на основе правил (Rule-Based MT) и Статистический машинный перевод (Statistical MT) можно реализовать в гибридной технологии перевода.[15] Кардинальное отличие нового решения состоит в том, что вместо одного варианта перевода программа порождает множество переводов, число которых у одного предложения, в зависимости от многозначности слов, конструкций, и результатов статистической обработки, может доходить до нескольких сотен. Далее вероятностная модель языка позволяет выбрать самый вероятный из предложенных вариантов.
Алгоритм работы типичной HMT:[2]
- Создание терминологического словаря из параллельных текстов для RBMT автоматическим путём.
- Порождение всех возможных вариантов перевода на основе:
- — лексических вариантов;
- — вариантов синтеза разных конструкций;
- — применения постредактирования.
- Выбор лучшего варианта, через реализованную Языковую модель.
Преимущества и недостатки
[править | править код]Что даёт гибридная технология перевода?
- Быструю автоматическую настройку на основе Translation Memories заказчика;
- Терминологическую точность перевода, а также единство стиля;
- Получение дополнительных полезных данных — двуязычного терминологического словаря.
Преимущества и недостатки Машинного перевода на основе правил
[править | править код]Преимущества RBMT:[16]
Сохраняются:
- — синтаксическая и морфологическая точность;
- — стабильность и предсказуемость результата;
- — возможность настройки на предметную область.
Недостатки RBMT:
- — трудоемкость и длительность разработки;
- — необходимость поддерживать и актуализировать лингвистические БД;
- — «машинный акцент» при переводе.
Недостатки нивелируются за счет использования параллельных корпусов и статистических методов.
- — автоматическая настройка лингвистических баз данных (быстрое и качественное извлечение терминологии),
- — исчезает «машинный» акцент при переводе (варианты синтеза и постредактирование).
Преимущества и недостатки Статистических систем перевода
[править | править код]Преимущества SMT:[17]
- — быстрая настройка;
- — легко добавлять новые направления перевода;
- — гладкость перевода.
Недостатки SMT:
- — «Дефицит» параллельных корпусов;
- — многочисленные грамматические ошибки;
- — нестабильность перевода.
См. также
[править | править код]- Автоматический перевод устной речи
- Автоматизированный перевод
- Машинный перевод
- Распознавание речи
- Синтез речи
Примечания
[править | править код]- ↑ 1 2 Архивированная копия . Дата обращения: 27 марта 2013. Архивировано 13 марта 2016 года.
- ↑ 1 2 3 4 5 6 Гибридная технология перевода.-Ю.Епифанцева,ООО<ПРОМТ>,Конференция "Рос.интернет-технологии",2011 . Архивировано 8 апреля 2013 года.
- ↑ 1 2 Request Rejected . Дата обращения: 29 марта 2013. Архивировано 4 марта 2016 года.
- ↑ 1 2 http://nlp.amrita.edu:8080/project/mhrd/ms/Final_Thesis.pdf (недоступная ссылка)
- ↑ Архивированная копия . Дата обращения: 29 марта 2013. Архивировано из оригинала 4 марта 2016 года.
- ↑ SYSTRAN's machine translation technology . Дата обращения: 1 апреля 2013. Архивировано 8 апреля 2013 года.
- ↑ SYSTRAN Hybrid Technology . Дата обращения: 1 апреля 2013. Архивировано 8 апреля 2013 года.
- ↑ http://web.iti.upv.es/~fcn/Students/ta/Talk-ToniL-PRACT_ISSUES-13_4p.pdf (недоступная ссылка)
- ↑ Архивированная копия . Дата обращения: 29 марта 2013. Архивировано 12 мая 2015 года.
- ↑ Архивированная копия . Дата обращения: 17 апреля 2013. Архивировано из оригинала 19 апреля 2014 года.
- ↑ Архивированная копия . Дата обращения: 1 апреля 2013. Архивировано 4 марта 2016 года.
- ↑ Архивированная копия . Дата обращения: 1 апреля 2013. Архивировано 5 марта 2016 года.
- ↑ Об автоматной аппроксимации реальных языков - скачать бесплатно автореферат на тему Дискретная математика и математическая кибернетика. Заказать доставку диссертации по матема … Дата обращения: 4 апреля 2013. Архивировано 8 апреля 2013 года.
- ↑ 1 2 Зачем нужна гибридная технология перевода.-А.Молчанов,ООО«ПРОМТ»,Конференция "AINL",2013 . Архивировано 8 апреля 2013 года.
- ↑ Компания PROMT - переводчики и словари для перевода текста с английского, русского, немецкого, французского, испанского, португальского и итальянского языков . Дата обращения: 23 марта 2013. Архивировано из оригинала 8 апреля 2013 года.
- ↑ Архивированная копия . Дата обращения: 27 марта 2013. Архивировано из оригинала 9 ноября 2012 года.
- ↑ Зачем нужна гибридная технология перевода.-А.Молчанов,ООО<ПРОМТ>,Конференция "AINL",2013 . Архивировано 8 апреля 2013 года.