JP2004240859A - Paraphrasing system - Google Patents
Paraphrasing system Download PDFInfo
- Publication number
- JP2004240859A JP2004240859A JP2003031181A JP2003031181A JP2004240859A JP 2004240859 A JP2004240859 A JP 2004240859A JP 2003031181 A JP2003031181 A JP 2003031181A JP 2003031181 A JP2003031181 A JP 2003031181A JP 2004240859 A JP2004240859 A JP 2004240859A
- Authority
- JP
- Japan
- Prior art keywords
- paraphrase
- headword
- user
- unit
- dictionary database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
Description
【0001】
【発明の属する技術分野】
本発明は、テキストを、ユーザに合わせて適切な言い換え語に言い換える言い換えシステムに関し、特に、ユーザのレベル(習熟度、保有する知識、身体的制限など)に応じて、外来語や専門用語を分かり易く言い換える言い換えシステムに関するものである。
【0002】
【従来の技術】
従来、ユーザの年齢や視力、習熟度に応じて表示画面を切り替える技術があった(例えば、特許文献1参照)。
この文献では、ユーザが年齢設定を行うことで、小学生であれば使用する漢字を制限する、高齢者であれば視力測定を行わせて使用する文字の大きさを変える、といった表示画面の変更を行う技術が開示されている。
【0003】
【特許文献1】
特開2000−305746号公報
【0004】
【発明が解決しようとする課題】
しかしながら、上記従来の技術では、表示される内容はシステムが設定したレベルによって一律であり、ユーザの嗜好や習熟度に応じて細かくカスタマイズすることはできなかった。
【0005】
また、近年、コンピュータ等の分野において、外来語(カタカナ語)や専門知識を必要とする単語が頻繁に使用されるようになり、特に高齢者等では、文章の理解に支障をきたすという問題がある。このような場合、分かりにくい表現を分かり易く言い換える仕組みが必要であるが、このような言い換えシステムは実現されていなかった。
【0006】
【課題を解決するための手段】
本発明は、前述の課題を解決するため次の構成を採用する。
〈構成1〉
見出し語と、見出し語を別の表現で表す言い換え語とを対応付けて示す辞書データベースと、任意の語句に対して、辞書データベースを参照し、一致した見出し語があった場合は、語句を言い換え語に変換して出力する変換部とを備えたことを特徴とする言い換えシステム。
【0007】
〈構成2〉
構成1に記載の言い換えシステムにおいて、見出し語を言い換え語に言い換えるか否かを各ユーザ毎に示すユーザ情報格納テーブルと、ユーザが指定された場合、ユーザに対応したユーザ情報に基づいて、任意の語句を言い換え語に変換する変換部を備えたことを特徴とする言い換えシステム。
【0008】
〈構成3〉
構成2に記載の言い換えシステムにおいて、ユーザが見出し語を言い換えるか否かを指定した場合、指定内容を前記ユーザ情報格納テーブルに反映させる言い換え情報設定部を備えたことを特徴とする言い換えシステム。
【0009】
〈構成4〉
構成2または3に記載の言い換えシステムにおいて、ユーザが与えた文書中の語句が辞書データベース中の見出し語に一致した場合は、ユーザ情報格納テーブルにおいて、見出し語を言い換え不要と設定する習熟度学習部とを備えたことを特徴とする言い換えシステム。
【0010】
〈構成5〉
構成2または3に記載の言い換えシステムにおいて、ユーザが与えた文書中の語句が辞書データベース中の言い換え語に一致した場合は、ユーザ情報格納テーブルにおいて、見出し語を言い換え要と設定する習熟度学習部とを備えたことを特徴とする言い換えシステム。
【0011】
〈構成6〉
構成1〜5のいずれかに記載の言い換えシステムにおいて、辞書データベースと変換部に対して、通信回線を介して接続する入出力装置を設け、入出力装置は、任意の語句を言い換え要求と共に変換部に対して送信し、かつ、変換部からの言い換え結果を受信するよう構成されていることを特徴とする言い換えシステム。
【0012】
〈構成7〉
構成1〜6のいずれかに記載の言い換えシステムにおいて、見出し語の文脈上の関係に基づく条件に対応した言い換え語を備えた辞書データベースと、任意の語句に対し、語句の文脈上の関係を示す情報に基づいて、辞書データベースを参照し、情報が文脈上の関係に基づく条件に適合する見出し語が存在した場合は、見出し語に対応した言い換え語に変換する変換部を備えたことを特徴とする言い換えシステム。
【0013】
〈構成8〉
構成1〜7のいずれかに記載の言い換えシステムにおいて、入力された文字列を形態素解析して単語を抽出し、抽出された単語に基づいて見出し語を言い換え語に変換する変換部を備えたことを特徴とする言い換えシステム。
【0014】
〈構成9〉
構成1〜7のいずれかに記載の言い換えシステムにおいて、文書中の任意の文字から1文字ずつ文字列を増やし、文字列を見出し語と比較し、一致した場合に、文字列を言い換え対象となる語句であると判定する変換部を備えたことを特徴とする言い換えシステム。
【0015】
〈構成10〉
構成1〜9のいずれかに記載の言い換えシステムにおいて、言い換え語に変換した箇所は、変換しない部分とは異なる表示を行うよう構成されたことを特徴とする言い換えシステム。
【0016】
【発明の実施の形態】
以下、本発明の実施の形態を具体例を用いて詳細に説明する。
《具体例1》
〈構成〉
図1は、本発明の言い換えシステムの具体例1を示す構成図である。
図示のシステムはコンピュータで構成されており、入出力装置10、処理装置20、記憶装置30からなる。入出力装置10は、言い換え対象となる文書の入力や言い換え結果の出力を行う機能部であり、入力部11、出力部12を備えている。入力部11は、キーボードやマウス等のポインティングデバイスによるテキスト入力処理、スキャナと文字認識処理部によるテキスト入力処理、マイクと音声認識処理などによるテキスト入力処理といったテキスト文書の入力処理を行う機能を有している。また、入力部11は、ユーザが個別に設定する言い換え情報を入力する機能を有している。出力部12は、ディスプレイ装置への表示、音声への変換および音声出力、ファイルへの出力を行う機能を有しており、入力部11より入力したテキストの処理結果を出力するものである。
【0017】
処理装置20は、演算装置やメモリ、制御部等から構成され、ユーザの習熟度レベルを設定したり、入力部11から入力されたテキストを別の表現に言い換えたりする処理を実行する機能を有している。
処理装置20は、言い換え情報設定部21、変換部22を備えている。言い換え情報設定部21は、入力部11から入力された各ユーザの習熟度を設定したり、特定の単語の言い換え情報を後述するユーザ情報格納テーブル32に格納する機能部である。
【0018】
変換部22は、入力部11から入力されたテキスト中の任意の語句に対して、記憶装置30内の後述する辞書データベース31とユーザ情報格納テーブル32を参照し、一致した見出し語があった場合は、ユーザ情報格納テーブル32のユーザ情報に基づいてその語句を言い換え語に変換する機能を有しており、形態素解析部221、辞書検索部222、テキスト変換部223からなる。
【0019】
形態素解析部221は、テキストを単語単位に分割する処理を行うための既知の形態素解析を行う処理部である。辞書検索部222は、形態素解析部221で分割された単語に対して、辞書データベース31を参照して、見出し語に関連付けられた情報を獲得する処理を行う機能部である。テキスト変換部223は、辞書検索部222の辞書検索結果に基づいて、テキストを言い換える処理を行う機能部である。
【0020】
記憶装置30は、ハードディスク装置や光ディスク装置あるいは半導体メモリといった記憶装置からなり、辞書データベース31とユーザ情報格納テーブル32が設けられている。辞書データベース31は、言い換え表現のデータを格納するデータベースである。また、ユーザ情報格納テーブル32は、ユーザの習熟度情報を格納するテーブルである。
【0021】
図2は、辞書データベース31とユーザ情報格納テーブル32の説明図である。
図示のように、辞書データベース31は、見出し語格納部311、言い換え語格納部312、条件格納部313からなり、これらのフィールドに対応したユーザ情報格納テーブル32の情報によって1レコードが形成されている。見出し語格納部311は、言い換えを必要とする語句(見出し語)を格納する。また、言い換え語格納部312は、各見出し語を別の表現で言い換えた語句(言い換え語)を格納する。更に、条件格納部313は、言い換え処理を適用するための条件を設定する情報であり、本具体例では見出し語の難易度を表している。ここで、難易度とは、単語の専門性の高さを示している。難易度が高いほど、一般に理解しにくいということになり、言い換えが必要となる。本具体例において、習熟度と難易度のレベルは対応しているものとする。更に、ユーザ情報格納テーブル32は各ユーザの識別情報(ID)毎に、各見出し語を言い換え処理するか否かの情報を示すものである。
【0022】
〈動作〉
図3は、具体例1の動作を示すフローチャートである。
先ず、本装置を使用するユーザは、入力部11からユーザID等を入力するといった方法によりユーザ認証処理を行う(ステップS101)。そして、言い換え情報の設定を行うか、言い換え処理を行うかの選択を行う(ステップS102)。ステップS102において、“Y”の場合は変換部22の動作となり、“N”の場合は言い換え情報設定部21の動作となる。
【0023】
1)言い換え情報の設定を行う場合(ステップS102で“N”の場合)
言い換え情報の設定には、装置の基準に従って全体的なレベルを指定する方法と、単語毎に言い換えの必要があるかどうかを設定する方法がある。
【0024】
1−1)先ず、全体的なレベルを指定して言い換え情報を設定する方法について説明する。ここでは、レベル1を初心者、レベル2を中級者、レベル3を上級者と定義していると仮定する。
【0025】
ユーザが入出力装置10を通して自らのレベルを選択入力すると、言い換え情報設定部21は、ユーザ情報格納テーブル32にこの情報を設定する。例えば、ユーザがレベル2を選択すると(ステップS103)、難易度がレベル2以上の単語、即ちレベル2およびレベル3の単語が言い換えの対象となり、言い換え情報設定部21は、これらのレベルの見出し語に対応したユーザ情報格納テーブル32のフィールドに、言い換えを行うことを示す情報(図2では「○」)を付与する(ステップS104)。図2において、ID1のユーザ情報格納テーブル32は、ID1のユーザが「中級者」=レベル2を選択した状態を示している。
【0026】
1−2)次に、単語毎に言い換え情報を設定する方法について説明する。
ユーザのレベルにかかわらず特定の単語の言い換えを行いたい、あるいは、行いたくない場合が存在する。このような場合は、入出力装置10を通して、単語とその単語を言い換えるかどうかの情報を入力する(ステップS103)。これにより言い換え情報設定部21は、指定された単語のユーザ情報格納テーブル32に、その単語を言い換えるか否かの情報を付与する(ステップS104)。図2において、ID2のユーザ情報格納テーブル32は、ID2のユーザが「中級者」=レベル2を選択した上で、レベル1の単語である「チョリソ」を言い換え要に、レベル2の単語である「コンフィ」を言い換え不要に設定した状態を示している。
【0027】
2)言い換え処理を行う場合(ステップS102で“Y”の場合)
言い換え処理を行う場合は、ユーザが入力部11より言い換えを行いたいテキストを入力する(ステップS105)。これにより、変換部22においてそのテキストに対する言い換え処理が行われ(ステップS106)、処理結果が出力部12より画面表示等の手段によって出力される(ステップS107)。その後、更に新しいテキストを処理する場合(ステップS108)は、ステップS105に戻り、そうでなければログアウトして(ステップS109)、処理を終了する。
【0028】
次に、上述したステップS106の言い換え処理の動作について詳細に説明する。
図4は、言い換え処理の動作を示すフローチャートである。
先ず、形態素解析部221が、入力されたテキストを形態素解析する(ステップS111)。次に、辞書検索部222が、形態素解析部221による形態素解析結果から1語を取り出し(ステップS112)、その単語をキーに辞書データベース31を検索する(ステップS113)。辞書データベース31にその単語が登録されていなければ、その単語を、変換部22内の図示しないバッファに格納する(ステップS114、S115)。また、その単語が見出し語として辞書データベース31に登録されていた場合は、そのユーザのユーザ情報格納テーブル32の情報に従って対応する言い換え語をバッファに格納する(ステップS116)。次に、ステップS112で取り出した語がテキストの最後の単語であるかを判定し(ステップS117)、最後の単語でない場合は、ステップS112に戻り、上述したステップS112〜ステップS115(またはステップS116)の処理を繰り返す。
【0029】
図5は、文書の一例としてレストランのメニューを示す図である。
以下、このテキストを使って、ID2のユーザが言い換え処理を行った場合の処理の流れを具体的に説明する。
【0030】
図6は、図5中のテキストの1文を形態素解析した結果の説明図である。
図7は、作業用バッファの内容の説明図である。
図8は、言い換え処理後のメニューの説明図である。
【0031】
言い換え処理を行う場合、先ず、図6の形態素解析結果(TX61)から「チョリソ」を読む。次に、図2に示すように、辞書データベース31を検索すると、ID2の「チョリソ」のフィールドが「○」、即ち、言い換え要と設定されていることが分かる。そこで、「チョリソ」の言い換え語である「辛口ソーセージ」をバッファに格納する。即ち、図7のTX71「辛口ソーセージ」がバッファに格納される。
【0032】
尚、ID2のユーザは習熟度のレベルが2なので、「チョリソ」は、ユーザの習熟度のレベルより低い難易度レベルの語であるが、ユーザ情報格納テーブル32の情報が優先されて言い換えを行うことになる。
【0033】
次に、図6に示す形態素解析結果から「入り」を読み、同様に辞書データベース31を検索する。辞書データベース31には「入り」は登録されていないので、「入り」をそのままバッファに登録する(図7のTX72の状態)。そして、同様の処理を「空豆」〜「コンフィ」に対しても行う。
【0034】
図7におけるTX73は、図6のTX61の文に対して言い換え処理が終了した時点のバッファの内容を示している。即ち、TX61における「ラグー」「ポワブロン」が言い換え処理され、「コンフィ」は、ID2のユーザは言い換え不要であるため、そのまま出力されている。このような言い換え処理を、図5に示したメニュー全ての文に対して行った結果が図8に示す状態である。このような入力テキストの全ての文に対して言い換え処理が終了すると、テキスト変換部223は、その処理結果を出力部12に送り、出力部12はその処理結果を画面などに表示する。
【0035】
〈効果〉
以上のように、具体例1によれば、見出し語に対する言い換え語を示す辞書データベース31を設け、この辞書データベース31に基づいて、入力文中の語いを言い換え語に変換するようにしたので、例えば専門用語のように、分かりにくい表現を、ユーザの習熟度に応じて分かり易い表現に言い換えることができる。
【0036】
また、ユーザが、個々の単語を言い換えるかどうかを個別に設定するようにしたので、ユーザの好みや習熟度に応じて、きめ細かいカスタマイズが可能となる。
【0037】
《具体例2》
具体例2は、ユーザが習熟度を示す文書を入力し、これに基づいて、ユーザ情報格納テーブル中の言い換えの要否を設定するようにしたものである。
【0038】
〈構成〉
図9は、具体例2の構成図である。
図示のシステムは、入出力装置10、処理装置20a、記憶装置30からなる。ここで、入出力装置10および記憶装置30の構成は、具体例1と同様であるため、その説明は省略する。処理装置20aは、変換部22と習熟度学習部23からなる。即ち、具体例2では、具体例1における言い換え情報設定部21に代わって習熟度学習部23を設けたものである。ここで、変換部22は具体例1と同様であるため、その説明は省略する。また、習熟度学習部23は、ユーザが与えたテキスト中の語句が辞書データベース31中の見出し語に一致した場合は、ユーザ情報格納テーブル32において、言い換え不要と設定し、その語句が言い換え語に一致した場合は、言い換えが必要であると設定する機能を有している。
【0039】
〈動作〉
図10は、具体例2の動作を示すフローチャートである。
具体例2においても、ユーザは入力部11からユーザIDを入力する等の方法で、ユーザ認証処理を行い(ステップS201)、習熟度の学習を行うか、言い換え処理を行うかを選択する(ステップS202)。ステップS202において、“Y”の場合は変換部22の動作となり、“N”の場合は習熟度学習部23の動作となる。
【0040】
1)習熟度の学習を行う場合(ステップS202で、“N”の場合)
ユーザが入力部11からテキストを入力すると、習熟度学習部23は、習熟度学習処理を行う(ステップS203)。ここで、ユーザが入力するテキストは、ユーザが作成したテキストでもよいし、インターネット上のWebページといったものであってもよい。即ち、ユーザが作成したテキストや、ユーザが読んで理解できたテキストに使われている用語は、ユーザが習得した単語であると考えることができる。このような観点から、対象となるユーザの習熟度学習処理を行う。
【0041】
図11は、習熟度学習処理の流れを示すフローチャートである。
習熟度学習処理を行う場合、先ず、入力されたテキストを形態素解析する(ステップS221)。次に、形態素解析結果の単語を1語ずつ辞書検索し、辞書データベース31に登録されているかを調べる(ステップS222、S223)。その単語が辞書データベース31の言い換え語格納部312に登録されている場合は、ユーザ情報格納テーブル32の該当する欄に、言い換え要を示す情報「○」を格納し(ステップS224、S225)、次の単語の処理に移る(ステップS226)。一方、その単語が見出し語格納部311に登録されている場合は、ユーザ情報格納テーブル32の該当する欄に、言い換え不要を示す情報「×」を格納し(ステップS224、S225)、次の単語の処理に移る(ステップS226)。辞書データベース31の、見出し語格納部311、言い換え語格納部312のいずれにも登録されていない場合は、何も処理を行わずに次の単語の処理に移る(ステップS224、S226)。入力テキスト中の全ての単語に対してステップS211〜ステップS225の処理が終われば、習熟度学習処理を終了する。
【0042】
尚、ユーザ情報格納テーブル32の言い換え要/不要の情報が空欄のデータについては、予め定義された規則に従って(例えば、条件格納部313のレベルによって、「○」あるいは「×」を一括付与するなど)言い換え要/不要の情報を付与するようにしてもよい。
【0043】
2)言い換え処理を行う場合(ステップS202で、“Y”の場合)
具体例2において、ステップS204〜ステップS206の言い換え処理は、具体例1におけるステップS105〜ステップS107の処理と同様である。そして、具体例2では、出力部12にて言い換え処理結果が表示された後、ユーザがその結果を用いて学習させたい場合は(ステップS207)、処理結果を修正する(ステップS208)。例えば、ユーザの習熟度が上がった場合、言い換えられた語句を元の単語(見出し語)に戻す、といった修正を行う。尚、このような場合は、出力結果中、元の単語と言い換え語を併記することが望ましい。
【0044】
そして、ユーザがこの修正テキストにより習熟度学習を行いたい場合は、入力部11より、このテキストを習熟度学習テキストとして入力する。これにより、習熟度学習部23は、図11に示す処理を行い、ユーザ情報格納テーブル32に反映させる。
【0045】
その後は、更に新しいテキストを処理するかを判断し(ステップS209)、新しいテキストを処理する場合は、ステップS204に戻り、そうでない場合は、ログアウトして(ステップS210)、処理を終了する。
【0046】
〈効果〉
以上のように、具体例2によれば、習熟度学習のための文書中の単語が辞書データベース31の見出し語や言い換え語に一致した場合、習熟度学習部23によって、その単語を言い換え不要または言い換え要とする情報をユーザ情報格納テーブル32に反映させるようにしたので、ユーザは、単語の言い換えの要否を一つ一つ登録しなくとも、文書を指定するだけでユーザ情報格納テーブル32を容易にカスタマイズすることができる。
【0047】
また、言い換え処理結果を修正し、習熟度の学習を行うようにしたので、容易かつ確実にユーザ情報格納テーブル32のカスタマイズを行うことができる。
【0048】
《具体例3》
具体例3は、言い換えシステムを、クライアント(入出力装置)と、サーバ(処理装置、データベース)とにより構成したものである。
【0049】
〈構成〉
図12は、具体例3の構成図である。
図示のシステムは、クライアント100とサーバ200とが通信回線を介して接続されることで実現されている。クライアント100側には、入出力装置10aが設けられ、サーバ200側には、処理装置20bと記憶装置30aが設けられている。即ち、本具体例の全体の構成は、具体例1、2とほぼ同じであるが、ネットワークを介してテキストをクライアント100とサーバ200間でやり取りするようにした点が異なっている。
【0050】
図12において、入出力装置10aは、入力部11、出力部12、送受信部13を備えている。ここで、入力部11および出力部12は具体例1、2の構成と同様である。また、送受信部13は、サーバ200とのデータのやり取りを行うためのクライアント100側の送受信部である。
【0051】
サーバ200側の処理装置20bは、変換部22と送受信部24を備えており、変換部22は具体例1、2の構成と同様である。送受信部24は、クライアント100から送信されたテキストの受信を行って、これを形態素解析部221に送ったり、テキスト変換部223における言い換え処理結果をクライアント100に送信するといった、サーバ200側の送受信を行うための機能部である。
【0052】
記憶装置30aは、基本的な構成は具体例1、2と同様であるが、辞書データベース31のみ有している点が異なっている。
【0053】
〈動作〉
図13は、具体例3の動作を示すフローチャートである。
ユーザは、言い換え処理を行う場合、対象となるテキストと自身の習熟度の情報をサーバ200に送信する(ステップS301)。ここで、ユーザ自身の習熟度とは、例えば、レベル1やレベル2といった情報である。
【0054】
サーバ200では、このような情報を送受信部24が受け取ると、変換部22が言い換え処理を行う(ステップS302)。尚、この言い換え処理については後述する。ステップS302で言い換え処理が行われると、送受信部24は、その処理結果をクライアント100に送信する(ステップS303)。これにより、クライアント100側では、出力部12にて処理結果を画面表示する(ステップS304)。そして、新しいテキストがある場合は(ステップS305)、ステップS301に戻って上述した処理を繰り返し、そうでない場合は言い換え処理を終了する。
【0055】
図14は、言い換え処理の動作を示すフローチャートである。
言い換え処理の流れは、具体例1、2とほぼ同じであるが、ユーザの習熟度情報をクライアント100側で入力し、送信するようになっているので、この習熟度情報と辞書データベース31の条件格納部313の情報とを比較して言い換えの要/不要を判定する点が異なっている。
【0056】
先ず、テキストと共にユーザの習熟度情報を受け取ると、形態素解析部221にて、テキストを形態素解析する(ステップS311)。次に、辞書検索部222は、形態素解析結果から1語ずつ取り出して辞書データベース31の辞書検索を行う(ステップS313)。そして、その単語が辞書登録されていた場合は、ユーザの習熟度レベルと辞書データベース31に登録されている難易度レベル(条件格納部313の情報)とを比較し、単語の難易度がユーザの習熟度以上であるかを判定する(ステップS314)。このステップS314において、そうであった場合は、言い換え語をバッファに格納する(ステップS315)。一方、単語が辞書データベース31に登録されていなかったり、単語の難易度がユーザの習熟度より低かった場合は、言い換えを行わずに、その単語をそのままバッファに格納する(ステップS316)。
【0057】
そして、このような単語毎の処理を繰り返し、最後の単語が終了した場合(ステップS317)は、言い換え処理を終了する。
【0058】
〈効果〉
以上のように、具体例3によれば、言い換え処理を行う処理装置20bと辞書データベース31をサーバ200上に置き、クライアント100からテキストと習熟度情報を与えるようにしたので、クライアント100側の処理が軽くなり、クライアント100側の記憶容量が少なくて済む、といった効果がある。これにより、携帯端末のように処理性能や記憶容量に制限のある装置に、言い換え処理システムを組み込むことが可能となる。
【0059】
尚、上記具体例3において、具体例1、2と同様に、ユーザ情報格納テーブル32をサーバ200側に設け、クライアント100側からユーザID等の識別情報を送信するように構成してもよい。
【0060】
《具体例4》
具体例4は、見出し語の文脈上の関係に基づく条件に対応した言い換え語を辞書データベースに格納し、言い換え処理を行う場合は、その条件に対応した言い換え語を選択するようにしたものである。
【0061】
〈構成〉
図15は、具体例4の構成図である。
図示のシステムは、入出力装置10、処理装置20c、記憶装置30aからなる。ここで、入出力装置10および記憶装置30の基本的な構成は、具体例1、2と同様であるため、その説明は省略する。処理装置20cにおける変換部25は、形態素解析部221、辞書検索部222、テキスト変換部223、条件照合部224からなる。尚、処理装置20c中、具体例1の言い換え情報設定部21または具体例2の習熟度学習部23を備えているが、その図示は省略している。
【0062】
変換部25は、見出し語の条件に応じて言い換え語を変換する機能を有し、形態素解析部221〜テキスト変換部223は、具体例1、2と同様である。条件照合部224は、辞書データベース31a中の後述する第1、第2の条件に基づいて言い換え語を選択し、この選択情報をテキスト変換部223に渡す機能を有している。
【0063】
辞書データベース31aは、辞書データベース31aとユーザ情報格納テーブル32からなり、ユーザ情報格納テーブル32は具体例1、2と同様である。辞書データベース31aは、見出し語に対する異なる条件に対応した言い換え語を備えたデータベースであり、次のように構成されている。
【0064】
図16は、具体例4の辞書データベース31aの説明図である。
具体例4の辞書データベース31は、図示のように、見出し語格納部311、言い換え語格納部312、属性情報格納部314、第1の条件格納部315、第2の条件格納部316からなる。ここで、見出し語格納部311と言い換え語格納部312は、具体例1〜3の辞書データベース31の構成と同様である。属性情報格納部314は、見出し語や言い換え語の意味や文脈上の関係を示す情報を格納する機能部である。また、第1の条件格納部315は、具体例1〜3における条件格納部313と同様の情報である第1の条件を格納する機能部である。更に、第2の条件格納部316は、見出し語の文脈上の関係に基づく条件、即ち、見出し語がどのような条件で使用されるかを示す情報である第2の条件を格納する機能部である。例えば、図中のD161は「コンフィ」の意味が「調理法」で、「酢漬け」と言い換えるための条件は、入力が「〜のコンフィ」という表現で、「〜」の部分に来る名詞の意味が「野菜」であることを示している。
【0065】
〈動作〉
図17は、具体例4の言い換え処理の動作を示すフローチャートである。
図18は、入力テキストの一例を示す説明図である。
具体例4では、辞書検索を行う際に適用条件を調べ、条件にマッチした場合にのみ言い換え処理を行う(ステップS401〜ステップS407)。以下、図18に示すテキストが入力された場合を例に説明する。
【0066】
先ず、図18におけるTX181のテキストが入力されると、形態素解析部221により形態素解析を行い(ステップS401)、その結果を辞書検索部222によって1語ずつ辞書検索する(ステップS402、S403)。図16に示す辞書データベース31aで「ポワブロン」を参照すると、第2の条件格納部316が空なので、言い換え語「ピーマン」をバッファに格納する(ステップS404、S405)。次に、「の」は辞書データベース31aに登録されていないので、その語句「の」をそのままバッファに格納する(ステップS404、S406)。
【0067】
更に、「コンフィ」を検索すると(ステップS403)、D161とD162の2種類の言い換え候補があり、それぞれ第2の条件格納部316にこのデータを適用するための第2の条件が記述されている。TX181の場合、「コンフィ」の前に来る語が「ポワブロン」で、また、D163の属性情報格納部314の情報により、その意味は「野菜」であることが分かるのでD161が適用され、言い換え語「酢漬け」がバッファに格納される(ステップS404、S405)。
【0068】
同様に、TX182のテキストが入力されると、今度は「コンフィ」の前に来る語が「アナナ」で、D164の属性情報格納部314の情報により、その意味は「果物」であることが分かるので、D162が適用され、言い換え語「砂糖漬け」がバッファに格納される(ステップS404、S405)。
【0069】
図19は、言い換え処理を行った後のバッファの内容を示す説明図である。
図示のように、TX191では「コンフィ」が「酢漬け」と言い換えられており、一方、TX192では、「コンフィ」が「砂糖漬け」と言い換えられている。
【0070】
言い換え処理が終了すると、具体例1、2と同様に、バッファの内容を出力画面に表示し、新しいテキストの言い換え要求があれば、同様の処理を繰り返して行う。要求がなければ処理を終了する。
【0071】
〈効果〉
以上のように、具体例4によれば、ある見出し語に対して異なる条件によって言い換え語を選択するようにしたので、複数の言い換えの可能性がある場合に、辞書データベース31aに記述された条件を参照して、最適な言い換え語を選択することができる。
【0072】
《具体例5》
具体例5は、テキストに対して形態素解析を行うことなく、言い換え処理を行うようにしたものである。
【0073】
〈構成〉
図20は、具体例5の構成図である。
図示のシステムは、入出力装置10、処理装置20d、記憶装置30からなる。ここで、入出力装置10および記憶装置30の構成は、具体例1、2と同様であるため、その説明は省略する。処理装置20dは、言い換え情報設定部21と変換部26からなり、言い換え情報設定部21は、具体例1、2の構成と同様である。変換部26は、辞書検索部222aとテキスト変換部223からなり、テキスト変換部223は各具体例のテキスト変換部223と同様である。即ち、具体例5の変換部26は、具体例1の変換部22における形態素解析部221がない点が異なっている。また、辞書検索部222aは、入力テキスト中の語いの先頭から1文字ずつ辞書データベース31中の見出し語と照合し、マッチする文字列があった場合は、この見出し語の言い換え処理を行うよう構成されている。
【0074】
〈動作〉
処理の流れも具体例1とほぼ同様であるが、言い換え処理の詳細が異なっている。
図21は、具体例5の言い換え処理の動作を示すフローチャートである。
具体例5では、変換部26の辞書検索部222aは、入力されたテキストの1文字目からm文字の文字列の辞書検索を行う(ステップS501、S502、S503)。例えば、図5中のTX51の文を例に説明すると、「チ」「チョ」「チョリ」…のように、1文字目から始まる文字列をキーに辞書検索し(ステップS503)、見出し語とマッチする文字列があれば(ステップS504)、言い換え処理を行う(ステップS505、S506、S507)。尚、このとき、検索文字列の最長の値を設定するなどのことにより、検索回数を減らす工夫をしてもよい。また、複数の文字列にマッチした場合は、全ての文字列に対して言い換え処理を行う、あるいは、マッチした中で最長の文字列を選択する等の方法で処理を進める。
【0075】
TX51の例では、「チョリソ」がマッチするので、「チョリソ」の言い換え語である「辛口ソーセージ」をバッファに格納し(ステップS506)、n=1+4とする(ステップS507)。ステップS512において、nが最後の文字ではないので、ステップS502に戻り、5文字目の「入」から辞書検索を行う(ステップS503)。「入」で始まる見出し語が辞書にないので(ステップS504、S508、S509)、「入」をバッファに格納する(ステップS510)。そして、n=n+1として(ステップS511)、最後の文字でない場合(ステップS512)は、ステップS502に戻る。
【0076】
即ち、ステップS504において、見出し語が一致しなかった場合は、検索対象をn番目の文字から1文字ずつ増やし、これを最後の文字まで行い、それでも見出し語に一致しなかった場合は、n番目の文字をバッファに格納するものである。
【0077】
「入」がバッファに格納されると、次に「り」で始まる見出し語の辞書検索を行う(ステップS502、S503、S508、S509)。これも辞書にないので、「り」をバッファに格納する(ステップS510)。
以上のような処理を入力テキストの最後まで、繰り返し行う。
【0078】
〈効果〉
以上のように、具体例5によれば、具体例1と比べて単語認識の精度は落ちるが、形態素解析を行わないため、処理が軽くなるという効果がある。
【0079】
《利用形態》
上記各具体例では、言い換え対象のテキストとしてレストランのメニューを例として説明したが、これに限定されるものではなく、辞書データベース31(31a)の内容を変えるだけで、様々な分野に適用することができる。例えば、漢字をひらがなにしたり、読み仮名をふったりするシステムや、病院のカルテを患者に分かり易く言い換えるシステムといったことにも適用が可能である。
また、外来語(カタカナ語)と和語(漢字、ひらがな語)や、標準語と方言などを対応付けて登録することにより、文書作成システムや文書校正システムの一部に組み込んで、表現や用語体系の統一を図ることができる。
【0080】
上記各具体例では、言い換え語の表示形態は、見出し語と置き換える方法について述べたが、見出し語と言い換え語を併記するようにしてもよいし、見出し語をマウス等で指定すると言い換え語が表示される、といった表示形態であってもよい。
また、言い換え語を下線付きで表示したり、表示色を変えるといった、言い換えていない箇所とは区別できるように、異なる表示を行ってもよい。
【0081】
各具体例では、単語を言い換える例について説明したが、辞書検索を行う際、複数語による検索を行えるようにすれば、言い換えの対象がイディオムや熟語等、複数の単語からなる語句であっても構わない。
【0082】
各具体例では、辞書データベース31(31a)とユーザ情報格納テーブル32とを別体としたが、これらを一体のデータベースとして設けてもよい。また、ユーザ情報格納テーブル32は、ユーザ毎に保有するようにしてもよい。
【0083】
各具体例では、条件格納部313や第1の条件格納部315に格納される条件を1次元の値として説明したが、この条件は二つ以上の条件を組み合わせた複数次元のものであってもよい。例えば、条件の一つに難易度、もう一つに言い換え語の表記(ひらがな・カタカナ・漢字など)を記述しておく。これにより、見出し語を言い換える際に、ユーザ1はカタカナ語での言い換え語を優先するが、ユーザ2は和語(漢字)を優先するなどの処理が可能となる。
【0084】
具体例2においては、単語毎の言い換え情報の登録について、言い換え処理結果を使って対話的に登録する方法について述べたが、必要な情報を記述したファイルから一括して登録するような手段を設けてもよい。
また、言い換え処理の結果をユーザが修正処理する場合、この処理に対するモニタリング手段を設け、ユーザが言い換えたい単語、あるいは言い換えたくない単語の情報を取得するようにしてもよい。
【0085】
具体例4では、属性情報格納部314に単語の意味情報を格納した例を示したが、これに限らず、文法情報(その単語がとりうる構文の情報)や分野情報、字種情報等、種々の情報を格納することができる。
【0086】
具体例5では、辞書データベース31の構成として具体例1〜3の辞書データベース31の構成としたが、具体例4の辞書データベース31aの構成とし、具体例4と同様の言い換え処理を行うようにしてもよい。
【0087】
【発明の効果】
以上のように、本発明によれば、見出し語に対して、この見出し語を別の表現で表す言い換え語を格納する辞書データベースを設け、この辞書データベースを用いて任意の語句を言い換え語に変換するようにしたので、専門用語のように分かりにくい表現を分かり易い表現に言い換えることができる。
【図面の簡単な説明】
【図1】本発明の言い換えシステムの具体例1の構成図である。
【図2】具体例1の辞書データベースとユーザ情報格納テーブルの説明図である。
【図3】具体例1の動作を示すフローチャートである。
【図4】具体例1の言い換え処理の動作を示すフローチャートである。
【図5】文書の一例としてレストランのメニューを示す説明図である。
【図6】図5中のテキストの1文を形態素解析した結果の説明図である。
【図7】作業用バッファの内容の説明図である。
【図8】言い換え処理後のメニューの説明図である。
【図9】具体例2の構成図である。
【図10】具体例2の動作を示すフローチャートである。
【図11】習熟度学習処理を示すフローチャートである。
【図12】具体例3の構成図である。
【図13】具体例3の動作を示すフローチャートである。
【図14】言い換え処理の動作を示すフローチャートである。
【図15】具体例4の構成図である。
【図16】具体例4の辞書データベースの説明図である。
【図17】具体例4の言い換え処理の動作を示すフローチャートである。
【図18】具体例4の入力テキストの説明図である。
【図19】具体例4の作業用バッファの内容の説明図である。
【図20】具体例5の構成図である。
【図21】具体例5の言い換え処理の動作を示すフローチャートである。
【符号の説明】
10、10a 入出力装置
21 言い換え情報設定部
22、25、26 変換部
23 習熟度学習部
31、31a 辞書データベース
32 ユーザ情報格納テーブル[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a paraphrase system for translating text into paraphrases suitable for a user, and in particular, to understand foreign words and technical terms according to the level of the user (proficiency, possessed knowledge, physical limitations, etc.). It relates to a paraphrasing system that is easily paraphrased.
[0002]
[Prior art]
Conventionally, there has been a technique for switching a display screen according to a user's age, visual acuity, and proficiency (for example, see Patent Document 1).
In this document, the user sets the age so that the kanji to be used is restricted for elementary school children, and the display screen is changed, such as changing the size of characters to be used by performing eyesight measurement for elderly people. Performing techniques are disclosed.
[0003]
[Patent Document 1]
JP 2000-305746 A
[0004]
[Problems to be solved by the invention]
However, in the above-described conventional technology, the displayed content is uniform according to the level set by the system, and cannot be customized in detail according to the user's preference and proficiency.
[0005]
In recent years, in the field of computers and the like, foreign words (Katakana) and words that require specialized knowledge have been frequently used, and especially in the elderly, etc., there is a problem that understanding of sentences is hindered. is there. In such a case, a mechanism for paraphrasing difficult-to-understand expressions is necessary, but such a paraphrasing system has not been realized.
[0006]
[Means for Solving the Problems]
The present invention employs the following configuration to solve the above-described problem.
<
A dictionary database that associates headwords with paraphrases that express the headwords in different expressions, and for any words and phrases, refers to the dictionary database, and if there is a matching headword, paraphrases the words and phrases A conversion system, comprising: a conversion unit that converts a word into a word and outputs the word.
[0007]
<
In the paraphrase system according to
[0008]
<
3. The paraphrasing system according to
[0009]
<Configuration 4>
In the paraphrasing system according to the
[0010]
<
In the paraphrase system according to the
[0011]
<Configuration 6>
In the paraphrase system according to any one of the
[0012]
<Configuration 7>
In the paraphrase system according to any one of the
[0013]
<Configuration 8>
The paraphrasing system according to any one of
[0014]
<Configuration 9>
In the paraphrasing system according to any one of the
[0015]
<Configuration 10>
10. The paraphrasing system according to any one of
[0016]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, embodiments of the present invention will be described in detail using specific examples.
<< Specific Example 1 >>
<Constitution>
FIG. 1 is a configuration diagram showing a specific example 1 of the paraphrasing system of the present invention.
The illustrated system is configured by a computer, and includes an input / output device 10, a processing device 20, and a storage device 30. The input / output device 10 is a functional unit that inputs a document to be paraphrased and outputs a paraphrase result, and includes an
[0017]
The processing device 20 includes an arithmetic device, a memory, a control unit, and the like, and has a function of executing a process of setting a user's proficiency level and rephrasing a text input from the
The processing device 20 includes a paraphrase
[0018]
The conversion unit 22 refers to a later-described
[0019]
The
[0020]
The storage device 30 includes a storage device such as a hard disk device, an optical disk device, or a semiconductor memory, and includes a
[0021]
FIG. 2 is an explanatory diagram of the
As shown in the figure, the
[0022]
<motion>
FIG. 3 is a flowchart showing the operation of the first embodiment.
First, a user using the present apparatus performs a user authentication process by inputting a user ID or the like from the input unit 11 (step S101). Then, selection is made as to whether to set paraphrase information or to perform paraphrase processing (step S102). In step S102, in the case of "Y", the operation of the conversion unit 22 is performed, and in the case of "N", the operation of the paraphrase
[0023]
1) When setting paraphrase information (in the case of "N" in step S102)
The setting of the paraphrase information includes a method of designating the overall level according to the criteria of the device, and a method of setting whether or not it is necessary to paraphrase each word.
[0024]
1-1) First, a method of setting paraphrase information by specifying the overall level will be described. Here, it is assumed that
[0025]
When the user selects and inputs his / her own level through the input / output device 10, the paraphrase
[0026]
1-2) Next, a method of setting paraphrase information for each word will be described.
There are cases where it is desired or not desired to paraphrase a specific word regardless of the level of the user. In such a case, a word and information on whether to paraphrase the word are input through the input / output device 10 (step S103). Thereby, the paraphrase
[0027]
2) When performing paraphrasing processing (in the case of “Y” in step S102)
When performing the paraphrasing process, the user inputs a text to be paraphrased from the input unit 11 (step S105). Thereby, the paraphrasing process is performed on the text in the conversion unit 22 (step S106), and the processing result is output from the
[0028]
Next, the operation of the paraphrasing process in step S106 will be described in detail.
FIG. 4 is a flowchart illustrating the operation of the paraphrasing process.
First, the
[0029]
FIG. 5 is a diagram illustrating a restaurant menu as an example of a document.
Hereinafter, the flow of the process when the user of ID2 performs the paraphrase process using this text will be specifically described.
[0030]
FIG. 6 is an explanatory diagram of the result of morphological analysis of one sentence of the text in FIG.
FIG. 7 is an explanatory diagram of the contents of the work buffer.
FIG. 8 is an explanatory diagram of the menu after the paraphrasing process.
[0031]
When performing the paraphrasing process, first, "chorizo" is read from the morphological analysis result (TX61) in FIG. Next, as shown in FIG. 2, when the
[0032]
Since the user of ID2 has the proficiency level of 2, the word "chorizo" is a word of a difficulty level lower than the proficiency level of the user, but the paraphrase is performed by giving priority to the information in the user information storage table 32. Will be.
[0033]
Next, “enter” is read from the morphological analysis result shown in FIG. 6, and the
[0034]
TX73 in FIG. 7 indicates the contents of the buffer at the time when the paraphrasing process for the sentence TX61 in FIG. 6 is completed. That is, paraphrase processing is performed on “lagou” and “poiblond” in the TX 61, and “confid” is output as it is because the user with
[0035]
<effect>
As described above, according to the specific example 1, the
[0036]
Further, since the user individually sets whether or not to paraphrase each word, fine customization can be performed according to the user's preference and proficiency.
[0037]
<< Specific Example 2 >>
In the specific example 2, the user inputs a document indicating the proficiency level, and based on the document, sets whether or not the paraphrase is necessary in the user information storage table.
[0038]
<Constitution>
FIG. 9 is a configuration diagram of the specific example 2.
The illustrated system includes an input / output device 10, a processing device 20a, and a storage device 30. Here, the configurations of the input / output device 10 and the storage device 30 are the same as those in the first embodiment, and thus description thereof will be omitted. The processing device 20a includes a conversion unit 22 and a
[0039]
<motion>
FIG. 10 is a flowchart illustrating the operation of the second embodiment.
Also in the specific example 2, the user performs a user authentication process by a method such as inputting a user ID from the input unit 11 (step S201), and selects whether to learn the proficiency level or perform a paraphrase process (step S201). S202). In step S202, in the case of "Y", the operation of the conversion unit 22 is performed, and in the case of "N", the operation of the
[0040]
1) When learning the proficiency (in the case of "N" in step S202)
When the user inputs a text from the
[0041]
FIG. 11 is a flowchart illustrating the flow of the proficiency learning process.
When performing the proficiency learning process, first, the input text is subjected to morphological analysis (step S221). Next, the words of the morphological analysis result are searched in a dictionary one by one, and it is checked whether or not the words are registered in the dictionary database 31 (steps S222 and S223). If the word is registered in the paraphrase storage unit 312 of the
[0042]
In addition, for data in which the paraphrasing / unnecessary information in the user information storage table 32 is blank, according to a predefined rule (for example, “O” or “X” is collectively assigned according to the level of the condition storage unit 313). ) Paraphrasing / unnecessary information may be added.
[0043]
2) When performing paraphrase processing (in the case of "Y" in step S202)
In the specific example 2, the paraphrasing processing of steps S204 to S206 is the same as the processing of steps S105 to S107 in the specific example 1. Then, in the specific example 2, after the paraphrase processing result is displayed on the
[0044]
Then, when the user wants to perform proficiency learning using the corrected text, the user inputs this text as a proficiency learning text from the
[0045]
Thereafter, it is determined whether to process a new text (step S209). If the new text is to be processed, the process returns to step S204. If not, the user logs out (step S210) and ends the process.
[0046]
<effect>
As described above, according to the specific example 2, when a word in a document for learning proficiency matches a headword or paraphrase in the
[0047]
Further, since the paraphrase processing result is corrected and the learning of the proficiency level is performed, the user information storage table 32 can be easily and reliably customized.
[0048]
<< Specific Example 3 >>
In Example 3, the paraphrasing system is configured by a client (input / output device) and a server (processing device, database).
[0049]
<Constitution>
FIG. 12 is a configuration diagram of the third embodiment.
The illustrated system is realized by connecting a
[0050]
12, the input / output device 10a includes an
[0051]
The processing device 20b on the server 200 side includes a conversion unit 22 and a transmission /
[0052]
The storage device 30a has the same basic configuration as those of the first and second embodiments, but differs in that it has only the
[0053]
<motion>
FIG. 13 is a flowchart illustrating the operation of the third embodiment.
When performing the paraphrasing process, the user transmits the target text and information on his / her proficiency level to the server 200 (step S301). Here, the user's own proficiency is, for example, information such as
[0054]
In the server 200, when the transmission /
[0055]
FIG. 14 is a flowchart illustrating the operation of the paraphrasing process.
The flow of the paraphrase process is almost the same as in the first and second embodiments, but the user's proficiency information is input and transmitted on the
[0056]
First, when the user's proficiency level information is received together with the text, the
[0057]
Then, such processing for each word is repeated, and when the last word ends (step S317), the paraphrasing processing ends.
[0058]
<effect>
As described above, according to the third embodiment, the processing device 20b for performing the paraphrasing process and the
[0059]
Note that, in the specific example 3, as in the specific examples 1 and 2, the user information storage table 32 may be provided on the server 200 side, and the
[0060]
<< Specific Example 4 >>
In Example 4, a paraphrase corresponding to a condition based on the contextual relationship of a headword is stored in a dictionary database, and when performing paraphrase processing, a paraphrase corresponding to the condition is selected. .
[0061]
<Constitution>
FIG. 15 is a configuration diagram of the specific example 4.
The illustrated system includes an input / output device 10, a processing device 20c, and a storage device 30a. Here, the basic configurations of the input / output device 10 and the storage device 30 are the same as those of the first and second embodiments, and thus the description thereof is omitted. The conversion unit 25 in the processing device 20c includes a
[0062]
The conversion unit 25 has a function of converting a paraphrase according to the condition of a headword, and the
[0063]
The
[0064]
FIG. 16 is an explanatory diagram of the
As shown, the
[0065]
<motion>
FIG. 17 is a flowchart illustrating the operation of the paraphrase processing of the fourth example.
FIG. 18 is an explanatory diagram illustrating an example of the input text.
In the specific example 4, application conditions are checked when performing a dictionary search, and paraphrase processing is performed only when the conditions are matched (steps S401 to S407). Hereinafter, a case where the text shown in FIG. 18 is input will be described as an example.
[0066]
First, when the text of the TX 181 in FIG. 18 is input, the morphological analysis is performed by the morphological analysis unit 221 (step S401), and the result is dictionary-searched one by one by the dictionary search unit 222 (steps S402 and S403). Referring to "Poiblon" in the
[0067]
Further, when "Confid" is searched (step S403), there are two types of paraphrase candidates, D161 and D162, and the second condition for applying this data is described in the second condition storage unit 316. . In the case of TX181, since the word preceding "Confi" is "Poireblon", and the meaning of the word is "vegetable" from the information in the attribute information storage unit 314 of D163, D161 is applied. "Pickled" is stored in the buffer (steps S404, S405).
[0068]
Similarly, when the text of TX182 is input, the word preceding “Confi” is “anana”, and the meaning of the word is “fruit” from the information in the attribute information storage unit 314 of D164. Therefore, D162 is applied, and the paraphrase "candied" is stored in the buffer (steps S404 and S405).
[0069]
FIG. 19 is an explanatory diagram showing the contents of the buffer after performing the paraphrasing process.
As shown, in TX191, "confi" is paraphrased as "pickled", while in TX192, "confi" is paraphrased as "candied".
[0070]
When the paraphrasing process is completed, the contents of the buffer are displayed on the output screen in the same manner as in the first and second examples, and if there is a new text paraphrasing request, the same process is repeated. If there is no request, the process ends.
[0071]
<effect>
As described above, according to the specific example 4, the paraphrase is selected under a different condition for a certain headword, so if there is a possibility of a plurality of paraphrases, the condition described in the
[0072]
<< Specific Example 5 >>
In Example 5, the paraphrasing process is performed without performing morphological analysis on the text.
[0073]
<Constitution>
FIG. 20 is a configuration diagram of the specific example 5.
The illustrated system includes an input / output device 10, a processing device 20d, and a storage device 30. Here, since the configurations of the input / output device 10 and the storage device 30 are the same as those of the first and second embodiments, the description thereof will be omitted. The processing device 20d includes a paraphrase
[0074]
<motion>
The flow of the processing is almost the same as that of the first embodiment, but the details of the paraphrasing processing are different.
FIG. 21 is a flowchart illustrating the operation of the paraphrasing process of the specific example 5.
In the specific example 5, the
[0075]
In the example of TX51, since "chorizo" matches, "dry sausage" which is a paraphrase of "chorizo" is stored in the buffer (step S506), and n = 1 + 4 (step S507). In step S512, since n is not the last character, the process returns to step S502, and a dictionary search is performed from the fifth character “ON” (step S503). Since there is no headword starting with "ON" in the dictionary (steps S504, S508, S509), "ON" is stored in the buffer (step S510). Then, n = n + 1 (step S511). If the character is not the last character (step S512), the process returns to step S502.
[0076]
That is, in step S504, if the headword does not match, the search target is increased by one character from the nth character, and the search is performed up to the last character. If the headword still does not match, the nth character is not searched. Is stored in the buffer.
[0077]
When "ON" is stored in the buffer, a dictionary search for a headword starting with "RI" is performed (steps S502, S503, S508, S509). Since this is also not in the dictionary, "RI" is stored in the buffer (step S510).
The above processing is repeated until the end of the input text.
[0078]
<effect>
As described above, according to the specific example 5, although the accuracy of word recognition is lower than that of the specific example 1, the morphological analysis is not performed, so that there is an effect that the processing is reduced.
[0079]
《Usage form》
In each of the above specific examples, a restaurant menu has been described as an example of the text to be paraphrased, but the present invention is not limited to this, and is applicable to various fields only by changing the contents of the dictionary database 31 (31a). Can be. For example, the present invention can be applied to a system for changing a kanji to hiragana or a reading kana, or a system for rephrasing a hospital chart so that a patient can easily understand it.
In addition, by registering foreign words (Katakana) and Japanese (Kanji, Hiragana) or standard languages and dialects in association, they can be incorporated into a part of the document creation system or document proofreading system to express expressions and terms. The system can be unified.
[0080]
In each of the above specific examples, the display form of the paraphrase is described as a method of replacing the headword with the headword. However, the headword and the paraphrase may be described together, or the paraphrase is displayed when the headword is designated with a mouse or the like. May be displayed.
In addition, a different display may be performed so that the paraphrase is displayed with an underline or the display color is changed so as to be distinguished from a non-paraphrase.
[0081]
In each specific example, an example in which words are paraphrased has been described.However, when performing a dictionary search, if a search with multiple words can be performed, even if the target of paraphrase is a word composed of a plurality of words, such as idioms and idioms I do not care.
[0082]
In each specific example, the dictionary database 31 (31a) and the user information storage table 32 are provided separately, but these may be provided as an integrated database. The user information storage table 32 may be held for each user.
[0083]
In each specific example, the condition stored in the condition storage unit 313 or the first
[0084]
In the specific example 2, the method of registering the paraphrase information for each word interactively using the paraphrase processing result has been described. However, a means for registering the necessary information collectively from a file in which necessary information is described is provided. You may.
When the user corrects the result of the paraphrasing process, a monitoring unit for this process may be provided to acquire information on a word that the user wants to paraphrase or a word that the user does not want to paraphrase.
[0085]
In the specific example 4, an example in which the semantic information of the word is stored in the attribute information storage unit 314 is shown. However, the present invention is not limited to this. Various information can be stored.
[0086]
In the specific example 5, the configuration of the
[0087]
【The invention's effect】
As described above, according to the present invention, for a headword, a dictionary database for storing a paraphrase for expressing the headword in another expression is provided, and an arbitrary phrase is converted to a paraphrase using this dictionary database. As such, it is possible to rephrase difficult-to-understand expressions such as technical terms into easy-to-understand expressions.
[Brief description of the drawings]
FIG. 1 is a configuration diagram of a specific example 1 of a paraphrasing system of the present invention.
FIG. 2 is an explanatory diagram of a dictionary database and a user information storage table of a specific example 1.
FIG. 3 is a flowchart illustrating an operation of a specific example 1.
FIG. 4 is a flowchart illustrating an operation of a paraphrasing process of a specific example 1.
FIG. 5 is an explanatory diagram showing a restaurant menu as an example of a document.
FIG. 6 is an explanatory diagram of a result of morphological analysis of one sentence of the text in FIG. 5;
FIG. 7 is an explanatory diagram of the contents of a work buffer.
FIG. 8 is an explanatory diagram of a menu after the paraphrasing process.
FIG. 9 is a configuration diagram of a specific example 2.
FIG. 10 is a flowchart illustrating an operation of a specific example 2;
FIG. 11 is a flowchart showing proficiency learning processing.
FIG. 12 is a configuration diagram of a specific example 3.
FIG. 13 is a flowchart illustrating an operation of a specific example 3.
FIG. 14 is a flowchart showing an operation of a paraphrase process.
FIG. 15 is a configuration diagram of a specific example 4.
FIG. 16 is an explanatory diagram of a dictionary database of a specific example 4.
FIG. 17 is a flowchart illustrating the operation of the paraphrasing process of Example 4;
FIG. 18 is an explanatory diagram of an input text of a specific example 4.
FIG. 19 is an explanatory diagram of the contents of a work buffer according to a specific example 4.
FIG. 20 is a configuration diagram of a specific example 5;
FIG. 21 is a flowchart showing the operation of the paraphrase processing of the specific example 5.
[Explanation of symbols]
10, 10a I / O device
21 Paraphrase information setting section
22, 25, 26 conversion unit
23 Proficiency Learning Department
31, 31a Dictionary database
32 User information storage table
Claims (10)
任意の語句に対して、前記辞書データベースを参照し、一致した見出し語があった場合は、前記語句を言い換え語に変換して出力する変換部とを備えたことを特徴とする言い換えシステム。A dictionary database that associates the headword with a paraphrase that expresses the headword in another expression,
A paraphrase system comprising: a conversion unit that refers to the dictionary database for an arbitrary phrase and, when there is a matching headword, converts the phrase into a paraphrase and outputs the paraphrase.
見出し語を言い換え語に言い換えるか否かを各ユーザ毎に示すユーザ情報格納テーブルと、
ユーザが指定された場合、当該ユーザに対応したユーザ情報に基づいて、任意の語句を言い換え語に変換する変換部を備えたことを特徴とする言い換えシステム。The paraphrasing system according to claim 1,
A user information storage table for each user indicating whether or not to paraphrase the headword,
A paraphrase system, comprising: a conversion unit that converts an arbitrary phrase into a paraphrase based on user information corresponding to the user when the user is designated.
ユーザが見出し語を言い換えるか否かを指定した場合、当該指定内容を前記ユーザ情報格納テーブルに反映させる言い換え情報設定部を備えたことを特徴とする言い換えシステム。In the paraphrase system according to claim 2,
A paraphrase system comprising: a paraphrase information setting unit that, when a user specifies whether or not to paraphrase a headword, reflects the specified content in the user information storage table.
ユーザが与えた文書中の語句が辞書データベース中の見出し語に一致した場合は、ユーザ情報格納テーブルにおいて、当該見出し語を言い換え不要と設定する習熟度学習部とを備えたことを特徴とする言い換えシステム。In the paraphrase system according to claim 2 or 3,
A paraphrase characterized in that when the word in the document given by the user matches a headword in the dictionary database, the user information storage table includes a proficiency learning unit that sets the headword to be not paraphrased. system.
ユーザが与えた文書中の語句が辞書データベース中の言い換え語に一致した場合は、ユーザ情報格納テーブルにおいて、当該見出し語を言い換え要と設定する習熟度学習部とを備えたことを特徴とする言い換えシステム。In the paraphrase system according to claim 2 or 3,
If the word in the document given by the user matches the paraphrase in the dictionary database, the paraphrase characterized in that the user information storage table is provided with a proficiency learning unit that sets the headword as paraphrase required. system.
辞書データベースと変換部に対して、通信回線を介して接続する入出力装置を設け、
当該入出力装置は、任意の語句を言い換え要求と共に前記変換部に対して送信し、かつ、前記変換部からの言い換え結果を受信するよう構成されていることを特徴とする言い換えシステム。In the paraphrase system according to any one of claims 1 to 5,
An input / output device connected to the dictionary database and the conversion unit via a communication line is provided,
A paraphrase system, wherein the input / output device is configured to transmit an arbitrary phrase together with a paraphrase request to the conversion unit, and to receive a paraphrase result from the conversion unit.
見出し語の文脈上の関係に基づく条件に対応した言い換え語を備えた辞書データベースと、
任意の語句に対し、当該語句の文脈上の関係を示す情報に基づいて、前記辞書データベースを参照し、前記情報が前記文脈上の関係に基づく条件に適合する見出し語が存在した場合は、当該見出し語に対応した言い換え語に変換する変換部を備えたことを特徴とする言い換えシステム。In the paraphrase system according to any one of claims 1 to 6,
A dictionary database with paraphrases corresponding to conditions based on the contextual relationship of the headword,
For any phrase, based on information indicating the contextual relationship of the phrase, refer to the dictionary database, and if there is a headword whose information satisfies the condition based on the contextual relationship, A paraphrase system comprising a conversion unit for converting a paraphrase corresponding to a headword.
入力された文字列を形態素解析して単語を抽出し、当該抽出された単語に基づいて見出し語を言い換え語に変換する変換部を備えたことを特徴とする言い換えシステム。In the paraphrase system according to any one of claims 1 to 7,
A paraphrase system comprising: a conversion unit configured to morphologically analyze an input character string to extract words and convert a headword into a paraphrase based on the extracted words.
文書中の任意の文字から1文字ずつ文字列を増やし、当該文字列を見出し語と比較し、一致した場合に、前記文字列を言い換え対象となる語句であると判定する変換部を備えたことを特徴とする言い換えシステム。In the paraphrase system according to any one of claims 1 to 7,
A character string is added one character at a time from an arbitrary character in the document, the character string is compared with a headword, and when a match is found, a conversion unit that determines that the character string is a phrase to be paraphrased is provided. Paraphrase system characterized by the following.
言い換え語に変換した箇所は、変換しない部分とは異なる表示を行うよう構成されたことを特徴とする言い換えシステム。In the paraphrase system according to any one of claims 1 to 9,
A paraphrase system characterized in that a portion converted into a paraphrase is displayed differently from a portion not converted.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003031181A JP2004240859A (en) | 2003-02-07 | 2003-02-07 | Paraphrasing system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003031181A JP2004240859A (en) | 2003-02-07 | 2003-02-07 | Paraphrasing system |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004240859A true JP2004240859A (en) | 2004-08-26 |
Family
ID=32957853
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003031181A Pending JP2004240859A (en) | 2003-02-07 | 2003-02-07 | Paraphrasing system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004240859A (en) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007094344A1 (en) * | 2006-02-14 | 2007-08-23 | Nec Corporation | Operator work supporting method and device, program, and recording medium |
JP2008204201A (en) * | 2007-02-20 | 2008-09-04 | Ricoh Co Ltd | Information processor and program |
JP2009076970A (en) * | 2007-09-18 | 2009-04-09 | Kddi Corp | Summary content generation device and computer program |
JP2009140073A (en) * | 2007-12-04 | 2009-06-25 | Nippon Telegr & Teleph Corp <Ntt> | Term difficulty level converting device and term difficulty level converting program |
JP2012221285A (en) * | 2011-04-11 | 2012-11-12 | Nippon Telegr & Teleph Corp <Ntt> | Document generation support method, document generation support device and document generation support program |
JP2018133026A (en) * | 2017-02-17 | 2018-08-23 | コニカミノルタ株式会社 | Document conversion device and document conversion program |
JP2019091287A (en) * | 2017-11-15 | 2019-06-13 | 株式会社東芝 | Support system, support method, program, and storage medium |
JP2021111056A (en) * | 2020-01-08 | 2021-08-02 | トヨタ自動車株式会社 | Agent device, agent system, and agent program |
-
2003
- 2003-02-07 JP JP2003031181A patent/JP2004240859A/en active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007094344A1 (en) * | 2006-02-14 | 2007-08-23 | Nec Corporation | Operator work supporting method and device, program, and recording medium |
JP2008204201A (en) * | 2007-02-20 | 2008-09-04 | Ricoh Co Ltd | Information processor and program |
JP2009076970A (en) * | 2007-09-18 | 2009-04-09 | Kddi Corp | Summary content generation device and computer program |
JP2009140073A (en) * | 2007-12-04 | 2009-06-25 | Nippon Telegr & Teleph Corp <Ntt> | Term difficulty level converting device and term difficulty level converting program |
JP2012221285A (en) * | 2011-04-11 | 2012-11-12 | Nippon Telegr & Teleph Corp <Ntt> | Document generation support method, document generation support device and document generation support program |
JP2018133026A (en) * | 2017-02-17 | 2018-08-23 | コニカミノルタ株式会社 | Document conversion device and document conversion program |
JP2019091287A (en) * | 2017-11-15 | 2019-06-13 | 株式会社東芝 | Support system, support method, program, and storage medium |
JP2021111056A (en) * | 2020-01-08 | 2021-08-02 | トヨタ自動車株式会社 | Agent device, agent system, and agent program |
JP7276165B2 (en) | 2020-01-08 | 2023-05-18 | トヨタ自動車株式会社 | Agent device, agent system, and agent program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Desagulier et al. | Corpus linguistics and statistics with R | |
US10157171B2 (en) | Annotation assisting apparatus and computer program therefor | |
US9075793B2 (en) | System and method of providing autocomplete recommended word which interoperate with plurality of languages | |
US20040029085A1 (en) | Summarisation representation apparatus | |
US6173253B1 (en) | Sentence processing apparatus and method thereof,utilizing dictionaries to interpolate elliptic characters or symbols | |
Stevens | Principles for the design of auditory interfaces to present complex information to blind people | |
US20090222257A1 (en) | Speech translation apparatus and computer program product | |
US20050055212A1 (en) | Electronic document processing apparatus | |
JP2003529845A (en) | Method and apparatus for providing multilingual translation over a network | |
JP2005157524A (en) | Question response system, and method for processing question response | |
KR20160029587A (en) | Method and apparatus of Smart Text Reader for converting Web page through TTS | |
KR20220084915A (en) | System for providing cloud based grammar checker service | |
JPH1125098A (en) | Information processor and method for obtaining link destination file and storage medium | |
JP7038884B1 (en) | User assist system | |
Aliero et al. | Systematic review on text normalization techniques and its approach to non-standard words | |
JP2004240859A (en) | Paraphrasing system | |
JPH11238051A (en) | Chinese input conversion processor, chinese input conversion processing method and recording medium stored with chinese input conversion processing program | |
JPS60254367A (en) | Sentence analyzer | |
JP2003296327A (en) | Translation server, genre-classified online machine translation method, and program therefor | |
JP2005250525A (en) | Chinese classics analysis support apparatus, interlingual sentence processing apparatus and translation program | |
JP2007171275A (en) | Language processor and language processing method | |
JP7418761B2 (en) | A device that generates mixed sentences of images and text | |
JP2002297592A (en) | Apparatus, method and program of matching for natural text | |
HaCohen-Kerner et al. | Improved Language Models for Word Prediction and Completion with Application to Hebrew | |
JP2006338124A (en) | Chinese character retrieval method, its system and its server |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060131 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060316 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070809 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070821 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071022 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20071218 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080513 |