JP3861529B2 - Document search method - Google Patents
Document search method Download PDFInfo
- Publication number
- JP3861529B2 JP3861529B2 JP29760499A JP29760499A JP3861529B2 JP 3861529 B2 JP3861529 B2 JP 3861529B2 JP 29760499 A JP29760499 A JP 29760499A JP 29760499 A JP29760499 A JP 29760499A JP 3861529 B2 JP3861529 B2 JP 3861529B2
- Authority
- JP
- Japan
- Prior art keywords
- character string
- document
- weight
- profile
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は、検索条件に基づいて文書データベースから文書を検索する方法および装置に関し、その検索の結果として得られた文書に対してユーザが評価を与え、その評価に基づき検索条件を変更する方法および装置に関する。
【0002】
【従来の技術】
近年、パーソナルコンピュータやインターネット等の普及に伴い、電子化文書が急激に増加している。このような状況において、ユーザが所望する情報を含んだ文書を高速かつ効率的に検索したいという要求が高まってきている。
【0003】
このような要求に応えるための検索技術としてレリバンスフィードバックとよばれる技術がある。この技術は、全文検索や類似文書検索による検索結果に対して、ユーザが「所望の文書である」か「所望の文書でない」かなどの評価をシステムに入力し、その評価情報を検索条件に反映させることにより、その後の検索結果を改善する技術である。
【0004】
具体的な処理の内容としては、例えば「"Information Retrieval",William B.Frakes / Rocardo Baeza-Yates, Prentice Hall PTR, 1992 p.p.241〜263」に示されるように、ユーザが所望であると評価した文書から抽出した単語に関する検索条件中の重みを加算し、所望でないと評価した文書から抽出された単語に関する検索条件中の重みを減算する方法がある。以下この技術を従来技術1と呼ぶ。検索条件中のある単語について、具体的な重みの加減算の方法の例を式1に示す。
【0005】
【数1】
【0006】
ここでW'はその単語の新たな重み、Wは元の重みであり、FP(i)は所望であると評価されたi番目の文書におけるその単語の出現回数、FN(j)は所望でないと評価されたj番目の文書におけるその単語の出現回数である。また、Pは所望であると評価された文書の数、Nは所望でないと評価された文書の数である。なお、α、βはパラメータである。ここで、この新たな重みW'は負になってもよく、そのような場合は、その単語が含まれる文書は類似度が下がることになる。
【0007】
この従来技術1によるレリバンスフィードバック処理の例を図2に示す。本図に示す例は、ユーザが「高校野球」に関する文書を所望する場合に、「サッカーに続き高校野球が開幕した」という文書を種文書に選んだ場合である。その後、「サッカー」に関するノイズ文書に対し「所望でない」と評価をして、システムに入力した場合である。この結果、本図に示すように「サッカー」という単語の重みが下がり、以後「サッカー」に関する文書の類似度を下げることができる。
【0008】
【発明が解決しようとする課題】
しかし、従来技術1による方式では、ユーザが「所望のものでない」といった評価をしたときに検索結果が改善しない場合がある。この問題を図3を用いて説明する。本図に示した例は、「高校野球」に関する文書を所望する場合に、「高校サッカーが開幕した・・・」といったノイズ文書に対し「所望の文書でない」と評価した場合である。このとき従来技術1によれば、このノイズ文書から「高校」「サッカー」「開幕」といった単語を抽出し、検索条件中のそれぞれの単語の重みを減算することになる。この場合、「サッカー」の重みを減算するだけでなく、「高校」という単語の重みまでも減算してしまう。その結果、更新された検索条件によって検索を行なうと、「高校野球」に関する文書の類似度が、「プロ野球」「社会人野球」といった文書の類似度よりも低くなってしまうという問題がある。
【0009】
このように、従来の方法によりユーザが「所望のものでない」と評価した文書から抽出した単語の重みを単純に減算すると、ユーザが所望とする概念を表す単語の重みまで減算してしまい、検索結果が改善しないという問題がある。
【0010】
本発明の目的は、ユーザが「所望のものでない」といった評価を与えた文書から抽出した情報のうち適切なものを使用して、検索結果を改善することにある。
【0011】
【課題を解決するための手段】
上記課題を解決するため、第1の手段として、
文字列に付与された重みを含む検索条件により文書データベースを検索し、該検索により得られた文書に対してユーザが入力した「所望である」または「所望でない」の評価を受け取り、上記検索の結果得られた文書から抽出した文字列の重みを上記評価に基づき変更して検索する文書検索方法において、
上記「所望である」と評価した文書から抽出した第一の文字列に正の重みを付与し、
上記「所望でない」と評価した文書から抽出した第二の文字列に負の重みを付与し、
第二の文字列のうち上記第一の文字列と一致するもとともに当該第一の文字列の重みが所定値以上ものを除外したものとその重みおよび上記第一の文字列とその重みとを含む検索条件を生成して検索する。
【0012】
この方法により、ユーザが所望のものと評価した文書から抽出した所望の内容を特徴付ける文字列に付与された負の重みにより検索精度を下げてしまうという課題を改善することができる。
【0013】
また、第2の手段は、
文字列に付与された重みを含む検索条件により文書データベースを検索し、該検索により得られた文書に対してユーザが入力した「所望である」または「所望でない」の評価を受け取り、上記検索の結果得られた文書から抽出した文字列の重みを上記評価に基づき変更して検索する文書検索方法において、
上記「所望である」と評価した文書から第一の文字列を抽出し、上記「所望でない」と評価した文書から抽出した文字列で上記第一の文字列と一致する場合は、当該第一の文字列の重みが所定値以下の場合は上記抽出した文字列を第二の文字列として抽出し、第二の文字列の重みを第一の文字列の重みよりも低くし、一致しない場合は上記抽出した文字列を第二の文字列として抽出し、第二の文字列の重みを第一の文字列の重みよりも低くする。
【0014】
この方法により、ユーザが所望のものと評価した文書から抽出した所望の内容を特徴付ける文字列に、負の重みを付与してしまい以降の検索精度を下げてしまうという課題を改善できる。
【0015】
【発明の実施の形態】
以下、本発明の第一の実施例について説明する。
【0016】
まず、本発明の第一の実施例のシステム構成を図1に示す。本実施例におけるシステムは、ディスプレイ100、キーボード101、中央演算処理装置(CPU)102、磁気ディスク装置105、フロッピディスクドライブ(FDD)106、主メモリ109およびこれらを結ぶバス108から構成される。
【0017】
磁気ディスク装置105は二次記憶装置の一つであり、テキスト103、出現頻度ファイル104が格納される。FDD106を介してフロッピディスク107に格納されている情報が、主メモリ109あるいは磁気ディスク装置105へ読み込まれる。
【0018】
主メモリ109には、システム制御プログラム110、文書登録プログラム111、検索制御プログラム112が格納される。検索制御プログラム112は、検索条件生成プログラム113、類似文書検索プログラム114、検索結果文書内容表示プログラム115、検索条件修正制御プログラム116、およびプロファイル重み調整プログラム119で構成される。ここで、検索条件修正制御プログラム116は、プロファイル更新プログラム117、および検索使用文字列選択プログラム118で構成される。
【0019】
また、正のプロファイル120、負のプロファイル121、総合プロファイル122、種文書保存エリア123、登録文書保存エリア124、特徴文字列保存エリア125、および表示用文書保存エリア126が同じく主メモリ109に確保される。
【0020】
ここで、正のプロファイル120、負のプロファイル121、総合プロファイル122とは後述する図15に示すように、いずれも幾つかの検索文字列とその重みを保持したデータである。正のプロファイル120には、ユーザが所望であると評価した文書から抽出した文字列が格納される。負のプロファイル121には、ユーザが所望のものでないと評価した文書から抽出した文字列が格納される。総合プロファイル122は、正負のプロファイルから選択された検索に用いる文字列が格納される。
【0021】
以下に、第一の実施例における、各プログラムの処理手順について説明する。
【0022】
まず、システム制御プログラム110の処理手順について図4のPAD(Problem Analysis Diagram)図を用いて説明する。
【0023】
システム制御プログラム110は、まずステップ401においてユーザがキーボードから入力したコマンドを解析する。
【0024】
次にステップ402において、このコマンドが文書登録のコマンドであると解析された場合には、ステップ404で文書登録プログラム111を起動して文書の登録を行なう。
【0025】
またステップ403において、検索実行のコマンドであると解析された場合には、ステップ405で検索制御プログラム112を起動して文書の検索を行なう。
【0026】
以上が、システム制御プログラム110の処理手順である。
【0027】
次に、図4に示したステップ404でシステム制御プログラムにより起動される、文書登録プログラム111について図5のPAD図を用いて説明する。
【0028】
文書登録プログラム111は、まずステップ501においてD106に挿入されたフロッピディスク107から登録すべき文書データを読み込み、これをテキスト103として磁気ディスク装置105に格納する。文書データは、フロッピディスク107を用いて入力するだけに限らず、通信回線やCD−ROM装置(図1には示していない)等を用いて他の装置から入力するような構成を取ることも可能である。
【0029】
次にステップ502で、検索対象文書から抽出される自立語の可能性がある文字列(以下、特徴文字列と呼ぶ)がどの文書に何回出現したかを高速に抽出するためのデータとして、出現頻度ファイル104を各登録対象文書について生成する。ここで出現頻度ファイルの生成方法としては「特開平11−143902号広報」に開示されている出現頻度ファイルの生成方法と同一の方法でも良いし、形態素解析等を用いて各文書中の単語を抽出する方法やニューラルネットワークの学習データを用いた方法でもかまわない。また、単純n−gramを抽出する方法であってもかまわない。
【0030】
以上が、文書登録プログラム111の処理手順である。
次に、図4に示したステップ405でシステム制御プログラムにより起動される、検索制御プログラム112の処理手順を図6のPAD図を用いて説明する。
【0031】
検索制御プログラム112は、まずステップ601において検索条件生成プログラム113を起動し、検索条件を生成する。
【0032】
次にステップ602において、ステップ603〜ステップ612の処理を、ステップ604においてユーザから検索セッションの終了が要求されたと解析されるまで繰り返す。
【0033】
この繰り返し処理では、まずステップ603において、類似文書検索プログラム114を起動し、ステップ601で生成された検索条件にもとづき類似文書検索を行なう。
【0034】
次にステップ604において、キーボードから入力されるコマンドを解析する。
【0035】
次にステップ605において、このコマンドが文書の内容表示コマンドであると解析された場合には、ステップ609で検索結果文書内容表示プログラム115を起動し、指定された検索結果文書の内容を表示する。
【0036】
次にステップ606において、検索結果文書に対するユーザの評価の入力コマンドであると解析された場合には、ステップ610で検索条件修正制御プログラム116を起動し、検索条件を修正する。
【0037】
次にステップ607において、プロファイルの内容調整コマンドであると解析された場合には、ステップ611でプロファイル重み調整プログラム119を起動し、プロファイルの内容を調整する。
【0038】
次にステップ608において、検索セッション終了コマンドであると解析された場合には、ステップ612で、正のプロファイル120、負のプロファイル121、および総合プロファイル122の内容をクリアし、ステップ602の繰り返しを終了する。
【0039】
以上が検索制御プログラム112の処理手順である。
【0040】
次に、図6に示したステップ601で検索制御プログラムにより起動される、検索条件生成プログラム113の処理手順を図7のPAD図を用いて説明する。
【0041】
検索条件生成プログラム113は、まずステップ701において、キーボード101から入力される種文書を読み込み、種文書保存エリア123に格納する。
【0042】
次にステップ702において、種文書保存エリア123に格納された種文書から特徴文字列を抽出し、種文書内出現回数を計数して、特徴文字列保存エリア125に格納する。
【0043】
ここで、特徴文字列を抽出する方法は、図5に示した文書登録プログラム111のステップ502における方法を用いても良いし、その他の方法を用いても良い。
【0044】
次にステップ703において、ステップ702で抽出した特徴文字列をステップ702で計数した出現回数と共に総合プロファイル122に書き込む。ここで総合プロファイル122は、後述する図15に示すように特徴文字列とその重みが保持されたものであり、後述するように類似文書検索プログラム114の入力として使用する。ここで重みとしては種文書内出現回数を用いるものとするが、他のものを用いても良い。また、ここで総合プロファイル122に書き込む文字列は、ステップ702で抽出した特徴文字列のうち重みの上位から所定数のものに限定しても良い。
【0045】
次にステップ704において、ステップ702で抽出した文字列をステップ702で計数した出現回数と共に正のプロファイル120に書き込む。この正のプロファイル120は、後述するように、検索結果文書に対しユーザが評価をした場合に、検索条件を修正する際に使用する。また、ここで正のプロファイル120に書き込む文字列は、ステップ702で抽出した特徴文字列のうち重みの上位のもの所定数に限定しても良い。
【0046】
以上が、検索条件生成プログラム113の処理手順である。
【0047】
次に、図6に示したステップ603で検索制御プログラムにより起動される、類似文書検索プログラム114の処理手順を図8のPAD図を用いて説明する。
【0048】
類似文書検索プログラム114は、まずステップ801において、図7に示したステップ703で検索条件生成プログラム113により生成された総合プロファイル122を読み込む。
【0049】
次にステップ802において、出現頻度ファイル104を読み込む。
【0050】
次にステップ803において、総合プロファイル122内の特徴文字列の重みと、出現頻度ファイル104内の各文書における該文字列の出現頻度から、テキスト103内の各文書の類似度を算出する。ここで類似度の算出式としては、例えば以下の式2のようなものを用いる。
【0051】
【数2】
【0052】
この式で、S(D)はテキスト103内の文書番号Dの類似度であり、Frq(i)は出現頻度ファイル104内の単語iの文書Dにおける出現頻度であり、w(i)は総合プロファイル内の単語iの重みである。ここで類似度算出式としては、これ以外のものを用いても構わない。
【0053】
次にステップ804において、テキスト103内の各文書の文書番号を類似度の順に降順にソートし、ディスプレイ100に出力する。ここで、類似度の上位所定件のみを出力するようにしても良いし、所定の類似度を上回るもののみを出力するようにしても良い。また、文書にタイトルのような属性があればそれを出力しても良い。
【0054】
以上が、類似文書検索プログラム114の処理手順である。
【0055】
次に、図6に示したステップ609で検索制御プログラムにより起動される、検索結果文書内容表示プログラム115の処理手順を図9のPAD図を用いて説明する。
【0056】
検索結果文書内容表示プログラム115は、まずステップ901において、ユーザがキーボード101から入力する文書番号を読み込む。
【0057】
次にステップ902において、ステップ901で入力された文書番号に該当する文書を登録文書保存エリア124に読み込む。
【0058】
次にステップ903において、ステップ904で該文書を最後まで読み込むまで以下に示すステップ904からステップ907の処理を繰り返す。
【0059】
ステップ903の繰り返し処理では、まずステップ904において、登録文書保存エリア124の文書の文字列を順次読み込み、総合プロファイル122に格納された文字列と照合する。
【0060】
次にステップ905において、ステップ904で読み込んだ文字列が総合プロファイル122において正の重みを持つ文字列と一致した場合には、ステップ908で「該文字列を赤色表示する」という情報を付与して表示用文書保存エリア126に追加する。ここで例えばHTML(HyperText Markup Language)の形式で表示する場合は、該文字列の前後に赤色表示を表すタグを挿入し、表示用文書保存エリア126に追加する。ここで、重みが所定値以下の文字列や、重みの上位所定件に含まれないものは、この処理の対象外にするなどしても構わない。また、表示色は別の色を用いても構わない。
【0061】
次にステップ906において、ステップ904で読み込んだ文字列が総合プロファイル122において負の重みを持つ文字列と一致した場合には、ステップ909で「該文字列を青色表示する」という情報を付与して表示用文書保存エリア126に追加する。ここで例えばHTMLの形式で表示する場合は、該文字列の前後に青色表示を表すタグを挿入し、表示用文書保存エリア126に追加する。ここで、重みが所定値以下の文字列や、重みの上位所定件に含まれないものは、この処理の対象外にするなどしても構わない。また、表示色はステップ908で指定する色以外の別の色を用いても構わない。
【0062】
次にステップ907において、ステップ904で読み込んだ文字列が総合プロファイル内の文字列と一致しない場合には、ステップ910で「該文字列を黒色表示する」という情報を付与して表示用文書保存エリア126に追加する。ここで例えばHTMLの形式で表示する場合は、該文字列の前後に黒色表示を表すタグを挿入し、表示用文書保存エリア126に追加する。ここで、表示色はステップ908、909で指定する以外の別の色を用いても構わない。
【0063】
次にステップ911において、表示用文書保存エリア126に保存された内容をディスプレイ100に表示する。
【0064】
以上が、検索結果文書内容表示プログラム115の処理手順である。
【0065】
次に、図6に示したステップ610で検索制御プログラムにより起動される、検索条件修正制御プログラム116の処理手順を図10のPAD図を用いて説明する。
【0066】
検索条件修正制御プログラム116は、まずステップ1001においてプロファイル更新プログラム117を起動し、正のプロファイル120および負のプロファイル121の内容を更新する。
【0067】
次にステップ1002において、検索使用文字列選択プログラム118を起動し、ステップ1001で更新された正のプロファイル120および負のプロファイル121の内容にもとづき、総合プロファイル122の内容を更新する。
【0068】
以上が検索条件修正プログラム116の処理手順である。
【0069】
次に、図6に示したステップ611で検索制御プログラムにより起動される、プロファイル重み調整プログラム119の処理手順を図11のPAD図を用いて説明する。
【0070】
プロファイル重み調整プログラム119は、まずステップ1101において、正のプロファイル120に格納された文字列とその重みを一覧表示する。
【0071】
次にステップ1102において、負のプロファイル121に格納された文字列とその重みを一覧表示する。
【0072】
次にステップ1103において、ユーザがキーボード101により入力した、ユーザが重みを変更したい文字列、またはいずれかのプロファイルに追加したい文字列と、その重みを取得する。ここで、正のプロファイルにある文字列に負の重みを付与しようとした場合や、負のプロファイルにある文字列に正の重みを付与しようとした場合には、ユーザへの警告を出力するようにする等しても良い。
【0073】
次にステップ1104において、ステップ1103で取得したとおりに正のプロファイル120または負のプロファイル121の内容を変更する。
【0074】
以上が、プロファイル重み調整プログラム119の処理手順である。
【0075】
ここで、図12にプロファイル重み調整プログラム119により、ユーザがプロファイルを調整する際にディスプレイ100に表示する入力画面の例を示す。正のプロファイル120の内容が1201に、負のプロファイル121の内容が1202に表示される。それぞれスクロールバー1203および1204を用いて、全ての内容を表示させることも可能である。ユーザがテキストボックス1205に重みを変更したい文字列、またはいずれかのプロファイルに追加したい文字列を入力し、重みを1206に入力して送信ボタン1207を押下する。ここで、重みを変更したい文字列文字列はテキストボックス1205に入力する形ではなく、表示される一覧の中からラジオボタン等により選択する形にしても良い。
【0076】
次に、図10に示したステップ1001で検索条件修正制御プログラム116により起動される、プロファイル更新プログラム117の処理手順を図13のPAD図を用いて説明する。
【0077】
プロファイル更新プログラム117は、まずステップ1301において、ユーザがキーボード101により入力した文書番号と、その文書番号の文書に対するユーザの評価(「所望のものであった」あるいは「所望のものでなかった」等の評価)を読み込む。
【0078】
次にステップ1302において、ステップ1301で読み込んだ文書番号に該当する文書を、テキスト103から登録文書保存エリア124に読み込む。
【0079】
次にステップ1303において、登録文書保存エリア124に格納された文書から特徴文字列を抽出し、該文書内出現回数を計数出現頻度ファイル104を参照することにより抽出し、共に特徴文字列保存エリア125に格納する。ここで、特徴文字列の抽出方法としては前掲の「特開平11−143902号広報」による方法を用いても良いし、形態素解析やニューラルネットワークによる学習データなどを用いる方法でもかまわない。
【0080】
次にステップ1304において、ステップ1301で読み込んだユーザの評価が正の評価であった場合には、ステップ1306において、特徴文字列保存エリア125内の文字列の出現回数を正のプロファイルの該当文字列の重みに加算する。このとき、正のプロファイル120に無い文字列の場合には、ステップ1303で読み込んだ出現回数を重みとして付与し、該文字列を正のプロファイル120に追加する。
【0081】
次にステップ1305において、ステップ1301で読み込んだユーザの評価が負の評価であった場合には、ステップ1307において、特徴文字列保存エリア125内の文字列の出現回数を負のプロファイルの該当文字列の重みから減算する。このとき、負のプロファイル121に無い文字列の場合には、ステップ1303で読み込んだ出現回数の負値を重みとして付与し、該文字列を負のプロファイル121に追加する。
【0082】
ここでステップ1306、1307において重みの加減算の方法は、ユーザの評価により調整しても良い。例えばステップ1306において、ユーザが「所望のものである」という評価をした場合には、その文書内の特徴文字列の出現回数を、そのまま正のプロファイル120の該文字列の重みに足し、「やや所望のものである」という評価をした場合には、その文書内の特徴文字列の出現回数の半数を、正のプロファイル120の該文字列の重みに足す、などといった方法にしても良い。また、ステップ1306およびステップ1307で重みを加減算する特徴文字列は、ステップ1303において抽出した出現回数の上位所定数に限定しても構わない。
【0083】
以上が、プロファイル更新プログラム117の処理手順である。
【0084】
次に、図10に示したステップ1002において検索条件修正制御プログラム116により起動される、検索使用文字列選択プログラム118の処理手順を図14のPAD図を用いて説明する。
【0085】
検索使用文字列選択プログラム118は、まずステップ1401において、総合プロファイル122の内容をクリアする。
【0086】
次にステップ1402において、正のプロファイル120の中の特徴文字列のうち重みの上位所定件を抽出し、その重みと共に総合プロファイル122に追加する。
【0087】
次にステップ1403において、負のプロファイル121の中の特徴文字列のうち、重みの絶対値の上位所定件のもので、かつ正のプロファイル120の中の特徴文字列の重みの上位所定件に含まれないものを、総合プロファイル122に追加する。
【0088】
ここでステップ1402、ステップ1403で使用する所定件数はそれぞれ異なった値でも良い。
【0089】
以上が検索使用文字列選択プログラム118の処理手順である。
【0090】
以上が、本実施例における各プログラムの処理手順である。
【0091】
以下、本実施例において検索結果文書に対しユーザが負の評価をした場合の、検索条件の修正および再検索処理の流れを、図15を用いて説明する。
【0092】
本図においては、ユーザが「高校野球」に関する文書を検索したいものとし、最初に種文書に指定した「サッカーに続き、高校野球が開幕した…」という文書1501から抽出された「サッカー」「高校」「野球」「開幕」という文字列1502が検索条件生成プログラム113により、正のプロファイル120に登録されているものとする。
【0093】
ここで、「高校サッカーが開幕した・・・」という検索結果文書1503に対して負の評価をした場合を想定する。
【0094】
まず、出現頻度ファイル104に格納された出現頻度情報のうち、ユーザが負の評価をした「高校サッカーが開幕した・・・」という文書1503から特徴文字列1504を抽出し、それぞれの特徴文字列の文書1503内の出現頻度とともに特徴文字列保存エリア125に読み込む。本図の例では、「高校」、「サッカー」、「開幕」、・・・という文字列とその出現頻度を読み込む。
【0095】
次に、特徴文字列保存エリア125の文字列のうち負のプロファイル121にある文字列についてはその重みを減算し、負のプロファイル121に無い文字列については、その出現回数の負の数を重みとして負のプロファイル121に登録する。本図の例では、「高校」、「サッカー」、「開幕」、…という文字列にそれぞれ重み「−4」、「−4」、「−1」、…を付与して負のプロファイル121に追加する。
【0096】
次に、正にプロファイル120の文字列のうち重みの上位所定数もの1505と、負のプロファイル121のうち重みの下位所定数1506に含まれ、かつ正のプロファイル120の文字列のうち上位所定数のもの1507に含まれないものを、総合プロファイル122に登録する。本図に示した例では、正のプロファイル120から「高校」と「野球」、負のプロファイル121から「サッカー」という文字列を選択し、総合プロファイル122に追加する。
【0097】
検索時には、この総合プロファイル122の文字列とその重みにより検索を行なう。本図に示した例では、負のプロファイル中の「高校」という文字列に関する重み値−4は検索に使用されないことになる。このことにより、「高校サッカー」の文書に負の評価をしても、「高校」という文字列の重みが下がらないため、「高校野球」よりも「プロ野球」の文書に高い類似度が算出されてしまうといった問題を防ぐことができる。
【0098】
以上が、検索結果文書に対しユーザが負の評価をした場合の、検索条件の修正および再検索処理の流れである。
【0099】
以上示したように本実施例によれば、ユーザが「所望のものでない」と評価した文書から抽出された文字列のうち、ユーザが「所望のものである」と評価した文書から抽出された文字列を、重みを下げる対象から除外する形態をとる。そのため、ユーザの所望ではない概念を表す文字列のみの重みを適切に減算することができる。したがって、ユーザが「所望のものでない」と評価した文書から抽出した文字列の重みを単純に減算すると、ユーザの所望の概念を表す文字列の重みまで減算してしまい、検索結果が改善しない、といった問題を解決できる。
【0100】
また、本実施例によれば、検索結果文書の内容を表示する際、検索条件データに保存されている文字列の重み正負により文字列を別の形式でハイライト表示する形態をとる。
【0101】
この方法により、ユーザは、検索結果文書がどの程度所望の内容を示しているかを視覚的に容易に判断できる。また、正の重みが付与された文字列や負の重みが付与された文字列として、どのようなものが所望文書やノイズ文書に含まれているかを見ることにより、次回以降のプロファイルの調整に役立てることができるようになる。
【0102】
また、本実施例によれば、検索条件データの中の文字列のうち検索に用いる文字列をユーザが選択、あるいはそれぞれの文字列の重みをユーザが調整する形態をとる。
【0103】
この方法により、ユーザの所望する内容を特徴付けるものでないものを、検索に使用することを防ぐことができ、適切な検索結果を得られるようになる。
【0104】
図13に示したプロファイル更新プログラムの処理おいては、ユーザが負の評価をした際に、評価対象文書から抽出した文字列を負のプロファイル121に追加した後、総合プロファイル122に追加する文字列を選択する形態をとっている。ここで図16に示すように、評価対象文書から抽出した文字列のうち、負のプロファイル121に追加する文字列を選択する形態をとっても良い。
【0105】
すなわち、図16のステップ1305において、ステップ1301で読み込んだユーザの評価が負の評価であった場合には、ステップ1307を実行する前に図16に示すプロファイル更新用文字列選択ステップ1601を実行しても良い。ここでプロファイル更新用文字列選択ステップ1601は、特徴文字列保存エリア125の文字列のうち、正のプロファイル120中の重みの上位のものに含まれるものを、特徴文字列保存エリア125からクリアするステップである。これにより、正のプロファイル120に追加されているユーザの所望の概念を表す文字列に、負の重みを付与し負のプロファイル121に追加してしまうことを防ぐことができる。
【0106】
以下、本発明の第二の実施例について説明する。
【0107】
第一の実施例においては、検索時に使用する文字列、または検索条件の修正時にプロファイルに追加する文字列をシステムが自動的に選択する。したがって、検索結果文書に対するユーザの評価が不適切な場合には、検索精度が向上しないという問題がある。
【0108】
以上の問題を解決するために、本発明の第二の実施例では、ユーザが正または負の評価をした文書から抽出される文字列を一覧表示し、正の重みまたは負の重みを付与する文字列をユーザが選択する手段を提供するものである。
【0109】
本実施例は図1に示す第一の実施例とほぼ同様の構成をとる。ここで図17に示すように検索条件修正制御プログラム116aはプロファイル更新用文字列ユーザ選択プログラム1701、プロファイル更新プログラム117a、および検索使用文字列選択プログラム118により構成される。また、図18に示すようにプロファイル更新プログラム117aの処理手順が、第一の実施例におけるプロファイル更新プログラム117と異なる。
【0110】
以下、第二の実施例における、プロファイル更新プログラム117aの処理手順について図18のPAD図を用いて説明する。
【0111】
まずプロファイル更新プログラム117aは、まずステップ1801において、ユーザがキーボード101により入力した文書番号と、その文書番号の文書に対するユーザの評価(「所望のものであった」あるいは「所望のものでなかった」等の評価)を読み込む。
【0112】
次にステップ1802において、ステップ1801で読み込んだ文書番号に該当する文書を、テキスト103から登録文書保存エリア124に読み込む。
【0113】
次にステップ1803において、登録文書保存エリア124に格納された文書から特徴文字列を抽出し、該文書内出現回数を計数出現頻度ファイル104を参照することにより抽出し、共に特徴文字列保存エリア125に格納する。ここで、特徴文字列の抽出方法としては前掲の「特開平11−143902号広報」による方法を用いても良いし、形態素解析やニューラルネットワークによる学習データなどを用いる方法でもかまわない。
【0114】
次にステップ1804において、プロファイル更新用文字列ユーザ選択プログラム1701を起動し、ステップ1803において読み込んだ文字列のうちユーザが選択しなかった文字列を、特徴文字列保存エリア125からクリアする。
【0115】
次にステップ1805において、ステップ1801で読み込んだユーザの評価が正の評価であった場合には、ステップ1807において、特徴文字列保存エリア125の文字列の出現回数を正のプロファイルの該当文字列の重みに加算する。このとき、正のプロファイル120に無い文字列の場合には、ステップ1803で読み込んだ出現回数を重みとして付与し、該文字列を正のプロファイル120に追加する。
【0116】
次にステップ1806において、ステップ1801で読み込んだユーザの評価が負の評価であった場合には、ステップ1808において、特徴文字列保存エリア125の文字列の出現回数を負のプロファイルの該当文字列の重みから減算する。このとき、負のプロファイル121に無い文字列の場合には、ステップ1803で読み込んだ出現回数の負値を重みとして付与し、該文字列を負のプロファイル121に追加する。
【0117】
ここでステップ1807、1808において重みの加減算の方法は、ユーザの評価により調整しても良い。例えばステップ1807において、ユーザが「所望のものである」という評価をした場合には、その文書内の特徴文字列の出現回数を、そのまま正のプロファイル120の該文字列の重みに足し、「やや所望のものである」という評価をした場合には、その文書内の特徴文字列の出現回数の半数を、正のプロファイル120の該文字列の重みに足す、などといった方法にしても良い。また、ステップ1807およびステップ1808で重みを加減算する特徴文字列は、ステップ1803において抽出した出現回数の上位所定数に限定しても構わない。
【0118】
以上が、プロファイル更新プログラム117aの処理手順である。
【0119】
次に図18に示したステップ1804でプロファイル更新プログラム117aにより起動される、プロファイル更新用文字列ユーザ選択プログラム1701の処理手順を、図19のPAD図を用いて説明する。
【0120】
まずステップ1901において、特徴文字列保存エリア125内の特徴文字列を一覧表示する。
【0121】
次にステップ1902において、ステップ1901で表示した文字列のうち、ユーザが選択しなかった文字列を取得し、該文字列の情報を特徴文字列保存エリア125からクリアする。
【0122】
以上がプロファイル更新用文字列ユーザ選択プログラム1701の処理手順である。
【0123】
ここで、プロファイル更新用文字列ユーザ選択プログラム1701により、ユーザがプロファイルに追加したい文字列を選択する画面の例を図20に示す。ウィンドウ2001に、ユーザが評価した文書から抽出される特徴文字列がチェックボックスと共に表示される。特徴文字列が多数ある場合はスクロールバー2002を用いてすべての文字列をウィンドウ2001内で参照することができる。ユーザは、ウィンドウ2001内の文字列のうち、プロファイルに追加したい文字列のチェックボックスをチェックし、送信ボタン2003を押下する。
【0124】
なお、文字列の選択方法は図20の例のようにチェックボックスを用いたものでも良いし、各文字列に識別番号を付与して識別番号と共に一覧表示するようにし、文字列の識別番号により選択する方法でも良い。
【0125】
以下、本実施例において検索結果テキストに対しユーザが負の評価をした場合の、検索条件の修正および再検索処理の流れを、図21を用いて説明する。
【0126】
本図においては、ユーザが「高校野球」に関するテキストを検索したいものとし、最初に種文書に指定した「サッカーに続き、高校野球が開幕した…」というテキスト2101から抽出されたサッカー」「高校」「野球」「開幕」という文字列2102が検索条件生成プログラム113により、正のプロファイル120に登録されているものとする。
【0127】
ここで、「高校サッカーの1回戦が・・・」という検索結果テキストに対して負の評価をした場合を想定する。
【0128】
まず、出現頻度ファイル104に格納された出現頻度情報のうち、ユーザが負の評価をした「高校サッカーの1回戦が・・・」という文書2103から特徴文字列2104を抽出し、それぞれの特徴文字列の文書2103内の出現頻度とともに特徴文字列保存エリア125に読み込む。本図の例では、「高校」、「サッカー」、「1回戦」、・・・という文字列とその出現頻度が読み込まれる。
【0129】
次に、前述した図20の画面でユーザが選択した文字列の情報を、文字列保存エリア125からクリアする。本図の例では、ユーザが「高校野球」に関するテキストを所望しており、「サッカー」に関するテキストは所望ではない。したがってユーザは「サッカー」という文字列のみに負の重みを加えると指定するものとする。このとき、文字列保存エリア125から、「高校」および「1回戦」という文字列とその重みをクリアする。
【0130】
次に、出現頻度情報2104のうち負のプロファイル121にある文字列についてはその重みを減算し、負のプロファイル121に無い文字列については、その出現回数の負の数を重みとして負のプロファイル121に登録する。本図の例では、「サッカー」という文字列に重み「−4」を付与して正のプロファイル120に追加する。
【0131】
次に、正にプロファイル120の文字列のうち重みの上位所定数もの2105と、負のプロファイル121のうち重みの下位所定数2106に含まれ、かつ正のプロファイル120の文字列のうち上位所定数のもの2107に含まれないものを、総合プロファイル122に登録する。検索時には、この総合プロファイル122の文字列とその重みにより検索を行なう。
【0132】
以上のように、本図に示した例では、「高校サッカーの1回戦が…」というテキストに負の評価をしても、「高校」という文字列の重みが下がらないため、「高校野球」よりも「プロ野球」のテキストに高い類似度が算出されてしまうといった問題を防ぐことができる。また、正のプロファイル120に無い「1回戦」という文字列の重みがさがらないため、「高校野球の1回戦」といったユーザが所望するテキストの類似度が下がってしまうといった問題を防ぐことができる。
【0133】
以上が、検索結果テキストに対しユーザが負の評価をした場合の、検索条件の修正および再検索処理の流れである。
【0134】
なお、本実施例において検索結果文書に対しユーザが正の評価をした場合にも同様に、正のプロファイルに追加する文字列を選択することができる。したがって、正の評価をした文書から抽出されるがユーザの概念を表す文字列ではない文字列に、正の重みを付与してしまうことを防ぐことができる。
【0135】
以上が、本発明の第二の実施例である。
【0136】
以上示したように本実施例によれば、ユーザが「所望のものでない」と評価した文書から抽出された文字列のうち、ユーザが所望する概念を表す文字列をユーザが指定することにより、該文字列を重みを下げる対象から除外する形態をとる。そのため、ユーザの所望ではない概念を表す文字列のみの重みを適切に減算することができる。したがって、ユーザが「所望のものでない」と評価した文書から抽出した文字列の重みを単純に減算すると、ユーザの所望の概念を表す文字列の重みまで減算してしまい、検索結果が改善しない、といった問題を解決できる。
【0137】
また、ユーザが「所望のものである」と評価した文書から抽出された文字列のうち、ユーザが所望する概念を表さない文字列をユーザが指定することにより、該文字列を重みを上げる対象から除外する形態をとる。そのため、ユーザの所望する概念を表す文字列のみの重みを適切に加算することができる。したがって、ユーザが「所望のものである」と評価した文書から抽出した文字列の重みを単純に加算すると、ユーザの所望の概念を表さない文字列の重みまで加算してしまい、検索結果が改善しない、といった問題を解決できる。
【0138】
なお、第一、第二の実施例において、ひとつの検索結果文書に対しユーザが評価を入力し、その評価を反映した検索結果を出力するようにしたが、複数の検索結果文書に対しそれぞれ異なった評価を一度に入力し、それらの評価を反映した検索結果を出力するようにしても構わない。
【0139】
また、第一、第二の実施例において、最初に種文書を設定し、その種文書に類似した内容を持つ文書を検索するものとしたが、最初にキーワードを設定する全文検索を行なう形式にしても良い。その場合には、図7に示した検索条件生成プログラム113のステップ702、703のかわりに、入力したキーワードを所定の重みを付与して正のプロファイル120、および総合プロファイル122に追加すれば良い。
【0140】
本実施例によれば、ユーザの所望の概念を表す単語の重みを減算しないため、ユーザが「所望のものでない」といった評価を与えた検索結果文書から抽出した情報をもとに検索結果を改善することができる。
【0141】
【発明の効果】
本発明によれば、ユーザが「所望のものでない」といった評価を与えた文書から抽出した情報のうち適切なものを使用して、検索結果を改善することができる。
【図面の簡単な説明】
【図1】本発明の第一の実施例の構成を示す図である。
【図2】従来技術によるレリバンスフィードバック処理の例を示す図である。
【図3】従来技術によるレリバンスフィードバック処理により検索結果が改善しない例を示す図である。
【図4】本発明の第一の実施例におけるシステム制御プログラム110の処理手順を示すPAD図である。
【図5】本発明の第一の実施例における文書登録プログラム111の処理手順を示すPAD図である。
【図6】本発明の第一の実施例における検索制御プログラム112の処理手順を示すPAD図である。
【図7】本発明の第一の実施例における検索条件生成プログラム113の処理手順を示すPAD図である。
【図8】本発明の第一の実施例における類似文書検索プログラム114の処理手順を示すPAD図である。
【図9】本発明の第一の実施例における検索結果文書内容表示プログラム115の処理手順を示すPAD図である。
【図10】本発明の第一の実施例における検索条件修正制御プログラム116の処理手順を示すPAD図である。
【図11】本発明の第一の実施例におけるプロファイル重み調整プログラム119の処理手順を示すPAD図である。
【図12】本発明の第一の実施例において、ユーザがプロファイルを調整する際にディスプレイ100に表示する入力画面の例を示す図である。
【図13】本発明の第一の実施例におけるプロファイル更新プログラム117の処理手順を示すPAD図である。
【図14】本発明の第一の実施例における検索使用文字列選択プログラム118の処理手順を示すPAD図である。
【図15】本発明の第一の実施例において、検索結果文書に対しユーザが負の評価をした場合の、検索条件の修正および再検索処理の流れを示す図である。
【図16】本発明の第一の実施例におけるプロファイル更新プログラムの処理117の処理の一形態を示すPAD図である。
【図17】本発明の第二の実施例における検索条件修正プログラム116aの構成を示すPAD図である。
【図18】本発明の第二の実施例におけるプロファイル更新プログラム117aの処理手順を示すPAD図である。
【図19】本発明の第二の実施例におけるプロファイル更新用文字列ユーザ選択プログラム1701の処理手順を示すPAD図である。
【図20】本発明の第二の実施例において、ユーザがプロファイルに追加したい文字列を選択する画面の例を示すPAD図である。
【図21】本発明の第二の実施例において、検索結果文書に対しユーザが負の評価をした場合の、検索条件の修正および再検索処理の流れを示す図である。
【符号の説明】
100 ディスプレイ
101 キーボード
102 中央演算処理装置(CPU)
103 テキスト
104 出現頻度ファイル
105 磁気ディスク装置
106 フロッピディスクドライブ(FDD)
107 フロッピディスク
108 バス
109 主メモリ
110 システム制御プログラム
111 文書登録プログラム
112 検索制御プログラム
113 検索条件生成プログラム
114 類似文書検索プログラム
115 検索結果文書内容表示プログラム
116 検索条件修正制御プログラム
117 プロファイル更新プログラム
118 検索使用文字列選択プログラム
119 プロファイル重み調整プログラム
120 正のプロファイル
121 負のプロファイル
122 総合プロファイル
123 種文書保存エリア
124 登録文書保存エリア
125 特徴文字列保存エリア
126 表示文書保存エリア[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a method and an apparatus for searching a document from a document database based on a search condition, a method in which a user gives an evaluation to a document obtained as a result of the search, and the search condition is changed based on the evaluation. Relates to the device.
[0002]
[Prior art]
In recent years, with the spread of personal computers, the Internet, etc., digitized documents have been rapidly increasing. Under such circumstances, there is an increasing demand for searching for a document including information desired by a user at high speed and efficiently.
[0003]
There is a technique called relevance feedback as a search technique for meeting such a demand. In this technique, a user inputs an evaluation such as “desired document” or “not a desired document” into a system for a search result by full-text search or similar document search, and uses the evaluation information as a search condition. This is a technique for improving the subsequent search results by reflecting them.
[0004]
For example, as shown in “Information Retrieval”, William B. Frakes / Rocardo Baeza-Yates, Prentice Hall PTR, 1992 pp 241 to 263, the content of the specific processing is a document evaluated by the user as desired. There is a method of adding the weights in the search conditions related to the words extracted from, and subtracting the weights in the search conditions related to the words extracted from the document evaluated as undesired. Hereinafter, this technique is referred to as
[0005]
[Expression 1]
[0006]
Where W ′ is the new weight of the word, W is the original weight, FP (i) is the number of occurrences of the word in the i-th document evaluated as desired, and FN (j) is not desired The number of occurrences of the word in the jth document evaluated as. P is the number of documents evaluated as desired, and N is the number of documents evaluated as not desired. Α and β are parameters. Here, the new weight W ′ may be negative. In such a case, the similarity of the document including the word is lowered.
[0007]
An example of relevance feedback processing according to the
[0008]
[Problems to be solved by the invention]
However, in the method according to the
[0009]
Thus, if the weight of a word extracted from a document that the user has evaluated as “not desired” is simply subtracted by the conventional method, the weight of the word representing the concept desired by the user is subtracted and the search is performed. There is a problem that the result does not improve.
[0010]
An object of the present invention is to improve a search result by using appropriate information extracted from a document given an evaluation such as “not desired” by a user.
[0011]
[Means for Solving the Problems]
In order to solve the above problem, as a first means,
The document database is searched according to the search condition including the weight assigned to the character string, and the evaluation of “desired” or “not desired” input by the user with respect to the document obtained by the search is received. In a document search method for searching by changing the weight of a character string extracted from a document obtained as a result based on the above evaluation,
A positive weight is given to the first character string extracted from the document evaluated as “desirable”,
A negative weight is given to the second character string extracted from the document evaluated as “not desired”,
Of the second character string, the one that matches the first character string and the weight of the first character string excluding a predetermined value or more, the weight, and the first character string and the weight Generate a search condition that contains and search.
[0012]
By this method, it is possible to improve the problem that the search accuracy is lowered due to the negative weight given to the character string characterizing the desired content extracted from the document evaluated as desired by the user.
[0013]
The second means is:
The document database is searched according to the search condition including the weight assigned to the character string, and the evaluation of “desired” or “not desired” input by the user with respect to the document obtained by the search is received. In a document search method for searching by changing the weight of a character string extracted from a document obtained as a result based on the above evaluation,
When the first character string is extracted from the document evaluated as “desirable” and the character string extracted from the document evaluated as “not desired” matches the first character string, the first character string is extracted. If the weight of the character string is less than or equal to the predetermined value, the extracted character string is extracted as the second character string, and the weight of the second character string is lower than the weight of the first character string. Extracts the extracted character string as a second character string, and makes the weight of the second character string lower than the weight of the first character string.
[0014]
By this method, it is possible to improve the problem that a negative weight is given to a character string characterizing a desired content extracted from a document evaluated as desired by the user, and the subsequent search accuracy is lowered.
[0015]
DETAILED DESCRIPTION OF THE INVENTION
The first embodiment of the present invention will be described below.
[0016]
First, the system configuration of the first embodiment of the present invention is shown in FIG. The system according to the present embodiment includes a
[0017]
The
[0018]
The
[0019]
A
[0020]
Here, the
[0021]
The processing procedure of each program in the first embodiment will be described below.
[0022]
First, a processing procedure of the
[0023]
The
[0024]
If it is determined in
[0025]
If it is determined in
[0026]
The processing procedure of the
[0027]
Next, the
[0028]
In step 501, the
[0029]
Next, in step 502, as data for extracting at a high speed how many times a character string (hereinafter referred to as a characteristic character string) that may be an independent word extracted from a search target document appears in: An appearance frequency file 104 is generated for each registration target document. Here, the appearance frequency file generation method may be the same as the appearance frequency file generation method disclosed in “Publication of Japanese Patent Application Laid-Open No. 11-143902”, or a word in each document may be obtained using morphological analysis or the like. An extraction method or a method using learning data of a neural network may be used. Also, a method of extracting a simple n-gram may be used.
[0030]
The processing procedure of the
Next, the processing procedure of the
[0031]
The
[0032]
Next, in
[0033]
In this iterative process, first, in
[0034]
Next, in
[0035]
Next, when it is analyzed in
[0036]
In
[0037]
In
[0038]
Next, when it is analyzed in
[0039]
The processing procedure of the
[0040]
Next, the processing procedure of the search
[0041]
First, in
[0042]
Next, in step 702, a characteristic character string is extracted from the seed document stored in the seed
[0043]
Here, as a method of extracting the characteristic character string, the method in step 502 of the
[0044]
Next, in
[0045]
Next, in step 704, the character string extracted in step 702 is written in the
[0046]
The processing procedure of the search
[0047]
Next, the processing procedure of the similar
[0048]
First, in
[0049]
Next, in
[0050]
Next, in
[0051]
[Expression 2]
[0052]
In this expression, S (D) is the similarity of the document number D in the
[0053]
In step 804, the document numbers of the documents in the
[0054]
The processing procedure of the similar
[0055]
Next, the processing procedure of the search result document
[0056]
The search result document
[0057]
In step 902, the document corresponding to the document number input in step 901 is read into the registered
[0058]
Next, in
[0059]
In the repetitive processing in
[0060]
Next, in step 905, if the character string read in
[0061]
Next, in step 906, if the character string read in
[0062]
Next, in step 907, if the character string read in
[0063]
In
[0064]
The processing procedure of the search result document
[0065]
Next, the processing procedure of the search condition
[0066]
The search condition
[0067]
Next, in step 1002, the search use character string selection program 118 is started, and the contents of the
[0068]
The processing procedure of the search
[0069]
Next, the processing procedure of the profile
[0070]
First, in step 1101, the profile
[0071]
In
[0072]
Next, in
[0073]
Next, in step 1104, the contents of the
[0074]
The processing procedure of the profile
[0075]
Here, FIG. 12 shows an example of an input screen displayed on the
[0076]
Next, the processing procedure of the
[0077]
In
[0078]
In
[0079]
Next, in step 1303, a characteristic character string is extracted from the document stored in the registered
[0080]
In
[0081]
Next, in
[0082]
Here, the weight addition / subtraction method in
[0083]
The processing procedure of the
[0084]
Next, the processing procedure of the search use character string selection program 118 started by the search condition
[0085]
The search use character string selection program 118 first clears the contents of the
[0086]
Next, in
[0087]
Next, in
[0088]
Here, the predetermined numbers used in
[0089]
The processing procedure of the search use character string selection program 118 has been described above.
[0090]
The above is the processing procedure of each program in the present embodiment.
[0091]
The flow of search condition correction and re-search processing when the user negatively evaluates the search result document in this embodiment will be described below with reference to FIG.
[0092]
In this figure, it is assumed that the user wants to search for a document related to “high school baseball”, and “soccer” “high school” extracted from the document 1501 “high school baseball started after soccer” specified first as the seed document. It is assumed that character strings 1502 “baseball” and “opening” are registered in the
[0093]
Here, it is assumed that a negative evaluation is made on the
[0094]
First, out of the appearance frequency information stored in the appearance frequency file 104, a
[0095]
Next, the weight is subtracted for the character string in the
[0096]
Next, the upper
[0097]
At the time of search, the search is performed based on the character string of the
[0098]
The above is the flow of search condition correction and re-search processing when the user negatively evaluates the search result document.
[0099]
As described above, according to this embodiment, the character string extracted from the document evaluated by the user as “not desired” is extracted from the document evaluated by the user as “desired”. The character string is excluded from the object whose weight is to be reduced. Therefore, it is possible to appropriately subtract the weight of only the character string representing the concept that is not desired by the user. Therefore, simply subtracting the weight of the character string extracted from the document that the user has evaluated as “not desired” subtracts the weight of the character string representing the user's desired concept, and the search result does not improve. Can be solved.
[0100]
Further, according to the present embodiment, when displaying the contents of the search result document, the character string is highlighted in another format according to the weight of the character string stored in the search condition data.
[0101]
By this method, the user can easily visually determine how much the search result document shows the desired content. In addition, it is possible to adjust the profile from the next time on by checking what is included in the desired document or noise document as a character string with a positive weight or a character string with a negative weight. It can be useful.
[0102]
Further, according to the present embodiment, the user selects a character string to be used for the search among the character strings in the search condition data, or the user adjusts the weight of each character string.
[0103]
By this method, it is possible to prevent the use of what does not characterize the contents desired by the user for the search, and an appropriate search result can be obtained.
[0104]
In the processing of the profile update program shown in FIG. 13, when a user makes a negative evaluation, a character string extracted from the evaluation target document is added to the
[0105]
That is, if the user's evaluation read in
[0106]
The second embodiment of the present invention will be described below.
[0107]
In the first embodiment, the system automatically selects a character string to be used for search or a character string to be added to the profile when the search condition is corrected. Therefore, when the user's evaluation for the search result document is inappropriate, there is a problem that the search accuracy is not improved.
[0108]
In order to solve the above problems, in the second embodiment of the present invention, a list of character strings extracted from a document that has been evaluated positively or negatively by a user is displayed, and a positive weight or negative weight is given. A means for a user to select a character string is provided.
[0109]
This embodiment has substantially the same configuration as the first embodiment shown in FIG. Here, as shown in FIG. 17, the search condition
[0110]
Hereinafter, the processing procedure of the profile update program 117a in the second embodiment will be described with reference to the PAD diagram of FIG.
[0111]
First, the profile update program 117a first determines in
[0112]
In step 1802, the document corresponding to the document number read in
[0113]
In step 1803, a feature character string is extracted from the document stored in the registered
[0114]
Next, in
[0115]
In
[0116]
In
[0117]
Here, the weight addition / subtraction method in
[0118]
The processing procedure of the profile update program 117a has been described above.
[0119]
Next, the processing procedure of the profile update character string
[0120]
First, in
[0121]
Next, in step 1902, the character string not selected by the user is acquired from the character strings displayed in
[0122]
The processing procedure of the profile update character string
[0123]
Here, an example of a screen for selecting a character string that the user wants to add to the profile by the profile update character string
[0124]
The method for selecting a character string may use a check box as in the example of FIG. 20, or an identification number is assigned to each character string so that it is displayed together with the identification number, depending on the identification number of the character string. The method of selecting may be used.
[0125]
Hereinafter, the flow of search condition correction and re-search processing when the user negatively evaluates the search result text in this embodiment will be described with reference to FIG.
[0126]
In this figure, it is assumed that the user wants to search for a text related to “high school baseball”, and “soccer extracted from the text 2101“ high school baseball has started after soccer ”specified in the seed document first,“ high school ”. It is assumed that
[0127]
Here, it is assumed that a negative evaluation is made on the search result text “The first round of high school soccer is ...”.
[0128]
First, from the appearance frequency information stored in the appearance frequency file 104, the
[0129]
Next, the information on the character string selected by the user on the screen of FIG. 20 described above is cleared from the character
[0130]
Next, the weight of the character string in the
[0131]
Next, the upper
[0132]
As described above, in the example shown in this figure, even if a negative evaluation is made on the text “High school soccer first round ...”, the string of “high school” does not lose weight, so “high school baseball” It is possible to prevent a problem that a high similarity is calculated for the text of “professional baseball”. Moreover, since the weight of the character string “first round” not included in the
[0133]
The above is the flow of search condition correction and re-search processing when the user negatively evaluates the search result text.
[0134]
In this embodiment, even when the user makes a positive evaluation with respect to the search result document, it is possible to select a character string to be added to the positive profile. Therefore, it is possible to prevent a positive weight from being assigned to a character string that is extracted from a document that has been positively evaluated but is not a character string that represents the concept of the user.
[0135]
The above is the second embodiment of the present invention.
[0136]
As described above, according to the present embodiment, the user designates a character string representing a concept desired by the user among the character strings extracted from the document evaluated by the user as “not desired”. The character string is excluded from the object whose weight is to be reduced. Therefore, it is possible to appropriately subtract the weight of only the character string representing the concept that is not desired by the user. Therefore, simply subtracting the weight of the character string extracted from the document that the user has evaluated as “not desired” subtracts the weight of the character string representing the user's desired concept, and the search result does not improve. Can be solved.
[0137]
Further, the user designates a character string that does not represent the concept desired by the user among the character strings extracted from the document that the user has evaluated as “desired”, thereby increasing the weight of the character string. Take the form of exclusion from the subject. Therefore, it is possible to appropriately add the weight of only the character string representing the concept desired by the user. Therefore, if the weight of the character string extracted from the document evaluated by the user as “desired” is simply added, the weight of the character string that does not represent the user's desired concept is also added, and the search result is Can solve the problem of not improving.
[0138]
In the first and second embodiments, the user inputs an evaluation for one search result document, and the search result reflecting the evaluation is output. It is also possible to input the evaluations at a time and output the search results reflecting those evaluations.
[0139]
In the first and second embodiments, a seed document is set first, and a document having contents similar to the seed document is searched. However, a full text search is first performed in which a keyword is set. May be. In that case, instead of
[0140]
According to the present embodiment, since the weight of the word representing the user's desired concept is not subtracted, the search result is improved based on the information extracted from the search result document given by the user as “not desired”. can do.
[0141]
【The invention's effect】
According to the present invention, it is possible to improve a search result by using appropriate information extracted from a document that the user gave an evaluation of “not desired”.
[Brief description of the drawings]
FIG. 1 is a diagram showing a configuration of a first exemplary embodiment of the present invention.
FIG. 2 is a diagram illustrating an example of relevance feedback processing according to a conventional technique;
FIG. 3 is a diagram illustrating an example in which search results are not improved by relevance feedback processing according to the conventional technology;
FIG. 4 is a PAD diagram showing the processing procedure of the
FIG. 5 is a PAD showing a processing procedure of the
FIG. 6 is a PAD diagram showing a processing procedure of the
FIG. 7 is a PAD showing the processing procedure of the search
FIG. 8 is a PAD showing the processing procedure of the similar
FIG. 9 is a PAD showing the processing procedure of the search result document
FIG. 10 is a PAD showing the processing procedure of the search condition
FIG. 11 is a PAD showing the processing procedure of the profile
FIG. 12 is a diagram showing an example of an input screen displayed on the display when the user adjusts the profile in the first embodiment of the present invention.
FIG. 13 is a PAD showing the processing procedure of the
FIG. 14 is a PAD showing a processing procedure of a search use character string selection program 118 in the first embodiment of the present invention.
FIG. 15 is a diagram showing the flow of search condition correction and re-search processing when a user negatively evaluates a search result document in the first embodiment of the present invention.
FIG. 16 is a PAD showing one form of processing 117 of the profile update program in the first embodiment of the present invention.
FIG. 17 is a PAD diagram showing a configuration of a search
FIG. 18 is a PAD showing the processing procedure of the profile update program 117a in the second embodiment of the present invention.
FIG. 19 is a PAD showing a processing procedure of a profile update character string
FIG. 20 is a PAD showing an example of a screen for selecting a character string that the user wants to add to the profile in the second embodiment of the present invention.
FIG. 21 is a diagram showing the flow of search condition correction and re-search processing when a user negatively evaluates a search result document in the second embodiment of the present invention.
[Explanation of symbols]
100 display
101 keyboard
102 Central processing unit (CPU)
103 text
104 Appearance frequency file
105 Magnetic disk drive
106 floppy disk drive (FDD)
107 floppy disk
108 Bus
109 Main memory
110 System control program
111 Document registration program
112 Search control program
113 Search condition generation program
114 Similar Document Search Program
115 Search result document content display program
116 Search condition correction control program
117 Profile update program
118 Search use character string selection program
119 Profile weight adjustment program
120 positive profile
121 Negative profile
122 General Profile
123 document storage area
124 Registered document storage area
125 Character string storage area
126 Display Document Storage Area
Claims (2)
前記処理装置が、前記否評価を受けた文書から抽出した第二の文字列から第一の文字列と一致する文字列を削除し、削除されなかった第二の文字列に対してのみ前記文字列の重みから前記文字列の否評価を受けた文書における出現数に応じた所定値を減算することにより前記検索条件を修正することを特徴とした文書検索方法。A search condition including a character string and its weight is input, and a user's suitability evaluation for a document searched based on the search condition is acquired. A predetermined value corresponding to the number of occurrences in the document that has been properly evaluated for the character string is added to the weight of the character string, and the weight of the character string is applied to the second character string extracted from the document that has been rejected In the document search method by the system having a processing device for correcting the search condition by subtracting a predetermined value according to the number of appearances in the document that has received the negative evaluation of the character string from
The processing device deletes the character string that matches the first character string from the second character string extracted from the document that has received the negative evaluation, and the character is applied only to the second character string that has not been deleted. A document search method, wherein the search condition is corrected by subtracting a predetermined value corresponding to the number of appearances in a document that has been evaluated for rejection of the character string from a column weight.
前記処理装置が、前記否評価を受けた文書から抽出した第二の文字列から所定の値より大きい重みを持つ第一の文字列と一致する文字列を削除し、削除されなかった第二の文字列に対してのみ前記文字列の重みから前記文字列の否評価を受けた文書における出現数に応じた所定値を減算することにより前記検索条件を修正することを特徴とした文書検索方法。A search condition including a character string and its weight is input, and a user's suitability evaluation for a document searched based on the search condition is acquired. A predetermined value corresponding to the number of occurrences in the document that has been properly evaluated for the character string is added to the weight of the character string, and the weight of the character string is applied to the second character string extracted from the document that has been rejected In the document search method by the system having a processing device for correcting the search condition by subtracting a predetermined value according to the number of appearances in the document that has received the negative evaluation of the character string from
The processing device deletes a character string that matches the first character string having a weight greater than a predetermined value from the second character string extracted from the document that has received the negative evaluation, and the second character string that has not been deleted. A document search method, wherein the search condition is corrected by subtracting a predetermined value corresponding to the number of appearances in a document that has received a negative evaluation of the character string from the weight of the character string only for the character string.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP29760499A JP3861529B2 (en) | 1999-10-20 | 1999-10-20 | Document search method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP29760499A JP3861529B2 (en) | 1999-10-20 | 1999-10-20 | Document search method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001117937A JP2001117937A (en) | 2001-04-27 |
JP3861529B2 true JP3861529B2 (en) | 2006-12-20 |
Family
ID=17848720
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP29760499A Expired - Fee Related JP3861529B2 (en) | 1999-10-20 | 1999-10-20 | Document search method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3861529B2 (en) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003030224A (en) * | 2001-07-17 | 2003-01-31 | Fujitsu Ltd | Device for preparing document cluster, system for retrieving document and system for preparing faq |
JP4003468B2 (en) | 2002-02-05 | 2007-11-07 | 株式会社日立製作所 | Method and apparatus for retrieving similar data by relevance feedback |
EP2043326A3 (en) * | 2002-02-14 | 2009-04-22 | Avaya Technology Corp. | Presence tracking and name space interconnection techniques |
US7177863B2 (en) * | 2002-04-26 | 2007-02-13 | International Business Machines Corporation | System and method for determining internal parameters of a data clustering program |
JP2005018617A (en) * | 2003-06-27 | 2005-01-20 | Ricoh Co Ltd | Document retrieval device |
JP4292922B2 (en) * | 2003-09-09 | 2009-07-08 | 株式会社日立製作所 | Document search system and method |
US20060074864A1 (en) * | 2004-09-24 | 2006-04-06 | Microsoft Corporation | System and method for controlling ranking of pages returned by a search engine |
JP2009075630A (en) * | 2007-09-18 | 2009-04-09 | Hitachi Software Eng Co Ltd | Information retrieval system |
US8914604B2 (en) * | 2012-06-12 | 2014-12-16 | The Boeing Company | Creating optimal comparison criterion within associative memories |
WO2018167830A1 (en) * | 2017-03-13 | 2018-09-20 | 日本電気株式会社 | Dialog device, dialog system, and computer-readable recording medium |
JP6549173B2 (en) * | 2017-03-21 | 2019-07-24 | 株式会社日立製作所 | Computer system and text data search method |
JP7229761B2 (en) * | 2018-07-06 | 2023-02-28 | 株式会社日立システムズ | Information processing device, inspection evaluation system and inspection evaluation method |
JP6879983B2 (en) * | 2018-09-11 | 2021-06-02 | Kddi株式会社 | Information extraction device, information extraction method and information extraction program |
CN112352229A (en) | 2019-04-08 | 2021-02-09 | 株式会社艾飒木兰 | Document information evaluation device, document information evaluation method, and document information evaluation program |
JP2023056971A (en) * | 2021-10-08 | 2023-04-20 | 大塚化学株式会社 | Content processing method and content processing program |
JP7326400B2 (en) * | 2021-10-08 | 2023-08-15 | 大塚化学株式会社 | Content processing method and content processing program |
WO2024110824A1 (en) * | 2022-11-24 | 2024-05-30 | 株式会社半導体エネルギー研究所 | Document search assistance method, program, and document search assistance system |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2773682B2 (en) * | 1995-05-26 | 1998-07-09 | 日本電気株式会社 | Applicable feedback device |
JP3674119B2 (en) * | 1995-11-29 | 2005-07-20 | 株式会社日立製作所 | Similar document search method |
JP3512926B2 (en) * | 1995-11-30 | 2004-03-31 | 株式会社東芝 | Information filtering device |
JP3606401B2 (en) * | 1995-11-30 | 2005-01-05 | 富士通株式会社 | Document retrieval apparatus and method |
JP3497712B2 (en) * | 1997-12-01 | 2004-02-16 | 株式会社エヌ・ティ・ティ・データ | Information filtering method, apparatus and system |
-
1999
- 1999-10-20 JP JP29760499A patent/JP3861529B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2001117937A (en) | 2001-04-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3861529B2 (en) | Document search method | |
JP3870666B2 (en) | Document retrieval method and apparatus, and recording medium recording the processing program | |
US6671683B2 (en) | Apparatus for retrieving similar documents and apparatus for extracting relevant keywords | |
CN105426360B (en) | A kind of keyword abstraction method and device | |
US8046370B2 (en) | Retrieval of structured documents | |
US9244908B2 (en) | Generation of a semantic model from textual listings | |
US20020143797A1 (en) | File classification management system and method used in operating systems | |
US20050021545A1 (en) | Very-large-scale automatic categorizer for Web content | |
JPH08272826A (en) | Method and device for working document | |
US20090049144A1 (en) | Apparatus, method and computer program product for processing email, and apparatus for searching email | |
US20110258227A1 (en) | Method and system for searching documents | |
WO2022121163A1 (en) | User behavior tendency identification method, apparatus, and device, and storage medium | |
US7162413B1 (en) | Rule induction for summarizing documents in a classified document collection | |
JP2669601B2 (en) | Information retrieval method and system | |
US6546383B1 (en) | Method and device for document retrieval | |
JP3915488B2 (en) | Document search system | |
JP2000200281A (en) | Device and method for information retrieval and recording medium where information retrieval program is recorded | |
JP3583631B2 (en) | Information mining method, information mining device, and computer-readable recording medium recording information mining program | |
US8112707B2 (en) | Capturing reading styles | |
CN111125319A (en) | Enterprise basic law intelligent consultation terminal, system and method | |
JP3743204B2 (en) | Data analysis support method and apparatus | |
JP4426893B2 (en) | Document search method, document search program, and document search apparatus for executing the same | |
JP2003256472A (en) | System for retrieving document | |
JP2004280756A (en) | Patent specification analysis system, patent specification analysis method, computer-readable recording medium recording program, and program | |
JP2003141129A (en) | Document classifying device, document classifying method, program for executing the method by computer, and computer readable recording medium recording the program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20051226 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060104 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060227 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060322 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20060417 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060606 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060803 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060905 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060918 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091006 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101006 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111006 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121006 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121006 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131006 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |