1. はじめに
ネットワーク技術などの普及にともない、情報が爆発的に増大し、大量の情報の中から有益な情報を迅速に選択することが求められている。このような要求に対し、テキストデータを対象とした検索システムが提案され[1]、その中心をなすキーワード自動抽出システムについて様々な研究がなされている[2][3]。しかし、不必要な語をキーワードとして抽出してしまうなど、多くの問題が残されている[4]~[6]。
そこで本研究では、これらの問題を解決することを目的とした、キーワード自動抽出システムについて研究を行っている。
2. 従来のキーワード自動抽出システムの概要
従来、作成者がテキスト内容を解読し、シソーラス用語を用いキーワードを設定してきた。しかし、大量のテキストに対し、人手によるキーワード付与には限界があり、情報提供に対するタイムラグ、キーワードの質の揺れ等の問題が生じ、検索精度に影響を及ぼしている。
これらの問題回避のために、テキストの内容を自動解析し、テキスト内に出現する単語を対象にキーワードとして抽出するキーワード自動抽出システムが提案されている[2][3]。
従来のキーワード自動抽出法を大別すると出現頻度解析による抽出法、大規模キーワードリストによる抽出法、文構造解析による抽出法の三種類に大別される[5]。出現頻度解析、大規模キーワードリストによる抽出法は、文章を意味的に識別することを行っていないことから、精度に問題が残されている。また、文構造解析による抽出法は複雑な処理が必要であり、設定条件に見合う出現単語を対象に抽出することから、再現率は保証されるが精度に問題がある。
そこで、本研究では
・キーワード抽出の精度の向上
・意味的な識別を可能とする
の二点の解決を目的としたキーワード自動抽出システムについて検討している[7]。
キーワード自動抽出システムによって抽出されたキ−ワ−ドを評価するための一般的な評価方法として、再現率と精度を用いる。再現率とは、情報要求に適合する蓄積情報に占める検索された適合情報の割合であり、精度とは、検索された情報に占める検索された適合情報の割合である[8]。
本研究においての再現率と精度はそれぞれ式(1)、式(2)のように表わすことができる。
3. キーワード抽出に必要な情報についての検討
これらの値を上げるために、キーワードの抽出の際に抽出精度の向上に有効となる情報についての検討を行った。その中でも文章において、キーワードとなる可能性の最も高い品詞である名詞と、文法構造の関係に着目し、調査を行った。
図1に示すように、文章を名詞情報除去文と抽出名詞群に分割する。本来一つの文である双方の要素を合わせれば、高い精度が得られると考えられる。そのため、これらの要素から人間によるキーワード抽出を行い、再現率と精度を調べた。そして、キーワード抽出の際の名詞意味情報、構文情報などへの依存度について検討した。
実際に情報工学科の学生26名(男性25名、女性1名)に協力していただきアンケートを行った。アンケートの文章は電子情報通信学会論文誌の論文を使用した。この名詞の意味情報に関するアンケートの結果を図2に示す。
再現率に関しては、抽出名詞群と名詞情報除去文の差が34%と大きく、再現率を上げるには名詞の意味情報を利用することが有効であることがわかった。
精度に関しては名詞情報除去文、抽出名詞群ともに高い値とは言えず、かつ精度の差が6%と少ない。このことから、精度の向上には名詞の意味情報のみ、もしくは名詞の意味情報を除いた形での従来のキーワード抽出法は有効でなく、両者を複合させて解釈するキーワード抽出方法が必要である。
これにより、キーワード抽出を行う際には名詞の意味情報や、文法構造などの情報を付与する必要があることがわかった。以下では、これらをふまえたキーワード抽出ルールについて検討する。
4.キーワード抽出ルール
本研究で提案するキーワード自動抽出システムの概要を図3に示す。図3に示すように、本システムでは日本語テキストにルール辞書を用いた重み付けを行い、不要語辞書を用い不要語を除去する。
以下ではこの二つの処理について説明する。
4.1単語の意味情報を用いた名詞の重み付け
名詞意味情報、構文情報の双方を考慮したキーワード抽出方法として、単語の意味情報と出現頻度を利用したキーワード抽出ルールを提案する。
文章中の単語は、主にその単語周辺の名詞の意味を補佐するために使われることが多い。そのため、文章中の一つの単語に着目した場合、着目した単語の前後の名詞がキーワードである確率は、その着目した単語によって左右される可能性が高いと考えられる。
このことを利用し、文章から出現頻度の高い単語を抜き出し、その前後の名詞がどの程度の確率でキーワードになるかを調べる。そして、その確率を考慮してキーワード抽出を行えば、単語の意味を考慮したキーワード抽出が期待できる。
このルールを用いることにより、品詞の意味情報と単語の順序を加味しているため、名詞意味情報、構文情報の双方を考慮したキーワード抽出が可能である。
4.2不要語辞書を用いたキーワードの絞込み
名詞に着目した場合、文章中には「こと」「問題」「対象」などのように出現頻度が多く、また明らかに単体ではキーワードになり得ない名詞が存在する。このような名詞をあらかじめ登録し、キーワード抽出の結果に反映すれば、再現率、精度の向上が可能である。
このような出現頻度が高く、キーワードには一度もならない名詞を不要語辞書として定義し、キーワード抽出に利用する。
5.キーワード抽出システムの評価
実際に本研究で提案するシステムで、キーワード抽出を行った例を表1に示す。表1は本論文のタイトルと「1.はじめに」から抽出した名詞の中から、上位下位5つの名詞を抽出したものである。上位1位には「キーワード自動抽出システム」と、重要な単語の抽出に成功している。また、下位の5単語では不要語辞書により、「こと」「問題」「対象」などがキーワードから除外されていることがわかる。
上位5単語 | 得点 | 下位5単語 | 得点 |
キーワード自動抽出システム | 188 | 1.はじめ | 14 |
情報 | 170 | こと | 0 |
研究 | 156 | 問題 | 0 |
検索システム | 102 | 対象 | 0 |
普及 | 66 | ドキュメント | 0 |
キーワード抽出システムの精度、再現率と、抽出した単語数との関係を図4に示す。図4では電子通信学会論文誌の論文30文献のタイトルとあらましを抽出対象とし、求めるキーワードは論文の著者が付与したものを利用した。また、キーワードの評価方法として著作者キーワードを含む名詞を抽出したとき成功するとした。
図4より、本システムによるキーワード抽出は、再現率の上位4位の上昇率が高い。このことより、上位4位以内では多くのキーワードを抽出できる。
6.おわりに
本研究では、抽出精度の向上と意味的な識別を目的としたキーワード自動抽出システムの開発を行った。
キーワード抽出に必要な情報について検討し、再現率の向上には名詞の意味情報を利用することが有効であり、精度の向上には様々な情報が必要であるということがわかった。そして、それに基づいたキーワード抽出システムの作成を行った。その結果、キーワードを上位に抽出が可能であることがわかった。
今後の課題として、より再現率と精度の向上を行えるルールについて検討、キーワード抽出システムの改良を行う。また実際にキーワードとして提示するときに順位付けした名詞群のどこでキーワードとして区切りをつけるか、検討する予定である。
参考文献
[1]木本他:”日本語テキストデータベース分類技術”、NTT
R&D、Vol40,No7pp915-924(1991)
[2]木本晴夫:”日本語新聞記事からのキーワード自動抽出と重要度評価”、電子情報学会論文誌、Vol.J74-D-I,No.8pp556-566(1991.08)
[3]石川徹也:”文意解析処理に基づく主題索引語作成支援システム”、情報処理学会論文誌、Vol.32,No2,pp220-228(1991.02)
[4]情報処理学会編:”新版情報処理ハンドブック”、オーム社、pp998-1003(1995)
[5]石川徹也:”日本語テキストを対象とした自動索引システムの課題:総論”、情報の科学と技術、42巻11号、pp994-1002(1992)
[6]細野公男:”自動索引−索引作業の高度化の観点から−”、情報の科学と技術、39巻4号、pp125-131(1989)
[7]阿部他:”テキスト文書のキーワード抽出方法における不要語削除方法に関する検討”、1998年電子情報通信学会ソサイエティ大会、D-5-3(1998-10)
[8]大矢雅則他:”数理情報科学辞典”,朝倉書店,pp.422,(1995.11)
モノーキ
SEO | [PR] 爆速!無料ブログ 無料ホームページ開設 無料ライブ放送 | ||