モノーキ

続キーワード抽出法



01/1/17

大学時代の研究がふと頭をもたげてきた。

過去を顧みるに、まず定義しなければならなかったのは、キーワードの抽出とは何か?であった。
文章中のキーワードというのは、それを読む人の主観によって大きく変わってくる。
例えば、民明書房の本で、中国拳法における棍について書かれた本であったとしても、読者によってはご りゅうふがゴルフの語源であったことの方が重要かもしれない。ということだ。
ここで重要なのは、例え筆者が「中国拳法における棍」が主題だったにしても、読者の大半がご りゅうふの方が重要と思えば、その文書のキーワードはご りゅうふになる。

つまり、作者が決めたキーワードは、国語力に不足していなければおおむね正しいとしても、絶対に正しいということはない。よって、キーワード抽出率100%は例え天才人間であっても不可能であり、存在しない。つまり正解は存在しない。
そのため、キーワードがいくつ抽出して何個が正解であるか。という抽出結果の正当性すらそもそも疑わざるをえなくなってくる。

そこで必要になってくるのが、キーワードをどう定義するかである。
過去にキーワードを抽出してくれとアンケートをとったことがある。(今考えるとひどいもんだが)
その中には2単語しか抽出しない人もいれば、何個も抽出する人もいた。
人によってキーワードの基準が違うのだ。
また、判断基準というものも何種類かあると考えられる。

例えば文章の中に主題があり、それを補完する形で余談がある。
ではその余談の中のキーワードは主題からみて、どの程度重要なのか?
この問題の難解さは歴史をつづった文章を考えてみればわかるだろう。

例えば織田信長の人生について書かれた文章を考えてみよう。

おそらく一番重要なキーワードは「織田信長」で間違いないだろう。
では、次に重要なのは何か?
桶狭間?斎藤道山?安土城?本能寺?
そう、人によって、価値観があるから、完全に次に来るのはばらばらなのである。
あえていうなら、今あげたような単語はほぼ同列に扱う必要がある。
つまり本当の主題から外れた場合、キーワードの重要性(順位的に2、3位以降くらい)は、本質的に混同してくると推測できる。
そうなってしまった場合、3位から10位までの得点の差がほとんどなくなり、「なんでこの単語がこの順位に?」となってしまう。
つまり順位というカテゴリそのものが問題なのだ。
ここで本当に抽出したいのは、
主題
主題を補足する重要単語
一般単語
(思いつき)のようなカテゴリ分けだ。
これができて真のキーワード抽出が可能となる。

おぉ、すげぇ。
思いつきだが、なんか一工夫できそうなところまで来たぞ。
 




 戻る

モノーキ
SEO [PR] 爆速!無料ブログ 無料ホームページ開設 無料ライブ放送