演習3:辻井研

20 May

辻井研での演習が終わったので、まとめ。

お題は「潜在的意味解析(LSA)を用いた柔軟な情報検索」。
統計的手法を用いることで、たくさんの文書から人間界にある本質的な「意味」を検出して、それを通じて検索したり、類似文書を探したり、単語を分類したり。

作業の多くは実は数値計算。行列をうにょうにょする作業が主だった。そして、分かち書きとか、大規模な文書をメモリを少ししか使わずに扱うとか、Sparse行列を上手に扱うとか、検索結果評価用ツールを使うとか・・・その辺=LSAと直接は関係ないところでだいぶ時間を使ってしまった。

まぁ、自然言語処理入門としては、あれやったりこれやったりで有用だったとも言えるのだが、その分応用っぽいものをやる時間がなくなってしまったと思うと残念。あ、時間がなかったのは、週何回も飲み会に行ったりしていたのが原因か?

LSAは、単語と単語の関係、文書と文書の関係については本質的に何かが向上する可能性を秘めていそう。それに対し、単語と文書の関係については、ノイズ除去程度の意味しかない。このことに、演習のかなり最後に近い段階で気づいた。これは、もっとLSAの意味をよく考えておけばよかった。実装に目が行きすぎていたかも。

単語と単語の関係といって思いつくのは単語分類だが、単語を上手に選んで数を減らして、それをかなり高次元のLSAで処理すればいい結果がでるのかもしれない。

あと、途中から単語の重み付けに力を注ぎすぎたかも。確かに単語の重み付けは重要だし、ある程度までこれをチューニングしないと検索結果がまともに評価できるものにはならない。でも、baselineとかSaliencyを使うやつは面白そうだったのでつい目が行ってしまったが、演習のあとでよかった気も。

blogの検索とかは面白そうだが、LSAがこれに役立つ気は正直しない。精度はよくなるかもしれないけど、計算が増えすぎる気がする。

となると・・・
Saliencyを使って単語の重み付けをして重要語だけを取り出して、LSAで単語のクラスタリングをすれば、心残りのものはすべて達成されるのか。 どこかでやれる時間あるかな?

Leave a Reply

Your email address will not be published.