Web上のデータの信頼性

NLP(自然言語処理)とWebマイニングの間のようなことを研究テーマにしているので、Web上のデータをとってきて処理することは多い。

ブログのデータを集めてきて単語の出現頻度などの統計をとっているが、これらのデータはノイズが混じっていることを前提に処理している。

一方、データを処理するためのツールやライブラリ、一部のデータもWebからとってきたものを利用している。

しかし、通常これらのものにはノイズが混じっていないことを前提にして研究をしてしまう。

今回、実験の結果得られた統計値に妙なバイアスがかかっていることを発見した。デバッグに丸1日程度かかってしまった。

調べて分かった原因は、オンラインで公開されているデータの一部が欠損していたことだった。

Webから取ってきたデータを「信頼できるデータ」と「信頼できないデータ」の2種類に分けて、信頼できないデータばかり疑っている自分に驚いた。