国内の検索エンジンは違法!?
数日前の毎日新聞の記事に衝撃的な話が載っていた
ヤフーやグーグルなど米国の大手検索事業者の多くは、瞬時に検索結果を提供するため、保有する大量のサーバーに世界中のホームページの内容などを蓄積し、キーワードや内容などの索引(インデックス)を付けている。日本の著作権法では、著作権のある情報を蓄積することは「複製」、索引を付けることは「編集」と解釈され、ビジネスに利用することは違法だ。事業者はサーバーを日本に置くことができず、適法としている米国などの海外に設置している。
まずこの報道をまとめてみると、
ホームページのデータを蓄積することは「複製」と解釈できる
インデクシングは「編集」と解釈できる
ビジネスへの利用が違法
国内の事業者もサーバーは海外に置いている
国内設置が認められないという認識を既に政府が持っている
となる。
1,2については法律は専門外の自分にはよくわからない。「ナガブロ:著作権法的には海外の検索サーバーもマズいと思うんですが。。」によればこの認識は正しいらしい。そして、同サイトによれば4のようにサーバーを海外に配置するだけでは問題は解決しないとか。
さて、ここではそもそも4番のようなことが実際に行われているのかという点について検証してみる。
検索エンジンの裏側でデータがどう保管されているのかということについてはちょっと分からない。しかし少なくとも検索エンジンのフロントエンドがどこにあるかはPingの時間を比べればだいたい予想がつくはずだ。
いくつかの検索エンジンサイトに、日本にあるサーバーとUSにあるサーバーからPingを打ってみた。
<td>
IP
</td>
<td>
Server@US
</td>
<td>
Server@Japan
</td>
<td>
124.83.135.243
</td>
<td>
123ms
</td>
<td>
20.36ms
</td>
<td>
72.30.186.52
</td>
<td>
64.2ms
</td>
<td>
198.205ms
</td>
<td>
66.249.89.99
</td>
<td>
117ms
</td>
<td>
9.032ms
</td>
<td>
210.150.25.240
</td>
<td>
117ms
</td>
<td>
9.902ms
</td>
<td>
60.254.185.11
</td>
<td>
118ms
</td>
<td>
8.178ms
</td>
<td>
203.131.197.230
</td>
<td>
116ms
</td>
<td>
8.826ms
</td>
※それぞれのドメインからIPアドレスを日本で引き、そのIPアドレスに対する日米のサーバーからのPingを3回ずつ測定した中央値。
この表から、日本語の検索エンジンの少なくとも検索結果を返すフロントエンドはほとんど日本にあることが見て取れる。また、太平洋を横断するには100ms程度の時間がかかることも分かる。
YahooやGoogleはページ上に検索にかかった時間が表示される。YahooJapanの検索速度は、キャッシュにあれば0.02秒程度、キャッシュになければ0.5秒程度のようだ。Yahooにキャッシュにヒットしそうな検索クエリをwgetで投げてみたら0.16秒で返ってきた、逆にキャッシュにヒットしなさそうなものでは0.63秒。どちらもだいたい140ms程度検索以外の時間がかかっている。localhostにwgetしてみても10msかかるので、この分はHTTPのプロトコルで必要な時間と考えても、残り130msある。普通に考えれば検索結果のsnippetを生成している時間と考えられるが、もしsnippetや広告もキャッシュしておいているとすると、この時間は太平洋を横断して海の向こうの検索サーバーに問い合わせている時間とも考えられる。
結局結論は出せないが(検索結果が100ms以下で返ってくる例があればわかりやすかったのに!)、キャッシュヒット時の検索結果の時間のほとんどは何かよく分からないことに使われている。記事を読んだとき、検索サーバーが海外にあるというのはちょっと信じられなかったが、調べてみてあながち嘘ではないかもしれないと思った。