むつの日記

fa4f9958 :むつ 2005-05-24 20:00: [Linux][Rast][Iron33][Crawler][検索]
オープンソース Web 検索エンジン + クローラーとしては nutch が有名ですが、進展がなさそうなので、
日本製のオープンソースの、クローラー Iron33 と全文検索 Hyper Estraier を使って Web 検索もどきをつくってみました。
Iron33 は昔使いかたが分からず挫折したのですが、何故か今回は分かりました。
Iron33 はソースコードのミスとインクルードファイルの移動（？）がありますので、ちょっとだけ修正が必要です。
usage 表示部分２ヶ所（どこだか忘れました） \n\ が抜けています（\ だけでもいいけど。改行コードのエスケープミス）。
off_t を使う部分１ヶ所、#include <sys/types.h> 追記。

感想。
なかなかいいかんじです。ただ、Iron33 のインデックスはよくわからないので、
付属のプログラムでいったん展開してからあらためて、Hyper Estraier でインデックスを作っています。
Iron33 でクロールしたキャッシュを直接読んでいないので、Hyper Estraier のインデックス差分登録はできないでしょう。
ですので、展開する時間 + その分の HD 容量 + インデックス作成時間（たぶん、常にイチから作るはめに）がたいへんな事になります。
それと、あまりに一般的な語彙だとニュースにばかりヒットします（Linux とか）。
Google のページランクとか、そういった仕組みが欲しいところです。分量多いので。
Web ページ全体は諦めて（nutch に期待。だれか日本語専用 fork 作らないかな……）RSS や Atom に対象をしぼった方が現実的で今風かもしれません。
Web ページ全体だと、HD 容量の問題もあり個人ではすぐに壁にぶち当たるのも目に見えていますし。
P2P 的にみんなで協力とかしたいな……。あー、海外ではあるんですよね、YACY とか GPU とか。
どちらも日本語は無理でしたが（クロールのしかたも分かりませんでした）。