むつの日記

7eaeb732 :むつ 2006-02-04 15:03
>>49351cda
http://www.marsflag.com/ は意外に使える。ので使わないことにしよう(えー

大手検索エンジンに頼らないで。だと結構目的のサイトが見付けられなかったりしますね。
たいへんだー。
どうしても速攻で調べたいことがあって、2度ばかり Google を頼ってしまいました。

で、自前検索エンジン(結局、Hyper Estraier になりました)ですけど、
(ディスクスペースの関係もあって)日本語以外のサイトは削除しています。
これがなかなか難問でして。
クローリングしてきたデータを nkf -g で検証しているのです。
ASCII や BINARY と判定されたものは速攻で切ってます。その後、Hyper Estraier の文書ドラフト形式に変換して
(% num=0
% find save -type f >list.save
% for i in `cat list.save`; do
for> estcmd draft -fh -il ja $i >$num.est
for> num=`expr $num + 1`
for> done)
それをさらに nkf -g で検証し直す(文書ドラフトは UTF -8 に変換されているはずなので、Shift_JIS 等は他国語の誤検出とわかる)。
ということをやっているのですが、それでも日本語以外が混じってしまいます。
UTF-8 対象だけで良いので、テキストがどこの国の言葉で書かれているか調べる方法は無いものでしょうか。
もっといえば、日本語かそれ以外かで良いのですけど。
(Hyper Estraier 作者氏が教えてもらったという text_cat では
japanese-shift_jis or chinese-big5 or armenian or vietnamese or arabic-iso8859_6 or marathi or japanese-euc_jp or chinese-gb2312
みたいな感じになってしまいます)。
Powered by shinGETsu.