むつの日記

cbd292a4 :むつ 2005-05-31 18:33
[nutch][日本語検索]
nutch は 1 文字単位の N-gram 方式なのですんごくノイズが多くなります。
まーそれはフレーズ検索を駆使するとして、日本語以外の検索結果の除去も必要に思われます。
たとえば、「Bittorrent 検索エンジン」を検索したい場合「Bittorrent "検索エンジン"」とすればそれなりの結果は得られます。
「検索エンジン」という日本語が入っていますので、ほぼ日本語のページが引っかかることでしょう。
ですが、「Bittorrent」のしかも日本語のページが欲しい場合はたいへんです。
「ニュース」「記事」「解説」などのワードで&検索すればこの場合良好な結果が得られるでしょうが、
もっと幅広く「Bittorrent」のことばが入ったページを探したいときは……。
昔(といっても 4, 5 年前)Yahoo!Japan で検索するときに、「日本」や「日本語」で&検索した事が思い出されます。
きちんとするなら、日本語の文字コードが含まれているかいないかを調べ、検索結果に反映させるべきでしょうが、nutch に手を入れるのはたいへんです。
そこで、出現頻度が高そうなひらがなで&検索するという方法を思い付いたのですが、出現頻度が高いひらがなって何でしょうね?

http://72.14.207.104/search?q=cache:MZz_IgiUKfQJ:yns.rlki.nu/diary/%3F200011a%26to%3D200011071+%E3%81%B2%E3%82%89%E3%81%8C%E3%81%AA%E3%81%AE%E5%87%BA%E7%8F%BE%E9%A0%BB%E5%BA%A6&hl=ja&lr=lang_ja&client=firefox-a
Powered by shinGETsu.