P2Ptoday

c371a556 :Anonymous 2005-02-02 23:56
http://wslash.com/?itemid=28

■Mac OS X用とLinux用の「Skype 1.0」正式版公開

Skype 1.0.0.1 Linux版を導入してみる。
0.93.0.3 からは「フレンド」が「コンタクト」になったくらいしか、
見てわかる範囲の変更点はないようだ。
QtのフォントをSazanamiに変更したらかっこよくなった。


■「N-gram方式」を採用したイントラネット向け全文検索エンジン「WiSE」
http://internet.watch.impress.co.jp/cda/event/2005/02/02/6320.html

なぜかN-gramを文字ベースに限定しているけど、
それは今回の実装がそうなってるだけで、
一般的にはN-gramは単語ベースだったり、形態素ベースだったり、
文節ベースだったり、音素ベース(音声認識とかで)だったり、何でもいいわけで。

例えば「インプレスは出版社です」のバイグラム(2-gram)はこんな感じ。

形態素バイグラム: 「インプレス/は」「は/出版社」「出版社/です」
文節バイグラム:「インプレスは/出版社です」
文節バイグラム(付属語は無視):「インプレス/出版社」

だからこれは
「文字N-gram方式」を採用したイントラネット向け全文検索エンジン「WiSE」
と書くべきなんだよなあ。

ちなみにN-gram(単語ベース)は英語の処理で特に効果を発揮する。
英語は単語がスペースで区切られていたり、よく使う言い回しがあったりするため。
ほかの欧米の言語でも同じだと思うけど、よくわからない。
Powered by shinGETsu.