私はSPAM判定にベイズ理論を使用するPOPFileという判定ツールを使用しています。
導入から1年経ちましたので、今回はそのデータを公表することにします。
1.処理件数:74001通、分類エラー197通
2.精度:99.73%。10000通来て27通しか間違えないということ。優秀。
POPfileのサイトでは通常でも95%以上の精度が出るようなことが書いてある。
私の場合はメールサーバーの管理者をしており、初期に1万通ほどのサンプルで学習させた後
統計をリセットしているので通常より精度が高いようだ。
3.内訳
(1)magazine:メルマガ。メルマガによって使われる語彙が違うので初回は誤判定することが多い。
(2)personal:友人等からのメール
(3)shop:DELL等注文確認等のメール
(4)spam:スパム。感覚的には週1、2回見逃すことがある程度。
(5)system:サーバーからの通知等。
(6)work:仕事関係のメール
(7)unclassfied:分類不能だったメール。
他の人はどうなんだろうという辺りは関心高いのでコメント貰えると嬉しいです。
コメント