最近のスパムメールは、ベイジアンフィルタをくぐり抜けるために様々な手法を用いてきます。たとえば、p0rn や、n-u-d-e と言った文字列にして、スパムのキーワードを排除するものや、関係のない普通の文章を添付ファイルとしてつけることにより、スパムキーワードの重みを減らして、フィルタをすり抜けるものです。私のところにも次のようなスパムが、ベイジアンフィルタを避けて届きました。
このように、次第にベイジアン推定の理論はすでに攻略されているように思えます。コンテンツの中身だけでフィルタするのではなく、送信者認証など、複数の技術と組み合わせていく必要性がありますね。
どんなフィルタをお使いでしょうか POPFileの様な学習型なら、学習させれば次回からは正しく判定させるはずです
コメント by 酸化防止剤(亜硫酸塩) — 2005-01-28 11:50
ここで取り上げているのは、学習型の性質の裏をかくスパムですので。p0rn という文字列であれば学習させればいいのですが、無関係のまともな文書を添付してくるスパムの場合、学習させてしまうと、通常のメールをスパムとご認識する確率が増えてしまいます。これは POPFile でも同様です。
コメント by fumika — 2005-01-28 12:13
でも、POPFileはタイトル、本文だけではなく、ヘッダの各種情報(IPアドレス、ドメイン、エンコード、他)や、HTMLタグの内容等も総合判断するみたいで、5000通くらい受信し、誤判定を、その都度学習していくとかなり精度が向上するみたいです 分類も英語、日本語、中国語、韓国語、というように言語毎に設置すると良いと思います
コメント by 酸化防止剤(亜硫酸塩) — 2005-01-29 11:55
Sorry, the comment form is closed at this time.
34 queries. HTML convert time: 0.080 sec. Powered by WordPress. Valid XHTML Copyright © 2003-2017 TSUDA Fumika @ futuremix.org ログイン
どんなフィルタをお使いでしょうか
POPFileの様な学習型なら、学習させれば次回からは正しく判定させるはずです
コメント by 酸化防止剤(亜硫酸塩) — 2005-01-28 11:50
ここで取り上げているのは、学習型の性質の裏をかくスパムですので。p0rn という文字列であれば学習させればいいのですが、無関係のまともな文書を添付してくるスパムの場合、学習させてしまうと、通常のメールをスパムとご認識する確率が増えてしまいます。これは POPFile でも同様です。
コメント by fumika — 2005-01-28 12:13
でも、POPFileはタイトル、本文だけではなく、ヘッダの各種情報(IPアドレス、ドメイン、エンコード、他)や、HTMLタグの内容等も総合判断するみたいで、5000通くらい受信し、誤判定を、その都度学習していくとかなり精度が向上するみたいです
分類も英語、日本語、中国語、韓国語、というように言語毎に設置すると良いと思います
コメント by 酸化防止剤(亜硫酸塩) — 2005-01-29 11:55