为什么要推荐DSPAM呢?
基于内容的bayes过滤的开源产品有不少,例如:1. dspam
2. spamprobe
3. spambayes
4. CRM114
为什么大家都选择用DSPAM呢? :lol LZ可以测试一下其他的软件,分享点经验给大家 问题在于 DSPAM分词只针对英文的:
token = strtok_r (body, DELIMITERS, &ptrptr);
#endif
while (token != NULL)
{
l = strlen (token);
if (l >= 1 && l < 50)
{
/* Process "current" token */
if ( !_ds_process_body_token(CTX, token, previous_token, diction)
&& tokenizer == DSZ_CHAIN)
{
previous_token = token;
}
} 我也有这个疑问
我一直没有使用这个,还是使用sa的bayes 事实胜于雄辩,DSPAM对中文垃圾信一样处理的很好,而且,它甚至就是语言无关的。请多看看 Dspam的原理文档。SA的Bayes我们实际测试效果是不够好的。 看疗效是对的 :lol
应用环境不同 需求也不同 :) ,DSPAM的原理文档都写在了作者写的书上了
[url]http://static.ppurl.com/chmview-Wl9WZwUrUyYHYQRvA19XOFFzXDgBaw9iBWBWYFZqB2Q=/[/url] [quote]原帖由 [i]lvdbing[/i] 于 2010-1-21 14:52 发表 [url=http://www.extmail.org/forum/redirect.php?goto=findpost&pid=73102&ptid=13349][img]http://www.extmail.org/forum/images/common/back.gif[/img][/url]
问题在于 DSPAM分词只针对英文的:
token = strtok_r (body, DELIMITERS, &ptrptr);
#endif
while ... [/quote]
我认为你才是专业的说法,最近我也在想这个问题,刚好这里有提到 [quote]原帖由 [i]fzhyextmail[/i] 于 2010-3-19 10:08 发表 [url=http://www.extmail.org/forum/redirect.php?goto=findpost&pid=75208&ptid=13349][img]http://www.extmail.org/forum/images/common/back.gif[/img][/url]
我认为你才是专业的说法,最近我也在想这个问题,刚好这里有提到 [/quote]
还想问个问题,在处理分词的时候怎没看到mysql库里存有训练好的分词库?如何去匹配对比的? dspam是对分词做了CRC的转换,转化成了一串长整型 所以在MYSQL上保存的是一串数字 (数字在查询的时候比字符串快很多)
如果将DEBUG日志打开,在日志上可以看到分词后的日志 :loveliness:
页:
[1]