ExtMail服务器社区's Archiver

lvdbing 发表于 2010-1-20 16:56

为什么要推荐DSPAM呢?

基于内容的bayes过滤的开源产品有不少,例如:

1. dspam
2. spamprobe
3. spambayes
4. CRM114

为什么大家都选择用DSPAM呢?

liushaobo 发表于 2010-1-20 19:42

:lol  LZ可以测试一下其他的软件,分享点经验给大家

lvdbing 发表于 2010-1-21 14:52

问题在于 DSPAM分词只针对英文的:

  token = strtok_r (body, DELIMITERS, &ptrptr);                                                                                                         
#endif
  while (token != NULL)
  {
    l = strlen (token);
    if (l >= 1 && l < 50)
    {
      /* Process "current" token */  
      if ( !_ds_process_body_token(CTX, token, previous_token, diction)                                                                                 
        && tokenizer == DSZ_CHAIN)   
      {
        previous_token = token;      
      }
    }

ruochen0926 发表于 2010-1-21 18:27

我也有这个疑问

我一直没有使用这个,还是使用sa的bayes

extmail 发表于 2010-1-21 19:18

事实胜于雄辩,DSPAM对中文垃圾信一样处理的很好,而且,它甚至就是语言无关的。请多看看 Dspam的原理文档。SA的Bayes我们实际测试效果是不够好的。

lvdbing 发表于 2010-1-22 10:36

看疗效是对的 :lol

应用环境不同 需求也不同 :) ,DSPAM的原理文档都写在了作者写的书上了

[url]http://static.ppurl.com/chmview-Wl9WZwUrUyYHYQRvA19XOFFzXDgBaw9iBWBWYFZqB2Q=/[/url]

fzhyextmail 发表于 2010-3-19 10:08

[quote]原帖由 [i]lvdbing[/i] 于 2010-1-21 14:52 发表 [url=http://www.extmail.org/forum/redirect.php?goto=findpost&pid=73102&ptid=13349][img]http://www.extmail.org/forum/images/common/back.gif[/img][/url]
问题在于 DSPAM分词只针对英文的:

  token = strtok_r (body, DELIMITERS, &ptrptr);                                                                                                         
#endif
  while ... [/quote]


我认为你才是专业的说法,最近我也在想这个问题,刚好这里有提到

fzhyextmail 发表于 2010-3-19 10:12

[quote]原帖由 [i]fzhyextmail[/i] 于 2010-3-19 10:08 发表 [url=http://www.extmail.org/forum/redirect.php?goto=findpost&pid=75208&ptid=13349][img]http://www.extmail.org/forum/images/common/back.gif[/img][/url]



我认为你才是专业的说法,最近我也在想这个问题,刚好这里有提到 [/quote]




还想问个问题,在处理分词的时候怎没看到mysql库里存有训练好的分词库?如何去匹配对比的?

lvdbing 发表于 2010-5-28 00:35

dspam是对分词做了CRC的转换,转化成了一串长整型 所以在MYSQL上保存的是一串数字 (数字在查询的时候比字符串快很多)

如果将DEBUG日志打开,在日志上可以看到分词后的日志 :loveliness:

页: [1]

Powered by Discuz! Archiver 7.0.0  © 2001-2009 Comsenz Inc.