January 8, 2011

我的人人网敏感词

人人网改造器有屏蔽带关键字的新鲜事功能,心想要是能支持正则表达就好了。

站在开发者的角度想,如果是我,必然会选择用正则表达式实现敏感词过滤功能,常试后发现,果然支持js语法的正则表达式。

于是我整了一个敏感词列表,数据来源是近期的新鲜事。

星 座|要分享|不.不是中国人|后悔|不会告诉你|不想让你知道|[oO][uU][tT]啦|不分享|绝密资料|零分作文|为了[\u5973 \u7537]朋友|终于找到了|最.{1,3}的.{1,4}话|你还在.{1,15}吗|删一次.{0,1}发一次|再删.{0,1}再发

强烈感觉正则表达式不够用了,如果能写一个基于词法分析的敏感词过滤系统就好了。