Web内容过滤中的数据预处理模块设计
Web内容过滤是将模式识别和文本分类的方法应用于通过服务器或个人终端的数据流上,实现不良或无关信息过滤的行为模式.之后介绍了典型的数据预处理技术,指出大量无关或冗余数据以及中文字符集的多样性影响了过滤的效果.提出了改良的数据预处理模块,其中引入了主体文本提取和中文字符集自动识别转换等技术.结合实验和实际系统应用说明了改良模块的作用,并给出了进一步的努力方向.
Web内容过滤 数据预处理技术 主体文本提取 中文字符集识别 模块设计
祝佳 李生红 李建华
上海交通大学,电子工程系,上海,200030
国内会议
北京
中文
141-144
2004-12-24(万方平台首次上网日期,不代表论文的发表时间)