海量中文文本的特征提取
针对海量中文文本提出了专门的特征提取模型.目标在于提取出某个类别的共同特征,并且评价各个特征权重.模型包含4部分:文档DIDF、类别CIDF、特征的类别集中度FC、长度分布因子LD.模型能够很好平衡各个指标之间彼此相互影响.给出了关键参数:类别最小文档发生数量Pmin、最小相对可信度Cmin、最大类别发生数量Pmax、最小加权集中度FCmin四项最优值.在召回率95﹪下,其分类准确度达到87.34﹪,比同样条件下TD-IDF方法提高了10多个百分点。
海量中文文本 文本分类 特征提取 海量数据 数据平衡 最小加权集中度
吴春尧 张海军 杨炳儒
北京科技大学信息工程学院,北京,100083
国内会议
北京
中文
346-350
2005-09-23(万方平台首次上网日期,不代表论文的发表时间)