基于文本类别信息熵的中文文档关键词提取
批量的对文本进行关键词抽取已经成为了情报检索领域相当有挑战性的工作。在本文中,一种全新的,基于文本统计类别信息熵的关键词抽取技术将被系统的介绍。此外,根据关键词,特别是在互联网上的功能,本文还尝试地给出了一种新的关键词分类:内容关键词、导出词(TAG关键词)和锚点关键词.通过将关键词的功能进行分化后,一套多样的,能满足不同需求的关键词排序算法被系统的提了出来。测评结果显示该关键词系统有较好的准确性、稳定性和高效性。
关键词标引 文本类别信息熵 关键词分类 TAG词 排序算法 中文文档
张旭成 宋传宝
天津海量智能计算技术研究中心,天津,300384
国内会议
武汉
中文
369-373
2007-10-13(万方平台首次上网日期,不代表论文的发表时间)