会议专题

共词分析中词汇遴选方法研究

本文讨论了影响共词分析中词汇遴选效果的众多因素,并针对如何确定词汇集合提出了设想和验证分析,并得到了结论。该方法的基础是按照词频降序排列,从中选取某一阈值以上的词能够表示文档集合内容,然后再确定词的数量,而本文其实就是提供了一个简便的确定数量的方法,该数量同时考虑了词频和文档比例,并能够确定大部分文档都能够用2-3个词进行表示,相对于仅仅依靠词频阈值来说,提出了较为科学的依据和方法。但是该方法存在的对于大数据量文献不适用的问题仍有待解决;同时按词频降序排列的词汇能否表示文章内容,还有待研究,这将是本研究下一阶段的内容。

文献资料 共词分析 词汇遴选 数据处理

赵迎光 安新颖

中国医学科学院医学信息研究所 北京 100020

国内会议

中华医学会第二十一次全国医学信息学术会议

郑州

中文

139-143

2015-06-17(万方平台首次上网日期,不代表论文的发表时间)