余弦相似度在高校综合信息系统中的应用
针对电子科技大学综合信息系统中学术论文填报数据不准确的问题,提出了通过余弦相似度计算来识别标准期刊名或会议名的方案.首先对填报名进行预处理,并清洗来自互联网的爬取名,进而得到测试名.通过经典的TF-IDF方法,对所有测试名和标准期刊名进行分词、去除停止词和取词操作,在计算出每个单词的TF-IDF值后,即可将所有的测试名和标准期刊名都转化为由所有单词的TF-IDF值构成的多维向量.通过计算测试名和标准期刊名间的余弦相似度,即可最终识别出正确的标准期刊名.实际的识别结果表明,余弦相似度计算极大地提高了学术论文填报数据的质量.
高等院校 综合信息系统 余弦相似度 数据预处理 多维向量转化
朱浩 连德富 左志宏 颜凯
电子科技大学信息中心,成都611731;威廉玛丽学院信息技术部,威廉斯堡23185 电子科技大学大数据研究中心,成都611731 电子科技大学信息中心,成都611731
国内会议
济南
中文
123-128
2017-11-19(万方平台首次上网日期,不代表论文的发表时间)