会议专题

基于局部与全局信息的自动文摘算法

采用平均特征词频率策略计算特征词权重,用快速n-grims算法对各特征词所处的概念体进行加权,用一种改进的K-means聚类算法进行段落聚类,提出一种基于局部与全局信息的自动文摘算法并给出算法评估.该算法不仅能够自适应获得k值,而且有效防止了初始点的随机选择对聚类结果的影响.评测结果表明该算法对经济类和科技类文章的准确率和召回率都明显高于新闻类和文学类文章,利用机器文摘进行分类的准确率明显高于使用原文本进行分类.该算法所得到的文摘,在各项指标上都优于传统方法生成的文摘.

K-means算法 n-grims算法 段落聚类 自然语言理解 自动文摘算法

王萌 王晓荣 李春贵 唐培和

广西工学院计算机工程系,广西柳州,545006

国内会议

广西计算机学会2007年年会

南宁

中文

226-228

2007-10-01(万方平台首次上网日期,不代表论文的发表时间)