TFC-Reducing:一种基于属性语义距离和规则的文本型形式背景约简方法

形式概念分析作为数据分析和知识处理的形式化工具,可以有效的从海量文本数据中挖掘出人们感兴趣的知识,受到许多研究人员的推崇。形式概念分析的前提条件是必须有一个纯净、良好定义的形式背景。从文本中直接提取特征词,利用文本一特征词形成的文本型形式背景( Textual Formal Context TFC)是一个高度稀疏的二维表,带有很多的噪音信息,严重影响形式概念分析的建格效率以及概念格的结构。因此找到一种有效的文本型形式背景约简方法很有必要。本文综合考虑文本型形式背景的本质特征,从属性语义距离和数学原理出发,提出了一种文本型形式背景的约简方法TFC-Reducing,并给出文本型形式背景约简的评价方法一一信息损失熵和语义覆盖度。
文本型形式背景 语义距离 属性约简 领域主题词表
杨小平 何伟 孙亚琳 廖俊宇
中国人民大学信息学院,北京100872 怀化学院数学与应用数学系,湖南怀化418008
国内会议
大连
中文
2170-2176
2012-10-01(万方平台首次上网日期,不代表论文的发表时间)