逼真生成表格式数据的非时间属性关联模型
针对数据仿真过程中表格数据属性间关联难的问题,提出一种刻画表格数据中非时间属性间关联特征的H模型.首先,从数据集中提取评价主体和被评价主体关键属性,进行两重频数统计,得到关于关键属性的4个关系对;然后,计算各关系对的最大信息系数(MIC)来评估各关系对的相关性,并采用拉伸指数分布(SE)对各关系对进行关系拟合;最后,设置评价主体和被评价主体的数据规模,根据拟合出的关系计算出评价主体的活跃度和被评价主体的流行度,通过活跃度总和等于流行度总和建立关联,得到非时间属性关联的H模型.实验结果表明,利用H模型能有效地刻画真实数据集中非时间属性间的关联特征.
表格式数据 非时间属性 关联模型 信息系数 拉伸指数分布
张锐 肖如良 倪友聪 杜欣
福建师范大学 软件学院,福州350117;福建省公共服务大数据挖掘与应用工程研究中心,福州350117
国内会议
第十七届中国Rough集与软计算学术会议、第十一届中国Web智能学术研讨会、第十一届中国粒计算研讨会及第五届三支决策学术会议联合会议 (CRSSC-CWI-CGrC-3WD 2017)
合肥
中文
2684-2688
2017-05-26(万方平台首次上网日期,不代表论文的发表时间)