会议专题

基于主题语义的非合作结构化Top-N深网数据源选择

  高效且准确地找出存在于深网中的与用户查询意图最相关的Top-N元组,是深网数据集成中的关键问题。针对数据源内容概括未见成果的现状,本文提出了一种能够有效概括非数字、非离散属性特征的非合作结构化深网数据源摘要构建方法。利用主题词抽样,依据主题语义选择与主题词相关的特征词,通过主题词及特征词构建数据源语义摘要。实验结果表明与传统的基于词频的方法相比较,该方法在召回率及准确度方面均有较大幅度的提升。

深网数据集成检索系统 优化设计 信息提取 主题语义

Deng Song 邓松 Wan Changxuan 万常选 Liu Xiping 刘喜平 Jiang Tengjiao 江腾蛟 Lei Gang 雷刚

School of Information and Technology, Jiangxi University of Finance and Economics, Nanchang 330013 江西财经大学信息管理学院 南昌 330013 Jiangxi Key Laboratory of Data and Knowledge Engineering, Jiangxi University of Finance and Economic 江西财经大学数据与知识工程江西省高校重点实验室 南昌 330013

国内会议

第29届中国数据库学术会议

合肥

中文

58-64

2012-10-01(万方平台首次上网日期,不代表论文的发表时间)