基于条件随机域的中文长地名结构标注
中文长地名结构标注是将自然文本形式的长地名按语义不同分割成不同部分并添加标签。在信息检索、自动问答及信息抽取等领域有着重要的应用。中文地名存在格式和结构不规则的问题,在实际应用中,给数据存储的粒度以及查询的准确率带来严重影响。已有研究使用最小风险化的方法对地名进行标准化,由于主要面向英文地名缩写和误拼的问题,没有充分考虑中文地名的特点。本文以应急领域的长地名数据为研究对象,通过对长地名的结构进行标注进而规范其格式。在标注前首先采用启发式方法对长地名的分词结果进行改进,然后利用条件随机域模型对长地名的结构进行标注,从而给长地名的不同部分添加上表明各自语义的标签。实验表明,经过分词改进和基于条件随机域模型的长地名结构标注的性能有显著提高。
条件随机域 中文分词 长地名结构标注 信息检索
孙宏 王文俊 贺瑞芳 胡博磊 孙越恒
信息系统与软件工程实验室计算机科学与技术学院天津大学,天津 300072
国内会议
黑龙江镜泊湖
中文
531-538
2010-08-12(万方平台首次上网日期,不代表论文的发表时间)