藏汉跨语言话题模型构建及对齐方法研究
如何获取藏文话题在其他语种中的相关信息,对于促进少数民族地区的社会管理科学化水平、维护民族团结和国家统一、构建和谐社会具有重要意义.目前大多数研究集中在英汉跨语言信息处理方面,针对藏汉跨语言研究较少.如何根据藏语、汉语的特点,并结合目前藏语信息处理的研究现状,实现藏汉多角度的社会网络关系关联,同步发现关注话题并进行数据比较,是迫切需要解决的问题.本文在藏汉可比语料的基础上,利用词向量对文本词语进行语义扩展,进而构建LDA话题模型,并利用Gibbs sampling进行模型参数的估计,抽取出藏语和汉语话题.在LDA话题模型生成的文档-话题分布的基础上,提出一种基于余弦相似度、欧氏距离、Hellinger距离和KL距离四种相似度算法的投票方法,来实现藏汉话题的对齐.
跨语言话题模型 话题抽取 话题对齐 藏语 汉语
孙媛 赵倩
中央民族大学,信息工程学院;国家语言资源监测与研究中心少数民族语言分中心,北京,100081
国内会议
第十五届全国计算语言学学术会议(CCL2016)暨第四届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD-2016)
烟台
中文
1-14
2016-10-14(万方平台首次上网日期,不代表论文的发表时间)