利用源域结构的粒迁移学习及词性标注应用
迁移学习在一定程度上减轻了目标域的数据稀疏问题对泛化能力的影响,然而泛化能力的提高仍然受到负迁移等问题的影响.为了解决负迁移问题,本文提出使用源域结构的文本语料的信息粒化方法,用区间信息粒表示出源域数据集的结构对数据集中统计量的影响.然后提出区间二型模糊隐马尔可夫模型(Interval type-2fuzzy Hidden Markov Model,IHMM)以处理区间信息粒.给出了IHMM的构建方法和去模糊化方法.在文本的词性标注任务中进行了多个实验,可以证实利用源域结构信息的粒迁移学习方法避免了负迁移,提高了模型的泛化能力.
文本语料 粒计算 迁移学习 词性标注 源域结构
孙世昶 林鸿飞 孟佳娜 刘洪波
大连理工大学计算机学院,辽宁大连,116023;大连民族大学计算机学院,辽宁大连,116600 大连理工大学计算机学院,辽宁大连,116023 大连民族大学计算机学院,辽宁大连,116600 大连海事大学信息科学技术学院,辽宁大连,116026
国内会议
第十五届全国计算语言学学术会议(CCL2016)暨第四届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD-2016)
烟台
中文
1-11
2016-10-14(万方平台首次上网日期,不代表论文的发表时间)