一种改进的社交媒体文本规范化方法
社交媒体文本书写不规范的特点,使得现有的自然语言处理工具直接应用于社交媒体文本时效果不甚理想,并且基于关键词的算法和应用也达小到预期的效果。因此,研究如何更好的对社交媒体文本进行规范化是非常有意义和价值的。本文基于社交媒体文本中非规范词与其规范形式具有相似上下文的假设,引入词嵌入模型更好地刻画上下文的相似性,提出了一种改进的基于图的社交媒体文本规范化方法,该方法是无监督并且语言无关的,可以处理小同类型语言的大规模无标注社交媒体文本。实验结果表明,该方法能够改进前人方法的不足,并且在与相关方法的对比实验中取得了最好的F值。
社交媒体文本 规范化处理 词嵌入模型
宋亚军 于中华
四川大学,610000
国内会议
中国中文信息学会2015学术年会(CIPS2015)暨第十四届全国计算语言学学术会议(CCL2015)、第三届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD2015)
广州
中文
1-11
2015-11-13(万方平台首次上网日期,不代表论文的发表时间)