短文本时间敏感字串的提取
随网络聊天室、即时通讯、手机短信等的普及,分析由此产生的短文本信息逐渐受到重视。为有效利用短文本中存在的时间相关信息,文章结合数据流领域相关算法,提出一种提取短文本中时间敏感字串的有效算法。该算法时空复杂度低,可适应海量文本的实时在线处理。使用真实BBS语料的实验验证了算法的有效性,得到的时间敏感字串可接受度高。
短文本 时间敏感字串 信息提取
俞晓明 许洪波
中国科学院计算技术研究所,北京 100080;中国科学院研究生院,北京 100039 中国科学院计算技术研究所,北京 100080
国内会议
苏州
中文
682-688
2007-11-01(万方平台首次上网日期,不代表论文的发表时间)