从日本域名网站中抽取中文网页——基于自然语言处理

摘要：

在日本域名网站里虽然存在不少中文网页,但实际上大多都没被有效利用。如果能从中准确地抽取出来,一定能为使用中文的用户带来许多方便.本研究利用自然语言处理技术,首先对日本早稻田大学和中国北京大学的网页作了全面分析,找出中文句子的特征,然后应用于日本域名1000万网页的解析,最终得到良好结果。

关键词：自然语言处理技术语素解析自动分词中文网页日本域名网站

作者: 魏小比

作者单位: 日本早稻田大学大学院理工学研究科

会议类型: 国内会议

会议地点: 武汉

会议语种:中文

页码: 348-352

在线出版日期: 2007-10-13（万方平台首次上网日期，不代表论文的发表时间）

会议专题