会议专题

从日本域名网站中抽取中文网页——基于自然语言处理

在日本域名网站里虽然存在不少中文网页,但实际上大多都没被有效利用。如果能从中准确地抽取出来,一定能为使用中文的用户带来许多方便.本研究利用自然语言处理技术,首先对日本早稻田大学和中国北京大学的网页作了全面分析,找出中文句子的特征,然后应用于日本域名1000万网页的解析,最终得到良好结果。

自然语言处理技术 语素解析 自动分词 中文网页 日本域名网站

魏小比

日本早稻田大学大学院理工学研究科

国内会议

第七届中文信息处理国际会议

武汉

中文

348-352

2007-10-13(万方平台首次上网日期,不代表论文的发表时间)