半结构化文档集的结构化处理及其Web发布
本文首先对结构化半结构化文档的特点进行了研究总结,提出了利用光验知识进行模式提取及文档集的批量结构化处理的模型,然后重点讨论了该模型中先验知识的表达和关键算法,最后结合作者主持开发的国家重点工程对文档的结构化处理及其应用进行了总结.
半结构文档集 结构化处理 Web发布 可扩展标记语言
杨建武 陈晓鸥
北京大学计算机研究所文字信息处理技术国家重点实验室(北京)
国内会议
南宁
中文
15-18,14
2001-05-01(万方平台首次上网日期,不代表论文的发表时间)