会议专题

正则表达式在专利信息提取中的应用

针对图像格式的专利文献难以进行深层分析和利用的问题,有效引入光学字符识别技术和正则表达式,根据专利文献的结构特点,给出了一组正则表达式,实现了专利信息的提取,并开发了相应的软件系统,从而获得专利的结构化信息,形成统一格式的专利数据库,为后续对专利文献进行高效率地深入分析和知识挖掘提供了基础。

专利文献 专利信息提取 正则表达式 字符识别

朱爱斌 张莉娟 陈渭

西安交通大学 现代设计及转子轴承系统教育部重点实验室,陕西 西安 710049

国内会议

第十五届全国机械设计年会

杭州

中文

34-36

2010-08-07(万方平台首次上网日期,不代表论文的发表时间)