正则表达式在专利信息提取中的应用
针对图像格式的专利文献难以进行深层分析和利用的问题,有效引入光学字符识别技术和正则表达式,根据专利文献的结构特点,给出了一组正则表达式,实现了专利信息的提取,并开发了相应的软件系统,从而获得专利的结构化信息,形成统一格式的专利数据库,为后续对专利文献进行高效率地深入分析和知识挖掘提供了基础。
专利文献 专利信息提取 正则表达式 字符识别
朱爱斌 张莉娟 陈渭
西安交通大学 现代设计及转子轴承系统教育部重点实验室,陕西 西安 710049
国内会议
杭州
中文
34-36
2010-08-07(万方平台首次上网日期,不代表论文的发表时间)