中文医学文档分词及关键词提取研究
目的:分词和关键词提取,是中文自然语言处理的基础,本文通过对中文电子病历文档的分词和关键词提取研究,为电子病历结构化研究提供条件”1”。对象:从省内某三甲医院电子病历系统中导出的170份肾内科电子病历的现病史部分,约为59000个中文字。过程与方法:选择分词系统,利用ICTCLAS系统作为研究工具,通过加入医学专业词典以及一些必要的调整和人工干预,提高其在医学领域的分词准确率。结果:采用本方法的处理,分词系统对现病史的分词准确率有了显著提高,达到90%。结论:以170份的现病史做样本进行研究,结果基本达到预期,若扩大样本容量,其结果能达到或高于本研究的结果,有一定的推广意义。
电子病历 结构化电子病历 自然语言处理 分词
陈衡 黄刊迪
中南大学湘雅医学院医药信息系,410000,湖南省长沙市桐梓坡路172号 中南大学湘雅二医院信息科,410011,湖南省长沙市桐梓坡路172号
国内会议
长沙
中文
1-5
2012-05-01(万方平台首次上网日期,不代表论文的发表时间)