会议专题

地方历史文献的数字化、数据化与文本挖掘--以《中国地方历史文献数据》为例

历史文献数据库应具有数字化(digitalization)、数据化(datalization)、文本挖掘(text mining)三种不同形态,迄今多数中文历史文献数据库实现了数字化功能,部分地实现数据化功能,而能够实现文本挖掘功能的则十分少见.数字化是将文献的物理形态转化为电子形态,数据化是将文献转化为可为电脑识别的文本(text),文字录入(digitized)与编制元数据(met ada ta)是主要方法.文本发掘是在此基础上分析文本的内容与关联性.《中国地方历史文献数据库》基于针对性设计的元数据结构提供交叉导航、数据统计等多种功能,这些功能不仅可以帮助研究者找到自己的所需文献,更可能帮助研究者发现新的研究议题.史学研究中,数据库有必要被视作一种新的文献形态,建立针对性的文献学方法论.

地方历史文献 数字化建设 数据化进程 文本挖掘

赵思渊

上海交通大学历史系

国内会议

“历史文献与古代社会研究的现状与展望”学术研讨会

广州

中文

757-767

2016-06-25(万方平台首次上网日期,不代表论文的发表时间)