图书馆杂志

图书馆杂志 ›› 2020, Vol. 39 ›› Issue (12): 52-60.

• 工作研究 • 上一篇    下一篇

多源数据环境下公共文化服务机构年报的数据 抽取研究

刘仕阳 王威威 化柏林   

  • 出版日期:2020-12-30 发布日期:2020-12-30
  • 作者简介:刘仕阳 北京大学信息管理系,本科生。研究方向: 文本挖掘。作者贡献:数据处理,技术实现,撰写 论文第3、4、5部分。E-mail:1600016630@pku.edu. cn 北京 100871 王威威 北京大学信息管理系,本科生。研究方向: 文本挖掘。作者贡献:数据处理、部分技术实现。北 京 100871 化柏林 北京大学信息管理系,助理教授。研究方 向:文本挖掘、公共文化大数据、科技情报大数据。 作者贡献:提出研究思路,撰写论文第1、2部分,修 改论文。北京 100871

Research on Data Extraction from Annual Reports of Public Cultural Service Institutions in the Multi-source Data Environment

Liu Shiyang, Wang Weiwei, Hua Bolin   

  • Online:2020-12-30 Published:2020-12-30

摘要: 一方面公共文化服务机构数据资源丰富却难以集成,另一方面公共文化领域缺少宏观的 管理数据。年报文档中包含着场馆信息、活动数据和业务数据等丰富的数据,而且年报的数据质 量相对较高,是公共文化服务领域一种重要的数据来源。如何从年报文档中抽取数据并进行有效 集成,成为多源数据环境下的一项重要研究内容。编写爬虫程序下载年报文档,判定PDF文件格 式、总结年报的文本结构和特定数据项的上下文特征,通过正则表达式对各类年报数据建立模板 进行匹配并抽取。本文针对数据位于段落标题中的数据、有明显数字特征的数据和有固定统一格 式的大事记等不同类型的数据项设计了3套模板,取得较好的匹配和抽取效果。

Abstract: On one hand, public cultural service agencies are rich in data resources but have difficulty in integrating them. On the other hand, the public culture sector lacks macro management data. The annual reports contain rich data such as venue information, event data, and business data, while the data quality of annual reports is relatively high, making these reports an important data source for public cultural services. How to extract data from annual reports and integrate them effectively have become an important research task in the multi-source data environment. The authors compile a crawler program to download annual reports, identify the PDF file format, summarize the text structure and the context characteristics of specific data, and use regular expressions to set up templates, and to match and extract various annual report data. In this paper, three sets of templates are designed for different types of data items such as data located in paragraph headings, data with obvious numerical characteristics, and memorabilia with a fixed and unified format, and better matching and extraction results were achieved.