多源数据环境下公共文化服务机构年报的数据
抽取研究

图书馆杂志 ›› 2020, Vol. 39 ›› Issue (12): 52-60.

多源数据环境下公共文化服务机构年报的数据抽取研究

刘仕阳王威威化柏林

出版日期:2020-12-30 发布日期:2020-12-30
作者简介:刘仕阳北京大学信息管理系，本科生。研究方向：文本挖掘。作者贡献：数据处理，技术实现，撰写论文第3、4、5部分。E-mail：1600016630@pku.edu. cn 北京 100871 王威威北京大学信息管理系，本科生。研究方向：文本挖掘。作者贡献：数据处理、部分技术实现。北京 100871 化柏林北京大学信息管理系，助理教授。研究方向：文本挖掘、公共文化大数据、科技情报大数据。作者贡献：提出研究思路，撰写论文第1、2部分，修改论文。北京 100871

Research on Data Extraction from Annual Reports of Public Cultural Service Institutions in the Multi-source Data Environment

Liu Shiyang, Wang Weiwei, Hua Bolin

Online:2020-12-30 Published:2020-12-30

摘要/Abstract

摘要： 一方面公共文化服务机构数据资源丰富却难以集成，另一方面公共文化领域缺少宏观的管理数据。年报文档中包含着场馆信息、活动数据和业务数据等丰富的数据，而且年报的数据质量相对较高，是公共文化服务领域一种重要的数据来源。如何从年报文档中抽取数据并进行有效集成，成为多源数据环境下的一项重要研究内容。编写爬虫程序下载年报文档，判定PDF文件格式、总结年报的文本结构和特定数据项的上下文特征，通过正则表达式对各类年报数据建立模板进行匹配并抽取。本文针对数据位于段落标题中的数据、有明显数字特征的数据和有固定统一格式的大事记等不同类型的数据项设计了3套模板，取得较好的匹配和抽取效果。

Abstract: On one hand, public cultural service agencies are rich in data resources but have difficulty in integrating them. On the other hand, the public culture sector lacks macro management data. The annual reports contain rich data such as venue information, event data, and business data, while the data quality of annual reports is relatively high, making these reports an important data source for public cultural services. How to extract data from annual reports and integrate them effectively have become an important research task in the multi-source data environment. The authors compile a crawler program to download annual reports, identify the PDF file format, summarize the text structure and the context characteristics of specific data, and use regular expressions to set up templates, and to match and extract various annual report data. In this paper, three sets of templates are designed for different types of data items such as data located in paragraph headings, data with obvious numerical characteristics, and memorabilia with a fixed and unified format, and better matching and extraction results were achieved.

刘仕阳王威威化柏林. 多源数据环境下公共文化服务机构年报的数据抽取研究[J]. 图书馆杂志, 2020, 39(12): 52-60.

Liu Shiyang, Wang Weiwei, Hua Bolin. Research on Data Extraction from Annual Reports of Public Cultural Service Institutions in the Multi-source Data Environment[J]. Libraly Journal, 2020, 39(12): 52-60.

参考文献

[ 1 ] 刘志辉, 赵筱媛. 上市公司年报在产业竞争情报分析中的应用研究[J]. 图书情报工作, 2013, 57(3): 65-68; 119. [ 2 ] 周双文. 基于领域本体的创业板公司年报风险信息抽取方法研究[D]. 长沙: 湖南大学, 2013. [ 3 ] 李珍, 田学东. PDF文件信息的抽取与分析[J]. 计算机应用, 2003(12): 145-147. [ 4 ] 陈云榕, 刘立柱, 丁志鸿. PDF文件中关键信息的提取与组织方法研究[J]. 计算机工程与设计, 2007(7): 1688-1690. [ 5 ] 于丰畅, 陆伟. 基于机器视觉的PDF学术文献结构识别[J]. 情报学报, 2019, 38(4): 384-390. [ 6 ] 丁晟春, 王莉, 刘梦露. 基于规则的动物卫生事件舆情信息抽取研究[J]. 计算机应用与软件, 2018, 35(9): 56-62. [ 7 ] 杨春磊. 基于模式匹配的结构化信息抽取研究[D]. 合肥: 合肥工业大学, 2013. [ 8 ] 冷伏海, 白如江, 祝清松. 面向科技文献的混合语义信息抽取方法研究[J]. 图书情报工作, 2013, 57(11): 112-119. [ 9 ] 马晓荣. 科技云中非结构化数据向结构化数据的转换方法[D]. 西安: 西安电子科技大学, 2017. [10] 李超. 基于深度学习的短文本分类及信息抽取研究[D]. 郑州: 郑州大学, 2017. [11] 俞琰, 陈磊, 姜金德, 等. 网络招聘文本技能信息自动抽取研究[J]. 图书情报工作, 2019, 63(13): 105-113. [12] 唐晓文. 基于本体论的文本特征提取[J]. 电脑与信息技术, 2005(1): 36-38; 62. [13] 于江德, 肖新峰, 樊孝忠. 基于隐马尔可夫模型的中文文本事件信息抽取[J]. 微电子学与计算机, 2007(10): 92-94; 98. [14] 李晨, 刘卫国. 基于NLTK的中文文本内容抽取方法[J]. 计算机系统应用, 2019, 28(1): 275-278. [15] 张博. 基于领域知识库的简历信息抽取系统的设计与实现[D]. 北京: 北京邮电大学, 2018. [16] Rastin M, Casper H, Christian H, et al. Predicting distresses using deep learning of text segments in annual reports[J]. Expert systems with applications, 2019, 132: 199-208. [17] 张智雄. 信息抽取技术及其在数字图书馆中的应用前景分析[J]. 现代图书情报技术, 2004(6): 1-5; 23. [18] 牟冬梅, 陈倩, 王丽伟. 基于语义模型的数字图书馆知识组织信息抽取策略[J]. 图书情报工作, 2009, 53(15): 21-25. [19] 刘柏嵩. 面向数字图书馆的本体自动构建[J]. 中国图书馆学报, 2006(5): 47-51. [20] 黄永, 陆伟, 程齐凯, 等. 学术文本的结构功能识别——基于段落的识别[J]. 情报学报, 2016, 35(5): 530-538. [21] 黄永, 陆伟, 程齐凯. 学术文本的结构功能识别——基于章节内容的识别[J]. 情报学报, 2016, 35(3): 293-300. [22] 方龙, 李信, 黄永, 等. 学术文本的结构功能识别——在关键词自动抽取中的应用[J]. 情报学报, 2017, 36(6): 599-605. [23] 雷声伟, 陈海华, 黄永, 等. 学术文献引文上下文自动识别研究[J]. 图书情报工作, 2016, 60(17): 78-87. [24] 陈海华, 黄永, 张炯, 等. 基于引文上下文的学术文本自动摘要技术研究[J]. 数字图书馆论坛, 2016(8): 43-49. [25] 黄永文, 李广建. 数字图书馆中的ETL应用研究综述[J]. 现代图书情报技术, 2007(12): 1-5. [26] 毕崇武, 王忠义, 宋红文. 基于知识元的数字图书馆多粒度集成知识服务研究[J]. 图书情报工作, 2017, 61(4): 115-122. [27] 欧石燕, 唐振贵. 面向图书馆关联数据的自动问答技术研究[J]. 中国图书馆学报, 2015, 41(6): 44- 60. [28] 周凡坤. 面向领域的文本信息抽取方法研究[D]. 南京: 南京邮电大学, 2014.