图书馆杂志

图书馆杂志 ›› 2018, Vol. 37 ›› Issue (11): 90-98.

• 情报研究 • 上一篇    下一篇

基于词向量的化学领域知识发现初步研究

王 鑫 吉久明 李 楠 孙济庆   

  1.  
  • 出版日期:2018-11-15 发布日期:2018-11-23
  • 作者简介:王 鑫 华东理工大学科技信息研究所,硕士研究 生。研究方向:情报技术、知识挖掘。作者贡献: 提出研究思路,设计研究方案;负责采集、清洗数 据;进行实验和分析数据及负责论文起草。E-mail: wangxin1551@foxmail.com 上海 200231 吉久明 女,华东理工大学科技信息研究所,硕士生 导师,研究馆员。研究方向:情报技术、知识挖掘。 作者贡献:提出研究命题;提出研究思路,设计研究 方案;负责进行实验和分析数据;负责论文起草及最 终版修订。 上海 200231 李 楠 女,华东理工大学科技信息研究所,博士研 究生,副研究馆员。研究方向:信息组织、知识发 现。作者贡献:提出研究命题;提出研究思路,设计 研究方案及最终版修订。 上海 200231 孙济庆 华东理工大学科技信息研究所,博士生导 师,研究馆员。研究方向:知识管理、现代情报学。 作者贡献:提出研究命题;提出研究思路,设计研究 方案及负责最终版修订。 上海 200231

Preliminary Research on the Knowledge Discovery in Chemistry Based on the Word Embedding

Wang Xin, Ji Jiuming, Li Nan, Sun Jiqing   

  • Online:2018-11-15 Published:2018-11-23

摘要: 在文本数据中,知识的表示具有抽象性、非结构化[1]、潜在性等特点,通过共现[2]、规则[3]和关联[4]等数据挖掘方式很难在体现词的语义性和句子的语法性下进行知识发现工作。本文在 Word2Vec的基础上提出添加词属性的WP-Word2Vec模型,并依据词向量设计知识发现模型。通过实验表明WP-Word2Vec模型在训练词向量时能够融入词类别信息,在相应的相似词发现中相似度有所提高。

关键词: 词素 , 词向量,  word2vec , 知识发现

Abstract: In the text data, knowledge representation is abstract, unstructured, and latent. It is difficult to find knowledge by co-occurrence, rule or association. Based on Word2Vec, this paper proposes to utilize the WP-Word2Vec model with word attribute, and designs knowledge discovery model based on word vector. Experiments show that the WP-Word2Vec model can integrate word class information into the training word vector, and the similarity in the similar word discovery is improved.

Key words: Morpheme, Word embedding, Word2vec, Knowledge discovery