图书馆杂志 ›› 2018, Vol. 37 ›› Issue (11): 99-104.
阮光册 夏 磊
Ruan Guangce, Xia Lei
摘要: 本文将共现分析应用于非结构化文本文件,挖掘文本主题的语义关联。由于文本文献不同于科技文献,缺少关键字等描述信息,本文引入主题模型对文本进行语义降维,生成的主题词作为共词分析的研究对象。实验发现中频主题词能更好地反映文本的主题特征,为此,本文结合齐普夫定律和同词频理论选取中频主题词,通过共词分析识别语义关联,并采用K-means聚类算法实现主题词的聚类。本文以“创新创业”相关新闻文本进行实验,实现文本集主题词的聚类,通过实验对比分析,本文的方法能够更好地体现文本主题的语义联系。