原文链接:http://tecdat.cn/?p=13709
原文出处:拓端数据部落公众号
大数据已经成为变革和创新的技术力量和思维方式,成为当前研究的热门领域。
本文对相关主题下的知网期刊文章数据集进行分析,识别出期刊文章内容近年来变化的规律。
期刊热门栏目近年来的变化
经过几年的蓄势待发,13年伊始,“大数据”成为热门概念,人民日报将2013年称为“大数据元年”。我们将2013年作为时间点,对其前后7年的期刊热门栏目数目的变化进行比较。
图表1
可以发现与数据相关的信息技术、统计研究、计算机科学、软件开发等栏目数目在2013年以后出现增加(图1),这在一定程度上说明对于大数据科学的研究处于增长阶段。部分13年以前热门的栏目由于概念逐渐冷门或者名称变化,数量逐渐减少,如微计算机信息、教学研究等。同时可以发现网络技术、农业装备与机械化工程 、医疗信息系统等栏目数量没有发生明显变化。
不同主题下的期刊栏目数目变化
本文对数据集进行概率潜在语义分析主题建模,识别出标题中出现的高频词汇,并研究其分布规律。考虑文章中出现频率最高的词汇,因此我们基于关键词组以及文章主题进行PLSA分析。
图表2
经过多次循环发现,当K =5 时结果最优,因此将数据分配到5个潜在主题下。在此基础上,得到了潜在主题1的抽取概率以及对应的前 3 个标签,并将其最高频率作为主题代表词。 从图2可以发现,对主题1而言,它下面所属的“数据”、“信息”、“链接”、“方法”以及“信息”概括出了此标题主要是针对信息管理方面进行描述,在此将每组中前 3 个标签里概率最大的作为主题元素。
通过 图 2 ,可以很明显的观察到概率潜在语义分析法能够在一定程度上将具有代表性的标签显示出来。根据 图 2 所描述的主题1-主题5下的高频标签情况,可以观察发现,有一些标签如“数据”、“链接”出现在很多潜在语义下面,这有力地解决了一词多义的问题,在特定的某个标题下只有确定的某一个含义,同时也将具有相同或类似含义的标签根据选取的频率值进行过滤。
同时,在对应主题下的标签已经能够基本上将此资源在相应主题下的特征表示出来。比如对于主题 2 而言,它下面所属的“ 教学 ”、“学生”、“信息”概括出了此标题主要是针对学生 的 信息 技术教学 方面进行描述。
热门关键词在期刊栏目中的分布
接下来我们对比了文章中出现的高频关键词在不同期刊栏目中的分布,分析其分布规律。
图表3
从中我们可以看到 ,13年之后”信息“关键词出现最多的栏目是信息管理、教育研究和计算机与网络,13年之前是教育研究和统计研究,可见计算机与网络、信息管理和信息教育成为”信息”关键词相关文章的热门应用和研究领域。同时可以看到13年之后”数据“关键词出现最多的栏目是数据技术和信息管理,13年之前是数据库技术统计研究和微计算机信息,可见数据库技术、信息管理和统计研究成为”数据”关键词相关文章的热门应用和研究领域。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。