词是承载文献内容的最小单位。词频的波动与社会现象、情报现象之间具有内在的关系,一定的社会现象和情报现象必然引起相应的词频波动现象。因此,如果某一关键词出现总频率越高,那么该关键词就是该研究领域的热点研究方向;如果某一关键词在近期出现,且增长幅度比较大,那么该关键词就是该研究领域的新兴研究方向。因此,词频分析的基本原理是通过词出现频次多少的变化,来确定热点及其变化趋势。
词频分析一般的过程主要分为:数据检索——数据清洗——词汇提取——统计分析等阶段。而数据检索和数据清洗加工决定了原始数据的准确性,从而影响结果分析的可靠性,因而需要特别注意。(未来将专门安排一讲有关的数据清洗方法与工具的内容)。
今日我们介绍的不是复杂难学的Bibexcel、CiteSpace 、SPSS、SATI等工具,而是几款简单实用的词频分析小工具,功能虽然不够强大,但足以完成一些基础工作。
一、图悦(网址:http://www.picdata.cn)
图悦是由谷尼国际软件提供技术支持的在线热词分析软件。其分析的文件格式必须文本格式,文本最长支持100万汉字。你也可以从网页中、WORD中等地选择你要分析的文本COPY到文本框,界面见图1所示。
图悦目前采用的分词方法是大词优先原则,比如“改革”和“改革开放”都是词,在统计词频时,“改革开放”中的“改革”不会计入“改革”的词频,算两个不同的词,输出的图有“热词词频图”、“词频柱状图”,图形模式有为标准模式、微信模式和地图模式三种模式供选择。
图1 图悦主界面
我们选择我国的“民法通则”作为分析文本,可得到如下图2、图3所示的热词权重图和热词词频图。
图2“民法通则”热词权重图
图3 “民法通则”热词词频图
图悦还可以导出Top150的热词,如果想查看全部热词词频,可以点击导出Excel按钮,将所有热词导出到Excel表中,见图4所示,打开Excel表可以看到按从高到低排序的所有热词,见图5所示。
图4导出热词界面
图5 Excel表中热词统计
二、NoteExpress(网址:http://www.inoteexpress.com)
NoteExpress 是北京爱琴海软件公司开发的一款文献检索与管理系统,其核心功能涵盖“知识采集,管理,应用,挖掘”的知识管理的所有环节,是学术研究好帮手。
NoteExpress可对文献信息进行多种统计分析,如作者、关键词、主题词等等,从而快速了解某一领域的重要专家,研究机构,研究热点等。
NoteExpress的数据既可以从电脑导入,也可以在线检索,其提供50多种在线数据库检索,包括国内外常见期刊论文、图书、会议、专利数据库等,如CNKI、万方、超星、WOS、PubMed、Google Scholar等。
我们以“数据清洗”为例,选择在线检索从CNKI期刊论文数据库下载了100条记录存入在NoteExpress建立的文件夹中,点击文件夹信息统计,如图6所示,就可以对导入的题录信息进行统计了,我们选择“关键词”作为统计对象,通过调整排序方式,可得到图7所示的结果。
图6 统计按钮
图7 统计结果
点击图7右下角中的“另存为”按钮,可将统计结果保存为文本格式,见图8所示,之后可将该文本数据导入到Excel中生成各种图形。
图8 文本文件
三、CNKI自带分析工具(网址:www.cnki.net)
CNKI大家比较熟悉,在此不再赘述。今天主要讨论其数据分析功能。
仍以“数据清洗”为例,在CNKI中选择篇名字段进行精确检索可以得到151条记录,这时我们可以在页面中间位置看到“计量可视化分析”的按钮,见图9所示。点击此按钮出现“已选文献分析”和“全部检索结果分析”两个按钮。
图9 计量可视化按钮
点击任一按钮之后,则会对相应文献进行文献计量可视化分析,分析的对象包括文献总体趋势、关键词关系网络、基金、作者、机构、学科、期刊等的统计分布等,见图10。
图10 计量分析结果
今天我们只截取有关关键词的部分,可以看到有关这151篇论文的“关键词共现网络”图和关键词词频分布图,见图11、图12所示。
图11 “数据清洗”关键词共现网络图
图12“数据清洗”关键词词频分布图
参考文献:陈兰杰等.数字信息检索与数据分析,河北大学出版社,2016