国内开放存取的研究热点:基于共词分析的文献计量研究

2010/3/9   点击数:1732

[作者] lowie

[单位] 开放存取:学术出版的理性回归

[摘要] 本研究采用共词分析法探索国内开放存取的研究热点。通过研究,本研究认为在2003年到2009年期间,国内学者对开放存取的研究热点集中在以下几个方面:OA期刊出版、自存储和OA知识库、OA期刊的质量评价、OA资源的长期保存、开放存取的发展对策、开放存取对图书馆的影响以及开放存取与学术传播的关系。

[关键词]  开放存取 研究热点 共词分析



国内开放存取的研究热点:基于共词分析的文献计量研究

李武

(上海交通大学媒体与设计学院 上海 200240)

董伟

(河北大学管理学院 保定 071000)

[摘要] 本研究采用共词分析法探索国内开放存取的研究热点。通过研究,本研究认为在2003年到2009年期间,国内学者对开放存取的研究热点集中在以下几个方面:OA期刊出版、自存储和OA知识库、OA期刊的质量评价、OA资源的长期保存、开放存取的发展对策、开放存取对图书馆的影响以及开放存取与学术传播的关系。

[关键词] 开放存取,研究热点,共词分析

Hotspot of Open Access Research in China: an Empirical Study based on Co-words Analysis

Li Wu

(Shanghai Jiatong University, Shanghai, 200240)

Dong Wei

(Heibei University, Baoding, 071000)

Abstract Based on co-words analysis of key words of papers on Open Access published during the period from 2003 to 2009, the authors conclude that there are mainly seven hotspots of OA research in China by far now, which are OA journals publishing, self-archiving, OA journals evaluation, OA resources long-time preservation, OA developing strategies, the influence of OA on libraries, and the reconstruction of scholarly communication system.

Keywords Open Access Literature Review Co-words Analysis

1. 引言

开放存取(Open Access)作为一种新的出版模式和学术传播模式,正在引起国际社会越来越广泛的关注,产生越来越重要的影响。开放存取不仅是一种机构的战略,更应该是国家的战略[i]。自从该概念被引入到国内学术界后,众多的研究者对这种全新的学术传播模式投入了极大的研究热情。同时,近年来也似乎形成了定期对“开放存取”的研究现状进行文献综述的习惯。王云才、陈红勤和刘锦红等人分别对开放存取在不同时段的研究状况做了梳理工作[ii] [iii] [iv]。这些文章对于我们了解开放存取的研究现状具有较大的参考价值,但这些研究均采用简单的频次统计法来考察作者、作者机构、来源期刊和研究主题的分布情况,在考察开放存取的研究现状,尤其是对于研究热点的揭示方面存在一定的局限性。

本研究试图克服上述研究中存在的不足,旨在更加完整、更加客观地反映开放存取在我国的研究热点。为此,本研究采用共词分析法。共词分析法属于内容分析方法的一种,其原理是对一组词两两统计它们在同一篇文献中出现的次数,以此为基础对这些词进行聚类分析,从而反映出这些词之间的亲属关系,进而分析这些词所代表的学科和主题的结构变化[v]。就目前所掌握的文献来看,共词分析法主要是通过共关键词或主题词的方法,分析鉴别某一学科或主题的主要知识结构和研究热点[vi]。与共被引分析法相比,共词分析法是对当前发表文献的直接统计,所寻找的是目前已有论文所集中关注的主题,反映的是在趋势形成之后的焦点,适合寻找新兴学科的范式或共同体,而共被引分析法则是通过分析以往发表的论文的被引用情况来表现人们目前关注的焦点,更适合于寻找成熟学科的范式[vii]。这也正是本研究为什么没有采用共被引分析而采用共词分析的原因所在。

2. 研究材料和方法

研究样本的确定。本研究选定CNKI期刊全文数据库作为获取数据的源文献。具体而言,本研究在2010年1月2日在CNKI期刊全文数据库中检索主题为“开放存取”或“开放获取”的相关文献(精确匹配),将时段限定为2003年到2009年,最后获得856条记录。通过初步的数据清理工作,包括删除与主题不符的文章和未提供作者关键词的文章,最后保留728条记录。

本研究采用共词分析法,共分三个阶段,每一阶段又逐步进行:

第一阶段——统计高频词和制作共词矩阵。包括:1)关键词的预处理。由于作者关键词未受词汇控制,本研究在进行词频统计之前进行了一定程度的人工干预。比如,将open access的中文译名统一为“开放存取”,将self-archive的中文译名统一为“自存储”等。2)计算关键词的出现频次,并选择频次不小于5的46个关键词作为代表学科主题研究方向的高频词。3)两两统计这些高频词在同一篇文章中同时出现的次数,形成共词矩阵。

第二阶段——基于共词矩阵进行聚类分析,同时考虑到聚类分析在面对聚类谱系图难以确定最佳的分类数的局限性,本研究参考因子分析所确定的因子个数来寻找聚类分析的分类点来解决这个问题[viii]。具体步骤包括:1)利用Lillifors检验法和卡方检验法对共词矩阵进行数据检验,结果判定矩阵数据不符合正态分布规律,也不符合均匀分布规律;2)鉴于矩阵数据不满足正态分布,本研究采用Spearman分析法分析46个关键词之间的相关关系,并抽取相关分析中的相关系数形成相关矩阵,然后进行因子分析。具体方法是利用主成分法、协方差矩阵与平均正交旋转方法进行因子分析,萃取8个公共因子。同时其因子个数碎石图显示最佳的公共因子个数区间为[6,8]。3)考虑到矩阵数据为离散数据,为了更好地满足进行聚类分析的条件,本研究用“1”与上述获得的相关矩阵相减,得到表示两两词间相异程度的相异矩阵;然后基于该相异矩阵进行分层聚类分析。具体而言,本研究将聚类个数的范围值选定为6到8个,在聚类方法方面选择离差平方和法,在距离测度方法方面选择离散型数据类型中的斐方法。

第三阶段——研究结果的分析和讨论。通过上述两个步骤,本研究获取了对国内开放存取研究论文的关键词进行共词分析的聚类结果,然后根据论文本身对这些研究结果进行进一步的阐释说明。由于论文数量众多,质量参差不齐,本研究将重点援引发表在核心期刊上的高被引论文。核心期刊的确定参考CSSCI(中文社会科学引文索引)2010-2011年来源期刊目录(不包括扩展版来源期刊),论文的被引次数则参考本研究于2010年2月1日在CNKI的引文数据库中的检索结果(检索式:被引文献关键词=“开放存取”+“开放获取”):至少被引1次以上的论文共有392篇,其中被引频次不小于6的论文共有145篇。

3.主要发现

参考文献

--------------------------------------------------------------------------------

[i] 初景利,李麟.国内外开放获取的新发展.图书馆论坛.2009(6):83-88

[ii] 王云才.国内外“开放存取”研究综述.图书情报知识. 2005(6):40-45

[iii] 陈红勤.2003-2007年我国开放存取研究文献计量学分析.情报科学.2008(9):1317-1322

[iv] 刘锦宏.我国开放获取研究论文计量分析.图书情报知识.2009(6):108-114

[v] 崔雷,郑华川.关于从MEDLINE数据中进行知识抽取和挖掘的研究进展,情报学报,2003(4):

[vi] 张勤,马费成. 国外知识管理研究范式——以共词分析为方法. 管理科学学报,2007(12):65-74

[vii] 马费成等.IRM-KM范式与情报学发展研究.武汉:武汉大学出版社, 2008.p:24

[viii] 马费成等.IRM-KM范式与情报学发展研究.武汉:武汉大学出版社, 2008.p:31

相对于受控主题词,作者关键词存在相对随意和主观的特点,为了弥补关键词这一特点可能带来共词分析结果的偏差,本研究事先对关键词进行了一定程度的人工干预。同时为了进一步提高共词分析结果的科学性,本研究采用因子分析法确定了用于聚类分析的分类取值范围。通过这些努力,本研究认为国内学者对开放存取的关注集中在以下七个方面:OA期刊出版、自存储和OA知识库、OA期刊的质量评价、OA资源的长期保存、开放存取的发展对策、开放存取对图书馆的影响、开放存取与学术传播的关系。

应该说,本研究通过对728篇文章关键词的共词分析,直观形象地揭示了国内开放存取研究的七大热点,具有一定的现实意义。这一研究发现不仅对于我们了解国内学者对开放存取的关注热点具有较大的参考价值,而且也可以说在某种程度上为我们今后继续开展研究指明了方向,包括加强某一现有研究领域和开拓某一新的研究领域。但总体而言,本研究尚属探索性研究,还存在许多不足之处。比如说,在高频关键词的阀值确定方面,本研究并没有非常充足的理论支撑,很大程度上只是根据以往经验选定5作为高频词的阀值,具有一定的主观性。另外,本研究考察的文献类型特指期刊论文,并没有涉及其它类型的学术文献。以学位论文为例,自从2005年以来,国内已有多篇开放存取研究领域的硕博论文问世。如果将这些学位论文也统计在内的话,也许对本研究的结论会起到一定的修正作用。

4. 讨论

5. 结论

原文连接:http://openaccess.bokee.com/6951009.html