2006年的国际数学大会把菲尔兹奖颁给了证明庞加莱猜想的俄罗斯数学家格里戈里·佩雷尔曼。但是,佩雷尔曼的论文仅仅发表在开放预印本库arXiv.org,这在中国的科研评价看来,根本就不能算“学术论文”,更别谈获奖了!
中国“核心期刊”从过去的检索手段,如今演变成为科研评价的绝对指标,同时,交叉重叠、莫衷一是的量化标准更加剧了科研评价的不公平、不公正。这种现状反映着背后僵化的量化思维,亟待改变。请“核心期刊”走下神坛,倡议发展更加丰富多元、求真务实的科研评价机制,正是本文作者对这现状的回应。
文/张晓林
《中文核心期刊要目总览2014》(简称《总览》)发布后,我们针对它在计算期刊学科影响力时的不科学不合理做法,已经做了若干评论(详见文末参考文献)。通过这些分析,我们开始意识到,问题的根源可能就在于“核心期刊”概念本身,在于我国学术界、期刊界,乃至科技管理领域的“核心期刊”情结。因此,有必要对“核心期刊”正本清源,避免造成对“核心期刊”及“核心期刊目录”的误解甚至迷信。
中国特色的“核心期刊”现象
1. “核心期刊”的“绝对”与“脆弱”
在我国,“核心期刊”是一个重要的现象、指标和名誉。许多机构都明确和公开地选用某个核心期刊目录(或者自己选定一组期刊组成“核心期刊”),规定在应聘、晋升、考核、申请项目、奖励时只接受发表在“核心期刊”中的论文。
这似乎在说,一篇论文发表在核心期刊上就是好论文,一种核心期刊上的所有论文都达到了一定的学术水平;反之,一篇论文无论其真实学术水平如何、实际效果有多大,只要没有发表在核心期刊上就不能算数。笔者多年在管理岗位和各种评聘中的经验也证明,没有发表在核心期刊的论文往往没有资格进入评审,而对于那些“核心期刊”论文,实际评聘过程中也没有多少人仔细阅读和评价。
但是,有所求就会有所应。许多著名机构对编选“核心期刊目录”进行了长期研究,投入规模大,积累时间长;许多期刊把进入核心期刊目录作为努力的目标、在进入某个目录后就在期刊封面显著注明自己的核心期刊地位;许多作者费心费力、采取各种方式要把论文“发表”在“核心期刊”上。
但国际学术机构却并不看重所谓的“核心期刊”,而是最看重学术科研本身。2006年国际数学家大会将当年的菲尔兹奖授予了证明庞加莱猜想的俄罗斯数学家格里戈里·佩雷尔曼,美国克雷数学研究所也在2010年将100万美元的千禧年数学大奖给予了佩雷尔曼,而佩雷尔曼证明庞加莱猜想的论文从来就没有发表在任何期刊上,更不用说什么核心期刊了,而是发布在开放预印本库arXiv.org上。
如果按照我国许多机构的规定,佩雷尔曼的论文根本就不能算“学术论文”呢!难道在我国学术生活和职业发展中如此举足轻重的“核心期刊”概念,在真正的科学大奖面前就如此不堪一击了吗?
2. 优秀论文不问出身
我们仔细想想,几乎所有的科技发达国家里,很少有严肃的科研教育机构会事先规定一个核心期刊目录,要求人们在应聘、晋升、考核、奖励时呈交的论文必须来自这个核心期刊目录中的期刊。人们会根据论文本身而不是它们的“出身”来判断论文的学术水平。英国英格兰高等教育资助理事会(HEFCE)等组织的英国大学学术卓越性评价(Research Excellence Framework)并不要求提交评价的论文的“出身”,澳大利亚学术评价(Excellence in Research for Australia)在2012年及以后的评审中取消了原来依靠一个期刊排序表的做法而依靠评审专家的专业判断。
那么,我们是对评审专家的学术水平、学术公正或者学术诚信不自信,因此才会依赖一个核心期刊名单?或者是实在没有时间或不愿意花时间去评价论文本身、才让一个“核心期刊”目录作为“过滤器”来减轻负担?要回答这个问题,有必要对“核心期刊”及其遴选机制进行追根溯源。
“核心期刊”概念可能是笔糊涂账?
1. 核心期刊的前身:作为检索手段的遴选代理
我们也许应该看看“核心期刊”的历史内涵。
从某种意义上讲,“核心期刊”是纸本时代的一种检索手段。在纸本时代,人们面对发表在众多期刊上的众多论文,自然希望先选择少数“可能刊登了较多较高水平论文的期刊”作为一个遴选代理,帮助自己缩小需要阅读的范围来“找到值得读的论文”。这也许就产生了评价期刊质量、遴选“核心期刊”的需求。另一方面,“核心期刊”也是图书馆在纸本时代的一种选刊手段,图书馆因为采购经费限制,只能选订一部分期刊,因此也需要遴选出那些平均论文水平比较高的期刊作为“值得订阅的期刊”。
为遴选这样的核心期刊,有的机构依靠自己的学者进行遴选,也有的机构依靠某个客观机制来选择,例如汤森路透公司的期刊影响因子。期刊影响因子通过期刊在一个时间段内发表论文的被引次数来反映“期刊学术质量”,这种指标本身有一定的合理性。一种期刊通过自己的学术标准、同行评议专家水平、学术诚信控制能力、编辑能力等,努力保障自己所发表论文的学术水平,而论文的学术水平可以在一定程度上通过论文的被引用频次来体现。
因此一般来说,期刊的学术质量水平与所发表论文的平均学术水平正相关,因此也与其平均被引频次正相关。这样,利用以前发表论文的平均被引频次就可以在一定程度上反映该刊的学术质量水平。所以,人们用如此计算得来的期刊影响因子在一定程度上反映该刊的学术水平。
2. 期刊的高质量不保证论文的高质量
但是,即使我们承认引用统计能在一定程度上反映学术期刊的学术影响力,而影响因子本质上是且只是期刊质量的评价指标。期刊的高影响因子从来就不能简单等同于发表在这个期刊上的某篇具体论文的高质量,高影响因子期刊上也有许多论文无人引用或者所发表论文也会因为学术不端或失误等被撤销。例如,Nature不得不撤销弄虚作假的小保方晴子的论文;有研究指出,多种著名期刊都有多篇论文(其中不乏高引用率论文)因为科学不端行为而被撤销。
因此,不能因为一篇论文发表在某个高影响因子的期刊上就认为这篇论文一定是高水平的。那种通过发文期刊的影响因子来代表具体论文水平的做法本身是不科学的,那些宣传“论文影响因子”、计算某个研究人员的“发文平均影响因子”、或者统计某个研究团队或研究机构的“论文平均影响因子”或“论文累计影响因子”的做法更是已在荒唐的边缘。
3. 互联网检索淡化了学术期刊的“核心”价值
值得关注的是,有研究发现,来自高影响因子期刊的高被引论文比例在不断下降,来自非高影响因子期刊的高被引论文比例在不断上升。其实,这反映了学术期刊网络化检索利用的现实。在Google、Bing、百度、CNKI以及大规模集成检索系统已经成为人们检索文献的主要工具时,以期刊为主的文献检索已经让位于以论文为主的文献检索,期刊本身作为一种遴选机制的作用迅速下降,而图书馆采用的Big Deal采购机制(购买大规模期刊数据库而非单独期刊)也明显淡化了“核心期刊”的作用。
“核心期刊目录”及其遴选可能出了什么错?
1. 不合时宜的期刊遴选 莫衷一是的量化标准
在期刊遴选作用实际上不断弱化的同时,我国的“核心期刊”评选依然方兴未艾,而且我国的“核心期刊”名单何其多也!不仅多个研究机构编制了多个核心期刊目录,国务院学位委员会等也提出了自己的核心期刊目录,许多教育科研单位又有自己的目录。
这些目录一方面都是在一定程度上依据论文引用数据作为基本客观数据,另一方面又“各有创新”引入许多间接指标,再加上出于种种原因各自设计出不同的分类体系,因此造成一种期刊在不同评价体系中出现在不同类别、出现在不同排名位置,甚至在有的体系中排名很高的期刊在另一个体系中名落孙山。而且,近些年又有许多新的“评价指标”被不断地“研究”出来,使得几乎每一个稍稍正经点的期刊似乎都能找到一个有利指标来彰显自己的“高水平”。这样,“核心期刊”遴选成为研究热点,相关“市场”也持续火爆。
2. 互相庇护的引用联盟 发展艰难的专门期刊
这种局面往往导致学术期刊为获得某个体系的青睐而采取种种“有利于提高期刊影响力”的非学术做法。例如,《总览》惩罚那些发表跨学科论文的期刊,就会助长期刊只关注和发表“本学科”的内容,因为在有限发文量内发表跨学科论文将导致自己的“本学科论文的引用量”的减少,这实际上导致“画地为牢”和必然的“坐井观天”。这还容易驱使部分期刊建立“引用联盟”,相互“友情”引用来提高自己被引量,毕竟“引用联盟”只有在“本学科”中才能有效建立。另外,这往往造成对特色化专门化期刊发展的阻碍。
为什么在我国专门化期刊难以发展呢?除了管理体制的原因(例如许多属地办刊)外,要获得较多“学科内引用”,就要发表这个学科领域内不同人员都读得懂的论文,或者在本学科所有主题领域都发表论文来覆盖各种引用可能,因此涉及宏观主题、宏大叙事和“热点主题”的论文以及综述等可能就受欢迎,因此许多期刊发表了上至宏观哲学般内容、下至非常高深细微的技术内容,不管自己的评审专家或编辑是否能看懂。
有的评价体系不得不承认自己的遴选方法对一部分期刊不公平,却宣称自己本身就没打算进行全面评价,因此是否客观和公平似乎就没关系。但是,当这些体系采用的核心评价方法与科学研究主要趋势不一致、与学术期刊本身推进学科发展的宗旨不相符、与真正的符合发展趋势的学术质量无关时,它就已经失去了整体上的可信度。何况实际上,没有一个体系会说自己只是“部分期刊的核心期刊目录”,人们也会在实践中把它作为一个普适的体系来应用。
3. 评选暧昧 呼吁透明
还有,许多“核心期刊目录”的评选过程并不透明,数据来源及其计算不清楚,往往还人为加入了许多主观“调整”,而“调整”的依据以及“调整”操作者信息也不公开。我们没有证据说明其中存在“任性”,但我们也没有数据可以对其进行重复验证。我们呼吁所有的“核心期刊目录”体系公开自己的所有数据及其计算方法,公布自己主观评选时的定性指标及其判断依据,公布自己“调整”遴选结果的依据。如果这些评选及其调整是科学、严谨、规范的,其结果就应该在同样的数据、标准和流程条件下可重复验证。将数据、过程和责任人员予以公开,这已经成了科研领域和出版领域的基本要求,也是公信力的基础。
其实,国际科技界《研究评价的旧金山宣言》、《关于研究评价原则的莱顿宣言》和中国科学院学部主席团《追求卓越科学》宣言中都要求科学地应用评价指标和评价体系。如果仍然坚持对“核心期刊”的迷信和对“核心期刊目录”的迷信,本身就说明在学术评价和期刊评价上的肤浅和不负责任。
都是“指标驱动”惹的祸?
1. 科研评价依赖显性量化 痴迷指标引发学术不端
也许应该指出,“核心期刊”神圣化以及“影响因子”神圣化本身还不是问题的全部。问题还在于我们对科学的评价过度地依赖某种显性的、最好是量化的指标。这种对指标的依赖似乎已经在很大程度上绑架了我们的意识,造成“指标驱动的评价”,甚至“指标驱动的研究”。
笔者曾在Nature举办的一个讨论会上反复听到我国研究人员问“我怎样才能在Nature上发表论文”,尽管Nature编辑回答说“你需要做一个高水平的研究”,但提问者明显感到“不解决问题”。我们看到,问题和答案的出发点有明显的差异,很可能导致人们行为的差异。
对于提问者来说,发文-->在核心期刊发文-->在影响因子尽可能高的期刊发文,已经成了科研是否成功、工作能否“交账”和“职业生涯”能否发展的主要(甚至全部)依据,成了各类机构的宣传重点、成就象征和评价条件。这就在潜意识上、甚至在实际评价和管理中造成只要发了文章就“功成名就”,至于是否真正解决了问题、是否解决了对科学或对发展真正重要的问题,那已经无关紧要了。那么,为了快发文、多发文、发那些高影响因子期刊“喜欢发”的论文,可能就直接导致追风式科研、短平快科研、碎片化科研等,也容易诱导科学不端行为。
对指标的痴迷也对办刊理念和办刊方法带来负面影响。例如,前面已经提到的对跨学科内容的回避、对特色化办刊的回避、对“热点”主题的盲目追逐、对冷门问题的冷漠,等等。而且,对指标的痴迷还会驱使期刊“想方设法”把引用量“做上去”,这在一些圈子里已经成了交流的热点、密室交换的利器,甚至专业化“杀手锏”。有些期刊在这方面颇有“创新”意识,例如少发文章、发表综述文章、奖励作者引用自己刊物、建立“引用联盟”等等。
2. 热门引用不等于杰出思想 引用指标一样要走下神坛
其实,许多看似神圣的指标本身应该走下神坛。前面我们对“核心期刊”去神圣化,现在来分析“引用”这个指标本身。“引用”作为影响力指标,是假定“引用”代表了使用、使用代表了影响、影响促进了科学发展。在大量文章的大量引用情况下,从平均来说“引用”确实能够从一个方面体现“关注”和“影响”,但是,引用本身有很多原因,热门引用论文不一定代表了杰出科学思想,引用量并非一定与论文的学术水平严格正相关。
Nature在2014年发文指出,许多提出了后来获得诺贝尔奖的发现或创造的论文并不在高被引论文名单上,“史上引用量最高”的论文往往是与方法、数据等有关。尽管我们承认这些论文的效用,但它们往往不能代表所在学科的学术创造方向和一流学术水平。
而且必须看到,引用指标严重偏向基础研究论文,因为人们写一篇论文时必须引用其读过的另一篇论文才产生“引用”,因此“引用“作为指标有利于把学术论文作为主要产出的基础研究领域。但是,技术应用、科学普及、政策研究等方面的学术和研究,它们的读者受到“影响”后往往不是再写一篇研究论文,而是开发技术和工具、改变或完善政策、组织生产或管理、开展教育等。因此对这些领域,即使很大的“影响”也往往不是通过其他新的论文来体现,也可能带不来很多的引用量,因此在那些以引用量为基础的评价体系中就缺乏“价值”。
另外,区域性主题、细节化问题,甚至高深的突破性的创新,往往比那些“全球性”问题或“宏观性”问题的“受众”少,因此,无论其研究水平和创新程度有多高,自然也不会有多少引用。试想,如果霍金没有写《时间简史》,有多少人知道他呢?
我们不反对采用指标,包括采用量化指标。许多指标,如果正确地计算和正确地应用,有其客观的有限的作用。但是,把任何指标用到它本身力所不逮的程度就变成了荒唐,真理超过一步就是谬误。
最后需要说明,我们批判某些指标体系的错误,并不指望甚至不希望又出现一个超级精细和“全面”的指标体系。任何指标都无非是从某一个角度观察复杂世界的投影,而异常复杂纠缠的指标体系往往可能存在更多的问题。我们的目的是排除对指标的迷信,不被指标(更不用说其中错误百出者)所裹胁。
(作者为《现代图书情报技术》主编)