关于数字资源统计的交流与思考
2025/5/10 点击数:7
[作者] 图谋博客
[摘要] 某外文数据库商工作人员提问:“COUNTER 5报告已经发布了很长一段时间了,很多图书馆也开始使用COUNTER 5报告。我发现一个问题,现在很多图书馆喜欢让我们填在线表格,但是在线表格中,他们使用的COUNTER 5的中文表述都是不准确的,五花八门,什么样都有。而实际上,DRAA是有标准说法的。我跟很多老师说过,我说们如果让我们填这些数据,比如说检索量,大家都公认的这个下载量也可以,像是这个TAA(totaI access amount)的,就比如说像Scopus,EI等等这些数据库,它是一个叫做全部访问量的说法。然而,各图书馆有各个馆自己的说法。有没有想法把这个事情统一一下,或者你有没有兴趣说写个微博或者是博文把这个事情讲一讲?“(注:上述内容依据语音识别整理,不一定准确。)“DRAA有官方统一的翻译,但是各个图书馆并没有遵循,造成我们填写时不知道应该怎么填?”“我想要提供原始数据给老师,让老师自己填,很多老师又不愿意。”
某外文数据库商工作人员提问:“COUNTER 5报告已经发布了很长一段时间了,很多图书馆也开始使用COUNTER 5报告。我发现一个问题,现在很多图书馆喜欢让我们填在线表格,但是在线表格中,他们使用的COUNTER 5的中文表述都是不准确的,五花八门,什么样都有。而实际上,DRAA是有标准说法的。我跟很多老师说过,我说们如果让我们填这些数据,比如说检索量,大家都公认的这个下载量也可以,像是这个TAA(totaI access amount)的,就比如说像Scopus,EI等等这些数据库,它是一个叫做全部访问量的说法。然而,各图书馆有各个馆自己的说法。有没有想法把这个事情统一一下,或者你有没有兴趣说写个微博或者是博文把这个事情讲一讲?“(注:上述内容依据语音识别整理,不一定准确。)“DRAA有官方统一的翻译,但是各个图书馆并没有遵循,造成我们填写时不知道应该怎么填?”“我想要提供原始数据给老师,让老师自己填,很多老师又不愿意。”
我的答复是:这方面的内容算是写过。但很难做到“讲清楚”。原因是“家家有本难念的经”。这里边的情况很复杂。大部分人只是为了完成任务。填数据的人,懂业务的不多。数字资源统计方面的标准规范,确实是较为混乱的。外文数据库,认真按照标准规范做的也不多。还有一个很现实的问题是,有些数据马虎不得,怕承担责任。关于数字资源统计,写过多篇博文。这方面的事情,愿意做的人越来越少了。我自个做,往往是挨骂的。比如抱怨看不懂,或者批评没写清楚(不能直接照搬照用)。
由此,对方感慨:“真的是,我们数据商感觉特别困惑,千变万化的项目,有时候只能瞎填。”我的角度,能理解。面临的困扰可能会更多。我算是盯得比较紧,同时也是迫不得已。
关于数字资源统计,近5年科学网图谋博客发布的博文有:《高校图书馆数字资源统计标准与规范实施的重点与难点》《COUNTER 5.1使用统计报告学习笔记》《圕人堂话题:数字资源统计标准与规范》《圕人堂话题:数字资源利用统计与绩效评价》《关于图书馆统计与评价的思考》《关于高校数据库利用统计的思考》《关于数字资源统计的思考》。另有两篇:《图漾:电子资源访问量统计标准与规范之我见》(分享同行的见解);《高校图书馆电子资源现行统计指标对比分析》(摘编《大学图书馆学报》2021年第3期刊发高凡等《高校图书馆电子资源统计指标体系设计与构建》一文)。
数字资源统计标准与规范是围绕数字资源的全生命周期管理制定的一套系统性规则,旨在确保资源的质量、可访问性、安全性及可持续利用。她在高校图书馆工作中很重要。COUNTER(Counting Online Usage of NeTworked Electronic Resources)是由全球图书馆、出版商和学术机构共同制定的电子资源使用统计国际标准,旨在解决学术出版领域长期存在的“数据孤岛”问题。其核心目标是通过统一的统计方法论和数据格式规范,实现图书馆与出版商之间资源使用数据的可对比性、可验证性和可重复性,为电子资源采购、评估和优化提供科学依据。种种原因,专业化、标准化、规范化可谓“道阻且长”“任重道远”,一言难尽。具体的实践探索,单单是每家每户的统计模块较为系统地体验一下,需要花不少时间和精力,倘若需要进一步与数据库商方面沟通与反馈,更需要劳心劳神。
实事求是,虽然我自2015年至今在数字资源统计方面投入的时间和精力真不少,但受到诸多制约(比如个人原因为见识有限、精力有限、能力有限),许多问题我同样属于一知半解。实践中,还裹挟着诸多复杂诉求。比如有时只是为了数据好看,有时只是为了让数据说“好话”(比如达到争取经费或缩减经费的目的),有时只是为了让数据于自身有利(比如为了在采购谈判过程中利益最大化)。数据能说多少话?其实还涉及许多变量,需要多角度、多维度综合比较、综合考量。某重要数据库下载量、访问量数字漂亮,拿得出手的科研产出(包括直接产出、间接)“寒碜”,很难从表象准确评判其“绩效“是喜是忧。许多工作,倘若较真,其实是可以较为准确测度的。较为遗憾的是“较真”不易,比如好些参照数据获取困难、好些数据真正准确读懂弄通并非朝夕之功。
数据库类型多种多样,有的数据库涉及多种资源类型,不同资源类型侧重点有所不同。DRAA侧重的是引进数据库,引进数据库的类型多种多样,营销模式多种多样,不同数据库商提供的统计数据良莠不齐。自2025年开始,应该执行COUNTER5.1标准,从我目前的了解看,实际执行的没几家。这是需要一个过程的。DRAA对引进数据库的经济效益评估,主要是针对检索成本、登录成本和全文下载成本,因此用户关注的统计值就是检索量、访问量、全文下载量。针对中国用户是否可以将这3个数据用一览表形式清晰揭示?高校馆用户,这些年人力资源越来越窘迫,相关工作人员的职业能力总体在下滑。我接触过好些同行,头部高校的分工较细(条块分割),有些问题,找到合适的交流对象是很困难的。统计数据有不同的应用场景,关注点及侧重点是不同的。比如,有些场景只是为了统计数据整齐划一,显得“形式美“。有些场景,是要作为决策参考的。比如测算绩效,黄金价格与白菜价格“等量奇观”不合适,但有若干场合就是这样“简单粗暴”。很多场合需要提供数据,有些数据实际是很难提供准确数据的。数据库越多的高校越头大。几个重点数据库,其实关注源头数据库的统计模块就好。(图谋注:这一段为5月11日后续交流整理,特此增补。)