图书馆目录从门户向平台转型

2015/3/5   点击数:2767

[作者] 建中读书

[单位] 上海图书馆

[摘要] 2015年1月22日,在日本国立国会图书馆举办了“面向数字文化资源的信息架构:欧洲数字图书馆(Europeana)与国立国会图书馆的检索”研讨会。研讨会聚焦数字资源揭示和传播的未来发展。 我看了会议记录,有两个关键词给我留下深刻印象。第一个关键词是数字资源的“利活用”。“利活用”是一个独特的日语词汇,它包含了两层意思,一是利用数据,一是激活数据的再利用。“利活用”给予我们一个启示,就是如何让数据从独立或孤立的状态下解放出来,与其他资源建立更广泛的关联,也就是如同温伯格所说的,“尽可能多地增添可与其他资源关联的标签”,以免过于精细的分类反而给资源揭示添加障碍。而真正做到“利活用”,就要为数据的再利用、即二次利用创造条件。

[关键词]  关联数据 图书馆目录 平台



2015年1月22日,在日本国立国会图书馆举办了“面向数字文化资源的信息架构:欧洲数字图书馆(Europeana)与国立国会图书馆的检索”研讨会。研讨会聚焦数字资源揭示和传播的未来发展。

我看了会议记录,有两个关键词给我留下深刻印象。第一个关键词是数字资源的“利活用”。“利活用”是一个独特的日语词汇,它包含了两层意思,一是利用数据,一是激活数据的再利用。“利活用”给予我们一个启示,就是如何让数据从独立或孤立的状态下解放出来,与其他资源建立更广泛的关联,也就是如同温伯格所说的,“尽可能多地增添可与其他资源关联的标签”,以免过于精细的分类反而给资源揭示添加障碍。而真正做到“利活用”,就要为数据的再利用、即二次利用创造条件。

第二个关键词是图书馆目录体系的“平台化”。“平台化”是指将面向借阅的目录门户发展为面向信息交流的开放平台。过去的联机公共目录查询系统(OPAC)是一种门户式的体系,所谓门户,是一种自上而下的单向传播体系,现在的OPAC是传统目录体系的电子版,而具有平台功能的图书馆目录体系不仅要体现馆藏,而且要将馆藏与外部相关资源融为一体。

在这次研讨会上,欧洲数字图书馆介绍了从门户向平台转型的经验。欧洲数字图书馆是包含图书馆、美术馆、博物馆、档案馆和视听中心等在内的数字资源库,超过2000家欧洲机构为欧洲数字图书馆贡献资源,资源最多的是图像,然后分别为文本、音频、视频和3D资料。 该平台实施三个面向战略,即面向学术群体、面向创新群体、面向最终用户。该馆元数据2014年已拥有3000万件,其中被标为全免费开放(公有领域、CC0、CC-BY、CC-BY-SA)的占27%,约700万件,今后所有的开放数据都将实行全免费开放。 此外,一些发达国家图书馆如英国不列颠图书馆和德国国家图书馆等也正在推进将本馆的联机公共目录查询系统向平台转型。

从门户向平台转型的基础是关联数据化。随着信息通讯技术的蓬勃发展,Web已经成为人们获取信息的主要来源。但目前我们使用的Web,实际上是存储和共享图像、文本的媒介,电脑上显示出来的只是一堆文字或图像,对其内容无法进行识别,如果要让电脑进行处理的话,首先必须将这些信息加工成计算机可以理解的信息。因此现在的Web常常被称为文档的网络。即使目前有大量网页的内容是来自底层数据库的结构化数据自动生成,但网页一经生成,信息反而失去了在数据库中的结构化特征,而这一特征对于机器理解和处理信息是有用的。人们虽然能在HTML网页中建立超链接关系,但无法在生成这些网页的底层数据间建立关联关系,导致Web底层的海量数据孤立而分散地存在着,无法进行集成和互操作,形成一个个信息孤岛。 为了解决这个问题,蒂姆·伯纳斯·李(Tim Berners-Lee)提出了基于Web3.0的语义网概念。语义网重视开发计算机可理解和处理的表达语义信息的语言和技术,并使其具有一定的判断和推理能力。语义网面向文档所表示的数据,所以常常被称为数据的网络。

为了使Web上的资源结构化,可以在国际网络之间互联互通,并能自动汇集同一物件的信息,蒂姆·伯纳斯·李进一步提出了关联数据(linked data)的概念,它定义了一种URI规范,使得人们可以通过HTTP/URI机制,直接获得数字资源(Thing),从而实现一种Web上的富链接机制。从本质上看,关联数据是将超文本链接(即文件之间的链接)转变为超数据链接(即Thing之间的链接)。

传统的资源编目是以索引为基础的,但它是建立在完整资源库的基础上的。而一些比较发达的图书馆资源发现系统已经超越馆藏的范围,将馆外资源纳入自己的服务体系。可见,以索引为基础的资源发现系统是有局限性的,取而代之的将是最具潜在影响力的关联数据或开放的关联数据(linked open data),而且关联数据经过这几年的实践已经走向成熟。

关联数据是国际互联网协会(W3C)推荐的一种规范,它采用RDF(资源描述框架)数据模型,利用URI(统一资源标识符)命名数据实体,来发布和部署实例数据和类数据,从而可以通过HTTP协议揭示并获取这些数据。

RDF通过资源、属性和属性值来描述特定信息资源,每个陈述的基本结构都是这样的主语、谓语、宾语三元组。其中,主语是资源,谓语是属性,宾语是属性值。资源是指所有在Web上被命名的、具有URI(统一资源描述符)的对象。资源可以是一个完整的网页集合,也可以是网页中的一部分,或者是XML文档中的元素等。属性是用来描述资源的特定特征或关系,每一个属性都有特定含义。属性值可以是由文本字符串、数字等表示的字面值,也可以是其他资源。由此,各种不同的元数据格式都可以出现或运行在同一个界面上,提高了元数据的规范化和互操作性。

此外,目前Schema.org的开发者谷歌、微软和雅虎公司支持微数据(Mircodata)成为标准元数据格式,简言之,微数据是向页面添加结构化数据的一种简便方式。

关联数据最大的好处是二次利用,也就是说,数据可以反复被利用和增值。现在公共机构发布的数据很多都是诸如表格或文件结构的数据,这些数据对人来说阅读方便,但由于表格不统一或术语不统一,不利于机器对数据的二次加工。

蒂姆-伯纳斯-李根据开放数据的格式类型和语义网标准的应用提出开放数据的五星评价体系:

一星是数据可见,格式未定,属于开放许可,但属于PDF、JPG等格式,人可读但不可编辑;

二星是数据可见,并进行了处理,如做成xls、doc等人和机器都可读的格式;

三星是在上述基础上使用可开放、可编辑的非专有格式,如XML、CSV等,无需依赖某个特定的系统;

四星是用Web标准的格式公开,如RDF、XML,而且使用了URL链接;

五星是开放且可与外部资源连接的关联数据和RDF框架。

五星是最高层次。使用关联数据既能明确数据的含义,又能使机器可读和可反复利用。而且通过URI可以与其他资源有机地连接起来,如果再进一步使用表达词汇间关系的本体语言(ontology)的话,更能达到机器可懂的效果。比如,即使A机构的统计表只公布某地的人口数,而B机构的统计表开放面积数据的话,两者统合起来就可以计算出人口密度数据。

由此可见,传统的图书馆资源描述,专注于采集与作品的概念和其物理表现有关的信息,因此有学者批评说:“是图书馆给自己砌了一堵墙,在围城之内拥抱自己的书目数据,逐渐切断了与外界的沟通。如今,书目数据走向开放关联的努力正是为了打破这堵墙,让图书馆以开放、包容的姿态走向数据网络,这对图书馆的书目数据和图书馆人均是一个巨大的挑战。”

总而言之,要让知识流动起来,第一步是释放数据,同时让数据与其他数据关联起来,形成一个开放、关联的网络。

原文连接:http://blog.sina.com.cn/s/blog_53586b810102vh3m.html