听K一席话,胜读X年书

2009/11/5   点击数:2212

[作者] 一问

[单位] 一问三不知

[摘要] 对元数据、语义网一直是半懂不懂,要说对各个单列的概念,也算有点一知半解,但整体来说,这些东东能干啥?相互之间在实际应用中怎么关联起来?那是一点概念都没有。今天跟K兄吃了这顿饭,总算开窍了。 不妨从一个应用来开始。这个应用是包含Ajax的客户端应用,开发者自然清楚客户端的页面有什么元素,因此也就能用Ajax构造出上下文敏感的动态URI资源请求,并能将这个请求生成的结果嵌入到客户页面中。

[关键词]  元数据 语义网 资源



对元数据、语义网一直是半懂不懂,要说对各个单列的概念,也算有点一知半解,但整体来说,这些东东能干啥?相互之间在实际应用中怎么关联起来?那是一点概念都没有。今天跟K兄吃了这顿饭,总算开窍了。

不妨从一个应用来开始。这个应用是包含Ajax的客户端应用,开发者自然清楚客户端的页面有什么元素,因此也就能用Ajax构造出上下文敏感的动态URI资源请求,并能将这个请求生成的结果嵌入到客户页面中。

好了,接下来的就是服务端的事了。关键是服务端可以接受什么类型的动态请求,或者说是这个请求指向的数据,是如何由保存于服务端的数据运算出来的。在URI和获取的结果之间,可以有数据表示的概念模型,这个概念模型既决定了URI请求翻译出来的语义,也决定服务端最终能提供多复杂的结果。这个模型可以表达成元数据标准。某个应用的元数据,实际上可以看成所存储数据的概念模型。有了这个概念模型,自然就可以通过预定义的、基于这些概念的公理运算,获得一些更复杂的结果。元数据的特性表现为“属性—值”对。公理的运算是在属性层面上的。对照关系数据库,属性大约可以看成就是域名或者列名。但数据库这个层面,只是数据的存取,是没有概念运算模型——也就是公理这回事的,随便写个sql就获取数据了。

从这层用法上,可看出元数据虽然也可以看成是数据的模型,但却是比关系数据更抽象的、具有固定语义的概念模型。它的语义包含在属性的关系当中。比如说color,那是指Name指向的那个东东的color。从 “属性之间的关系是确定的”这个层面上来说,属性的值——也就是数据如何保存并不重要,只要这个值符合某属性的约束并被置入到“属性—值”对中,它的意义才是确定的。否则,那只是孤立的数据,不是可用于属性运算的值。

接下来的问题,是元数据代表什么?从哪里来?理论意义上,一个元数据标准,可以对应一个应用领域所需要的资源描述。所以,很明白,元数据是领域应用的资源描述,从领域的应用中产生,是面向应用的。从这点出发,理解讲座中提到的DCAP、DCAM等等的关系,也就不中也不远了。这里头都两个问题了,一是what is resouce?二是元数据标准需要是强制标准么?K兄的意见是凡是可命名的都是资源,偶当时说凡是能相互作用的都是,后来改成有属性的都是,这其实等于说可知的都是。嗯,嗯,还是K兄说的直接。关于元数据标准是否需要强制标准的问题,下午K兄讲座时,有人提问,说偶们国家有无可能整合各种元数据的标准制定一个全面的标准。偶听了直想笑,人家是先有应用后有标准,偶们是没有应用先搞标准,这个弯没转过来,就是文化冲突了。由此也明白K兄曾说过的登记系统的重要性。那实际上是为元数据进化的提供一个现实的平台。DC制定政策来说,只是为了让DC标准的进化是可控的,而不是想一劳永逸。登记系统是这种可控性的必要设置。

元数据既然是资源的描述,那就有个如何理解资源并组织对资源的理解的问题,这就是FRBR和RDA了。以前编目的方法很简单,一是辨识标目,二是把标目填入象MARC这类比较符合直接辨识直接记录习惯的格式即可。FRBR推出了一个资源的概念模型,把资源分为作品、责任者、知识控制三部分。偶把这个看成是试图用某种哲学来理解世界。当然,这个哲学模型是共识,不是图学闭门造成的造出来的。RDA在此基础上扩展了这个模型,增加了若干层次。这样,由于抽象的层次多,对编目员的抽象思维能力也就高多了。多想多错,从实用的角度看,RDA也就不是那么用户友好了。有个折中的办法,就是按MARC格式著录,通过一定的算法映射到RDA。这方面说有几个开源软件了。K兄的看法是如果纯RDA编目的话,需要流程控制标准和IDE的界面才能搞得掂,也就不是现在书商抓抓几个民工就能编的MARC,编目可真的成高门槛的专业了。FRBR模型的优点是能揭示作品中很复杂的关联,特别是文学艺术作品的流传、演变和各种不同的表现形式。但对学术著作则帮助不大,学术著作的揭示要靠知识控制那块。似乎现在曾蕾老师牵头搞的工作组,要解决的是知识控制那部分的概念模型问题?标准的话题基本这些。

再回头说应用的事。元数据既然是概念集合,那么元数据的应用,就可以在概念的基础上进行集成,避免了建立一个应用要自己建立所有的数据,只要能获得这些元数据就可以了。但这是建立在有各种开放的API数据存取的基础上的。这样的话,元数据标准就成为了应用之间相互理解的基础。这个相互理解,就是元数据的互操作,这背后的推动力,实际上是数据开放API的存取。有数据又要开放,元数据才变得十足必要。不然只是在自己的小池塘里折腾而已。那数据为什么要开放呢?因为能赚钱。哦,专业点的叫利润增长点。象Amazon,先是在网上买书,再是什么都买。既卖之,自然要根据顾客的需要著录之,结果形成了史无前例的物品数据集,于是,想到开放API,让其他应用存取这些资源,量少随便用,日存取量达到一定数目可就要收钱了。这需要有个概念模型来归结资源的属性,这个模型就是很现实的元数据了。google也是如此。这个量少随便用真毒丫,搞得大家都在这些数据上开发,存取量大就收钱,好的应用就收编或者开发更好的。以后,应用越来越多,越来越好用,那些公司就成数据基础设施了。也因此这些公司总想左右元数据标准的制定,因为有数据才有话语权,搞得现在DC的影响还多在学术界内。

so,现在图书馆的问题就是解决开放API的问题,毕竟图书馆带点公益的性质。然后就是看看这些数据可以和哪些开放数据同居生出小宝宝应用,来更方便的扩展图书馆的影响了。

以前不知道元数据到底有啥大用,一顿饭从K兄那里挖出这么多东东,算是比较彻底的了解了元数据的前因后果过去未来原理应用了,以后该跟踪了解什么心理也大概有了个谱。饭吃完了。K兄坚持不让偶请客,提议的石头剪子布又输了,未能尽地主之谊,真是意犹未尽。回头要抓儿子多练练石头剪子布,下次好……哼哼。

原文连接:http://blog.sina.com.cn/s/blog_5707e8900100gh9w.html