检索和搜索的故事

2011/9/7   点击数:1342

[作者] 强巴曲丹

[单位] 强巴曲丹_可也斋

[摘要] 不经意的一个关于搜索和检索的问题,牛人们纷纷关注。超平老师特别撰写博文。

[关键词]  搜索 检索 图书馆学



不经意的一个关于搜索和检索的问题,牛人们纷纷关注。超平老师特别撰写博文。

为什么最深奥的哲学问题反而通俗:你是谁?你从哪里来?你到哪里去?为什么最深奥的数学问题是1+1=2?不管是搜索,还是检索,这是图书馆学最根本的问题!不管你信不信,反正我信了。

就这两个词汇的理解综述:

——“左书右网”进行了辞源的考证:据段注《说文》:检,书署也,今俗谓之排,排如今言标签耳,从字义来看,似乎相对有规律一些。《康熙字典》引《集韵》《韵会》:搅搜,乱也,既然乱的话,则指向就不太明了。

——keven认为从英文词义可以进行区分,也就是retrieval不仅search,而且要obtain。但陈定权认为英语中也得看语境,有时候retrival仅仅指Obtain(Browsing也可以obtain),但如果Information Retrival则又指search。

——对词义的理解,云影流光认为检索针对序化的资源,有明确的检索点,可进行检索点的组配,而搜索针对海量的资源,从一个单一的入口切入,用户不必关心检索词是在后台元数据的哪个字段里,像搜索引擎、一框式搜索。当然现在这两个词也没有绝对的分界。一问则认为搜索是为了发现解决问题的线索,检索是为了获取主题确定的文献。奇正童话认为检索原是图情界用语,原是指在一个给定的范围内去查找,所以才有查全、查准一说。而搜索是网络时代用语,是在无边的信息海洋中查找,所以只有查快、有用一说。

——在词汇的使用上,基本上都认为检索是专业术语,而搜索是大众词汇。

我为什么会认为这个话题重要,是因为从2006年开始的自己建设数字图书馆系统平台开始,做到这一个环节,卡住了。经过探寻,也没有获得来自图书馆学的理论和方法指导!经过一段时间的思索,开始明白一些道理。

我明白的第一个道理是:目录学是图书馆学的唯一核心。在我当图书馆学的本科生的时候,这门课考了90分,但是并不喜欢这门课,因为死板,因为枯燥。在很长的一段时间里面,也没有认为这门课程的重要性,现在知道我错了,因为还不是重要性那么简单,而是唯一的核心。only one。

贝利如果到中国队,估计我们还是冲不出亚洲,如果换成马拉多纳来,可能中国队还能进入世界杯的四强。因为贝利仅仅是巴西队这个超级机器的最后一脚,而马拉多纳,这个天才的中场球员,是一支球队的核心。在那不勒斯,在阿根廷国家队,早就证明了这一点。

回到图书馆,还得从最根本的概念说起。图书馆是收集、整理文献,并提供利用的社会机构。从这个句子中,我们分析出图书馆的三个关键词:收集-》整理-》利用。很显然,整理是图书馆的“中场”,而整理的理论和实践依据是:目录学。有了目录学,图书馆就知道以什么样的馆藏体系去收集文献,读者也就能利用整理的目录体系,进而获取所需的文献,不论它是书本式的,是卡片式的,是MARC的。

刘向,中国最早的著名的图书馆学家,为什么?原来他就是做目录学的。

我明白的第二个道理是:传统的目录学对于数字图书馆建设和服务显得无能为力。

传统的目录学主要是针对馆藏的纸质藏书的。

自2000年开始,图书馆行业面对突如其来的海量的数字文献资源,在文献整理这个环节,显得多么地无措!

最简单的方法是把数据库罗列在主页上,做得好的,进行了学科的分类。后来图书馆人发现不行,要跨库检索,于是一些商家推出了一些产品,但效率很低,实用性差,没有得到推广。这个问题需要解决,就学习谷歌和百度,做元数据搜索,这是一个很好的解决方案,也出现了很时髦的词语:知识发现系统。但对于图书馆海量的、多种类型的数字文献,合适的元数据标准在哪里?如何能做到开放式地服务?用什么方式收割全部的文献元数据?这些数据如何使用?原来的数据怎么办?

标准系统、技术方法是这次载体革命后,目录学急需要完善的内容。很可惜,目录学家懂计算机和网络的太少,而IT行业理解目录学的更少,商家,则只顾自己的经济利益,想法设法牵着图书馆的鼻子走,抛出一个又一个新概念、新产品、新方案。

我觉得我迷失在漫无边际的迷雾中。

关联数据是一个很好的架构和思路,但是我还不知道它是否能解决数字时代图书馆的目录问题。

回到最初的话题,我认为目前需要用搜索这个词汇,替代所谓的行业专业术语:检索

就词义而言,检索很具有目录学气质,查检与索取,查检编制好的各种目录,进而获取文献。而搜索,搜寻与索取,不仅仅可以查检各种目录,还需要提供更多的用户需要的信息,其目的就是要满足需求,非常符合“读者永远是正确的”的理论,也非常符合以读者为本的2.0精神。

它的前面一定要有一个限定词:文献搜索。其对象是文献计量的基本单元,图书是册,论文是篇,图片是幅,音乐是首。至于图书的章、节、甚至全文的搜索,的确技术上已经解决,也有一些领域的产品,可是我们连基本的文献搜索都还没有做好啊,只能通过分类指导的思想,将诸如论文等文献类型过渡到知识搜索。

技术的设计与实现是简单的,但用什么保证图书馆文献搜索的内容和可持续性?只有目录学。

原文连接:http://blog.sina.com.cn/s/blog_5372e1620100ww1i.html