博客聚合

从文本网到数据网

2010/9/14 点击数：416

[作者] Sketches on data services

[单位] Sketches on data services

[摘要] 传统万维网是一种文本网，万维网的工作原理是这样的，客户端（浏览器）发出一个http请求给服务器，作为相应，服务器返回一个HTML文件。客户端接受到这个文件并将其显示出来。传统的HTML文件，只是对文件的显示格式进行控制。当浏览器接受到HTML文件后，解析其包含的显示控制符，比如显示字号，是否是黑体，颜色等等，而无法判别文本的内容结构，例如浏览器可能将一段文本显示为黑体字但不识别这段文字的含义是什么，既不知道这段黑体字是标题，还是强调性文字。

[关键词] 文本网数据网

传统万维网是一种文本网，万维网的工作原理是这样的，客户端（浏览器）发出一个http请求给服务器，作为相应，服务器返回一个HTML文件。客户端接受到这个文件并将其显示出来。传统的HTML文件，只是对文件的显示格式进行控制。当浏览器接受到HTML文件后，解析其包含的显示控制符，比如显示字号，是否是黑体，颜色等等，而无法判别文本的内容结构，例如浏览器可能将一段文本显示为黑体字但不识别这段文字的含义是什么，既不知道这段黑体字是标题，还是强调性文字。

随着语义网观点的提出，人们不再仅仅满足于文本的传递，而且还关心所传递信息的结构，使得计算机能够获得更多的关于文本的信息，以便进一步处理。这种关于文本结构的信息就是我们所说的语义。所以，语义网的语义和通常所说的语言学中的语义是不完全相同的，这里的语义是一种机器语言的语义，是一套确保机器能够理解数据结构特征的语义系统。当文本的结构信息能够被机器理解并处理，那么文本就不再仅仅是给人读的文本（document），而同时也是能够被机器读的数据（ data）。这时，万维网不仅是一种文本网，同时也是一种数据网，即Web of Data。

数据网出现后，Web的性质就发生了改变，通过 http协议将网络的各种资源连接起来，通过资源描述框架（不一定是RDF），实现各种系统和数据之间的语义透明，使之能够实现语义通讯。这样整个数据网络就变成了一个分布式的数据库。

所以，数据网出现改变了网络(Web)的生态，Web资源不仅需要能够被人阅读理解，而且也应该能够被机器理解，使之成为能够被机器处理的数据。换言之，网络资源起码应该有两种形态States, 一种是人读的形态，一种是机器读的形态。这也是REST 的一个重要原理。例如，一个网络资源可以是text/html这样的一个形态，也可以有另一个application/RDF+XML状态，提供机器可理解形态。

从文本网到数据网的转变是我们关联数据的重要技术背景，只有将关联数据放在数据网这样一个背景下来理解，才能对关联数据有一个准确的认识。上海关联数据会议上我谈到这个背景，但由于时间关系没有深谈，今天算是做一个补充。

数据网的出现带来了万维网应用的“范式转变”，即万维网应用系统不仅是为终端用户服务，而且也要为终端系统服务，即人-机共享性。我们图书馆界通过万维网提供面向人的服务已经很成熟了，但是提供面向机器的服务还没开展起来，即我们图书馆的万维网应用范式还只是停留在传统的文本网范式，还没提升到数据网范式。我们讨论语义网、关联数据在图书馆界的应用，就是要转变图书馆网络服务的范式，使之向数据网范式转变。当图书馆服务完成这样的一个范式转变后，将脱胎换骨，焕发新的生机。

原文连接：http://www.linhq.net/archives/82