虽说不同的访问方式造成使用上的一定差异,但它们却遵循相同的模式。在一开始,你需要选择一个可供扫描的文档集合。这样的集合也即是源.目前存在500多个源。然后,你输入一串字符描述你所要查找的信息,作为响应,WAIS将在指定的源中搜寻合乎要求的文档;接着,你挑选若干样例文档,并要求WAIS查寻相似文档。
把搜索限制在指定的文档集合内是很有用的,因为它有助于使WAIS只检索那些使用户感兴趣的文档。比方说,假设一个用户希望到法国旅游,想搜索那里的,当用户输入France(法国)进行搜索时,他将会得到关于诸如法国文学、法国经济或法国烹饪之类形形色色话题的文档。另一方面,若能把搜索限制在有关法国旅游信息的文档集合中,则将有助于确保检索到的文档是与旅游相关的。
在要求WAIS搜索文档之前,用户必须决定使用哪些文档集合作为源。但是怎样选择源呢不可思议的是,这也同样需要WAIS的帮助。
对于新用户来说,必须借助WAIS来搜索源使得这种服务显得不够方便。但在实际上,这种搜索并不复杂。当用户首次连接到WAIS时,系统将从一个被称作服务器目录(DirectoryofServers)的特殊源开始工作。服务器目录并不是一个常规的文档集合,与此相反,它包含的是可为WAIS所用的文档集合的描述性信息。因此,当用户通过使用服务器目录源来提出问题时,得到的回答就是关于文档集合的一个清单。
为搜索源的描述信息,用户可以输入一个句子或一些搜索词条;随后,WAIS将从头至尾地浏览服务器目录,并列举所有相关条目,其中的每个条目都将描述一个文档集合;在这之后,用户可以选择一到多个条目,并规定WAIS使用它们来进行随后的搜索。
由于篇幅很长的文档可能包含数以千计的不同单词,因而对于一台慢速的计算机来说,搜索一个文档集合可能要花费很长的时间。尽管如此,在大多数情况下,WAIS却很快就可以答复一个问题。
这种快速响应的奥秘在于被选择用于运行WAIS的计算机。与那些低速、小型的个人计算机相反,WAIS服务器通常运行于高速的大型专用计算机之上。例如,虽然一台普通计算机只包含一个处理器,但有些用以回答WAIS问题的计算机每台都包含了多个处理器,从而可以并行地处理与用户问题相关的所有各项工作。
在Internet中,人们有一个强烈的愿望,即实现知识的共享。查找许多数据库中有用信息的最佳工具之一就是WAIS.因为人们越来越习惯于使用公用的WAIS系统,WAIS收费数据库将会有商业发展的潜力。不管怎样,使用一个熟悉的系统对用户来说总是最方便的。
Archie:网上图书管理员如果我们接着使用图书馆的比喻,那么,从某种意义上讲,Archie是一个图书管理员。它定期、自动地访问众多的Internet服务器,将这些服务器上的文件索引成一个可以检索的数据库。
Gopher是一种专门的信息浏览服务。借助于信息浏览服务,用户可以搜索到那些存放了自己感兴趣条目的计算机。虽说模,人们往往无法通过每次搜索有限的几台计算机来得到自己想要的信息。事实上,Internet的持续增长最终将会使这种搜索毫无结果--联入Internet的计算机不断增加,其速度之快使得用户无法完整地浏览存放其中的信息。
为了跟上Internet的步伐,自动搜索(AutomatedSearch)看来是必不可少的。用户需要一种程序,不仅可以自动连接至Internet上的其他计算机,而且能够自动搜索规定的信息并报告结果。这样一种程序被称作Internet自动搜索工具,Archie便是代表。
Archie提供的是针对FTP服务器的查询与检索服务,不是一般资料库的检索服务。
FTP可接收远程计算机上的文件,显示目录,查找文件或下载文件。但是几千台机器上有成千上万个文件,究竟从哪里开始查找呢在早期的ARPANET中,只有几百台机器入网,网络资源很少,用户查询时也很方便,根本不用担心会找不到所需文件。那时的用户多为科学家、工程师,他们一般都知道哪里能找到信息,如果没有找到,他们也很容易向人请教。然而,随着Internet的扩展,文件查询已变得越来越难。
Archie的最基本的用途是在Internet上查找那些通过匿名FTP可以得到的特殊文件。当使用Archie的用户输入一个文件名时,他们实际上是在向Archie下达这样一个命令:请用我规定的名字在那些提供FTP服务的计算机上寻找所有文件名相符的文件。比如,当一个Archie用户输入搜索串forest(森林)时,该用户是在要求Archie:请查询在文件名中包含了‘forest’的所有文件。
Archie一开始只是为了满足加拿大麦克吉尔大学(McGillUniversity)内部职工查找匿名FTP节点的需要。它很快就流传开来,现在已遍布世界每一个角落,并且从任何地方都可以访问它。在Internet上有20多个公共的Archie服务器在运行。从理论上讲,对整个Internet,一个Archie服务器就足够了,因为对于所有用户来说,只要问题相同则其答案也将一致。之所以存在多个服务器,是因为单台计算机无法处理所有的用户请求。每个用户都可选择性能最佳的服务器,在这方面,用户的选择常常是地理上距离自己最近的服务器。
有三种方法可以访问Archie服务。如果你有Archie客户软件,你可从你的计算机上直接进入客户/服务器系统一样,Archie客户运行在本地机器上,而服务器却在其他机器上运行。使用Archie客户程序时,你可以给出一个命令(通常是archie)来指定你的查询参数。你可以选择不同的命令来控制查询的过程。
远程登录到Archie服务器是访问Archie服务的另一种方法。登录后,你可以在提示符状态下输入命令,结果将返回到终端屏幕中。大多数的Archie服务器都只支持有限数目的直接连接,所以当服务器忙时用Telnet的方法就很难。
运用Archie查找文件的第三种方法是使用电子邮件。它间接地访问Archie服务器,查询时间较长。你可以将包含了你的查询命令的邮件寄给Archie服务器,它会通过一个邮件向你返回结果。如果你发现某个Archie服务器因为太忙而无法处理直接连接,那么你可以通过电子邮件来提交你的请求,以确保相应的服务器在有时间时能自动地尽快处理你的请求。也就是说,你不必反复地尝试与相应的服务器联系。
Archie服务的核心部分是计入上千个匿名节点的文件系统的一个数据库。每个服务器保存着自己的数据库,此数据库即Archie服务器能够访问的文件的索引。特殊的资源发现软件每天晚上运行以更新数据库中大约1/30的内容,这样每个文件系统大约一个月就更新一次。Archie数据库包括大约250万个文件目录及其位置信息。服务器之间信息共享,这样建一个新的服务器时就可以免掉那些复杂的寻找资源的操作。Archie服务器一般都是运行Unix操作系统并和Internet连接的计算机,这些计算机大部分由大学、网络服务组织维护,并作为共用资源向Internet用户开放。
WWW:色彩斑斓的地球村落在网络上检索和查看信息这项工作叫浏览。浏览因而成为网络一个很重要的功能。我们已经初识了一些浏览工具,像Gopher、Archic和WAIS等。
如果你正在设想应该有某种更为简捷的途径,那么你会很幸运地发现这种途径确实存在。环球网,也称WWW或Web,是WorldWideWeb的简写。我国香港和台湾也译作万维网.它是使信息寻找变得快速、高效、直观的进程中举足轻重的一步。环球网是以一项名为超文本(Hypertiext)的技术为基础的。现在,更确切的说,超文本应该叫超媒体(Hypermedia),因为它既能处理文本,也能处理图形和声音。环球网已逐渐成为多媒体信息的源泉。它的目标是为Internet上的巨大资源提供一个简单而统一的界面。
WWW基于HTTP(HypertextTransportProtocol,即超文本传输协议)协议,采用标准的HTML(HypertextMarkupLanguage)语言编写,以URL(UniformResourceLocator)作为统一的定位格式,构筑起虚拟世界中的地球村落.这个既虚无飘渺又触摸可及的世界里,每个人都以平等的身份扮演着各自的角色,相互间完全是一种跨越时空的交流。在WWW上,坐在家中的你可以通过指尖和眼睛去感触世界,了解不同的地区、不同的民族、不同的文化,学习更多的知识,结交更多的朋友。WWW上的内容可以说千变万化、多姿多彩。有文化娱乐、世界军事、足球赛事、股市行情,有静态的图片、文字,还有动态的声音、图像。伴随着多媒体技术的发展,WWW上的多媒体内容也日益多了起来。WWW就因其图文并茂的信息集成能力及超文本链接能力而在Internet上广为流行。
超文本是包含与其他数据的链接(link)的数据。举例来说,在一部百科全书中,你翻到树木词条,在释文末尾,会有这样的话:有关信息请参见‘植物’词条。这句话即可视为一个链接,由树木延伸到植物.这只是一个简单的例子,环球网使用的超媒体要复杂得多。特别是,链接可能存在于文章各处,并非只出现在末尾。之所以有超文本这一称呼正是因为计算机文档有特殊性,难以用普通的文本来衡量。
仍以树木为例,如果你在环球网上阅读一篇有关树木的文章,每次提到一个新的树名都会有一个链接,每个链接都用某种方式表现出来,或者醒目化(Highlighted)或者加下划线,也可能用数码标示。如果你选择了某一链接,你会一下子跳到对某种特定的树的描述上去。这篇文章与相关话题,如森林、雨林等等,也存在链接,还可能有一些链接导向,诸如落叶林、针叶林这样的专业术语解释。没有理由把链接仅限制在文本范围内。我们也许会顺着链接找到树木的照片甚至声音。
超文本的绝妙之处何在Internet专家约翰·利文举过一个形象的例子。假如你曾在你所知甚少的领域作过研究的话,你肯定有过这样的经历:坐在图书馆里,双眼瞪着卡片目录发呆。你往往是从一点点信息,比如从一个主题词或名字着手,查找主题下的卡片并开始阅读。各种各样的新念头闪入你的脑海,向你提示可能能用其他主题下的名字继续检索的途径。即使你把所有的念头都写下来,你也只能挑其中之一深入下去,这样你就不得不离开面前的卡片抽屉去寻找另一个抽屉,从那儿你重新开始。有时,你的检索可能会把你引向一个完全不同的方向。
当你所深入的路径越来越多时,你可能需要往回走,看看自己前面所作的选择,并设想尝试一下一个不同的方法会得到什么结果。如果你认真做了笔记,这一过程可能会相对容易点,但往往是你必须重复自己的许多步骤。
超文本能组织材料,以便为这种信息检索服务。它在一个抽屉上放置一个手指,在另一个抽屉上放置另一个手指,依次类推。这样,它就能帮你顺着一条路径往下寻找,然后又往回走并沿一条不同的路径检索。
在传统的图书馆(即以书为载体的图书馆和以计算机磁盘为载体的图书馆)里,信息是按一定规律排列起来的,但从某种程度上来说又是随意组织的,要么按信息出现的先后顺序来编排,要么按字母顺序。这样的顺序一点都反映不出不同信息之间的相互联系。而在超文本世界里,信息是根据相互间的联系来组织。实际上,不同信息间的相互关系往往比信息本身更有价值。
在一个传统的图书馆里,一本书在同一时间内只能在一个书架上。比如一本关于大脑保健的书,要么放在医药这一栏下,要么放在心理这一栏下,但它不能同时既属于医药又属于心理.而超文本却不受此限制,它允许同一套资料同时以多种方式编排。一个文件若要同时与医药和心理这两个科目发生联系,对超文本来说,一点都不成问题。
举个例子,假设你对于某个特定的历史人物究竟受到了哪些影响这一问题很感兴趣。你可以从基本的传记资料着手,弄清楚他是何方人士、出生年月、父母姓甚名谁、他的宗教信仰及其他有关的信息。然后你可以在每一点上加以扩展,去查询在当时他所处的地区发生了哪些大事,在世界的其他地区又发生了哪些事,以及他的宗教信仰对他产生了哪些影响。把这些方面的材料都集中起来并弄懂它们相互之间的联系,你就得到了一幅关于此君的画面--一幅很难从单纯的名字和日期目录中得到的画面。这种方法的思路是连接文档的不同部分,使得信息不仅可以按传统的线性方式查找,还可以用交互方式查找。
超文本能制造出不同资料间的联系,从而使你能很容易地找到相关资料。当你看到不同资料间的联系的时候,你就可以开始设想由这些联系所构成的网络了。
环球网之所以引人注目,原因在于它能天衣无缝地把全世界信息连接起来。
1993年应该说是环球网历史上光辉的一页,环球网在Internet上突然流行开来,激起媒介和用户对Internet的重新认识,这要归功于Mosaic的开发。与基于文本的Gopher不同,它是一个多媒体式的浏览器。它具有显示格式化的文件、嵌入图形、视频与音频、链接其他类型文件的多种功能。这也就是它得名的由来(Mosaic是马赛克的意思)。