登陆注册
10701400000018

第18章 2 搜索引擎

3.2.1搜索引擎的系统结构与原理

搜索引擎的检索系统由以下几个部分组成:

1)搜索器

互联网每时每刻都在增加新的内容,为了及时反映信息源的情况,人们开发出一种名为“网络蜘蛛”或“机器人”的网页搜索软件,负责访问网络上的各个站点,搜集网上不断更新的网页信息并带回搜索系统。搜索器的主要功能就是在互联网中漫游、发现和搜集信息。它常常是一个遵循一定协议的计算机程序,即蜘蛛程序。她日夜不停地运转,要尽可能多、尽可能快地抓取网页搜集各类信息。同时,由于互联网上的信息更新非常快,所以还要定期更新已经搜集过的旧信息,以避免死链接和无效链接,保证检索结果的质量。

2)分析器

分析程序通过一些特殊算法,从蜘蛛程序抓回的网页源文件中抽取主题词,并对其赋予不同的权值,以表明这些主题词同网页内容的相关程度,以判断网页内容。分析程序的目的是从一个URL到相应网页的主题词建立起的一种关联,并通过对主题词的提取和分析,判断该网页所描述的信息。

3)索引器

信息进行分类整理,建立各种索引并更新搜索引擎数据库。索引器中将生成从关键词到URL的关系索引表。索引表一般使用某种形式的倒排表,即由索引项查找相应的URL,并以特定的数据结构存在索引数据库中。

倒排表是一个索引结构,包括两个索引表:文档表和术语表。

文档表由文档记录组成。每一条记录包括两个字段,一个是“文档标号”(DOC_ID),另一个是“张贴表”(POSTING_LIST),张贴表是一组出现在文档之中的术语的列表(或术语存储的地址表),它们按某种相关度量排序。

术语表则由一组术语记录组成,每一条记录中包含两个字段:一个是术语标号(TERM_ID),另一个也是“张贴表”,此表中记录了含有此术语的文档标号。

由此种结构可以很容易地完成诸如“请返回所有与一个(组)关键词相关的文档”或“请返回与给定的一个或几个文档中术语相关的所有术语”这样的请求。

例如,用户输入了3个关键词,则可在术语表中先查到三个术语的标号,取这三个标号对应记录中的所有文档标号的交集(公共部分),作为检索的返回结果。它们是同时含有三个关键词的所有文档的标号集,由此标号集对应为这些文档的链接地址,由此可链接并查到所有文档。

4)检索器

检索器的主要功能是根据用户输入的关键词在索引器形成的倒排表中进行查询,同时完成页面与查询之间的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。

5)用户接口

用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。主要的目的是方便用户使用搜索引擎、高效率、多方式地从搜索引擎中得到有效、及时的信息。

通过WEB服务器软件,为用户提供浏览器界面下的信息查询。每个搜索引擎都提供了一个良好的界面,并具有帮助功能。用户只要把想要查找的关键字或短语输入查询栏中,点击“查询”按钮,搜索引擎就会根据用户输入的提问,在索引中查找相应的检索词语,进行必要的逻辑运算,最后给出查询的命中结果(均为超文本链形式)。用户点击搜索引擎提供的链接点,马上就可以访问到相关网页。有些搜索引擎将搜索的范围进行了分类,如“网站”、“中文网页”、“新闻”等,在指定的类别中进行检索可以提高查询效率,搜索结果的“命中率”较高。

3.2.2搜索引擎的分类

1)按照信息搜集方法的不同分

(1)目录式搜索引擎(DIRECTORYSEARCHENGINE)。通过人工方式来搜集信息并对信息进行归类。首先,编辑人员通过查看相关网页,根据网页的内容提炼出主题词和网页摘要,并将该网页的链接归入事先确定好的分类目录中。这种做法与图书馆的分类人员所进行的工作类似。由于此类搜索引擎主要是由人工进行分类的,所以信息准确度高,能够比较好地满足查询者的需要。但是由于需要人工介入,因此目录创建的工作量大,收集的信息量有限,信息更新不及时。这类搜索引擎的代表是:YAHOO!。

(2)机器人搜索引擎(CRAWLER_BASEDSEARCHENGINE)。由蜘蛛人程序按照某种规则自动在互联网上搜集信息,并进行归类。具体内容参见上一节的介绍。这类搜索引擎的代表是:GOOGLE。

(3)元搜索引擎(METASEARCHENGINE)。元搜索引擎和一般搜索引擎的区别在于:元搜索引擎没有自己的数据库,它是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。这类搜索引擎的优点是返回结果的信息量大,缺点是不能够充分使用元搜索引擎的功能,用户需要做更多的筛选。网上的一些元搜索引擎地址如下:

HTTP://WWW。MAMMA。COM

HTTP://DOGPILE。COM

由于目录式和机器人式的搜索引擎各有优点,因此目前,各门户网站上的搜索引擎通常是将两者结合起来使用。例如,新浪在使用人工分类的同时,也使用了机器人搜索引擎。用户在进行查询时,可以同时得到两种不同的搜索引擎所反馈的结果。

2)按照检索软件分类

按照检索软件的不同,搜索引擎可分为三大类:全文数据库检索、非全文数据库检索、主题指南类检索。

(1)全文数据库检索。能够提供完整的文献和信息检索,查全率很高。但由于信息量非常大,检索起来比较困难,对检索技术的要求很高。

(2)非全文数据库检索。仅提供部分全文检索,有时需要二次检索,感到不太方便。但具有速度快、使用简便、索引量大的特点。

(3)主题指南类检索。是目前网络检索中最常用的检索软件。这种软件查准率高、速度快、使用方便。现大部分网站都具备主题指南类检索功能。

3.2.3搜索引擎注册

1)商业化注册及原因

在利用搜索引擎进行注册时,由两种途径。一种途径是分别到各个搜索引擎去注册;另一种途径是通过专业网站或软件进行一次性多个搜索引擎注册。

前者适合少量注册,后者涉及商业化的注册服务。在企业营销中,常用的是商业化注册。原因有以下几点:

(1)跟踪和了解搜索引擎站点资源是一件困难的事情

搜索引擎站点的数目很多,要掌握这些站点,并了解每个站点的特点,是一件十分困难的事情。用户如果逐一根据搜索引擎提供的站点注册入口进行注册,非常耗用时间。

(2)搜索引擎注册已经成为网络空间的一种技术

为了在搜索引擎结果中取得排名靠前,需要采用许多复杂的注册技术。搜索引擎排列结果所依赖的因素各不相同,而且搜索引擎本身也在不断变化,因此要想在众多搜索引擎中都取得靠前的排名,就必须针对不同的搜索引擎进行页面的优化。也就是说,要为每个搜索引擎定制不同的META和其他页面元素。

2)蜘蛛式搜索引擎的注册技巧

根据蜘蛛式搜索引擎的工作原理,可以采用如下一些方法使自己的网站排名尽量靠前。

(1)确定恰当的网页标题。网页标题是出现在WEB浏览器顶端名称栏的内容,即是网页文件源代码中<TITLE>标记符与</TITLE>标记符之间的那段文字。有些搜索引擎通过对网页标题的判断来确定网页主题内容是最重要的因素。所以,标题与主题的相关程度对决定页面的级别是非常重要的,在设计标题的时候应该紧扣页面的主题。

(2)META标记。<META>具有多种功能,具体的功能由它的两个参数指定。

其一,HTTP-EQUIV参数:具有多种功能,具体的功能由它的内容指定。HTTP-EQUIV=CONTENT-TYPE用来指定浏览器所使用的编码种类。

其二,CONTENT参数:具有多种功能,具体的功能由它的内容指定。CONTENT=“TEXT/HTML;CHARSET=GB2312"由来指定浏览器只使用GB编码汉字。

注意,这行语句的内容与格式基本上是固定的,不必深究它的细节,只要将它添加到网页首部即可。加入这行语句后,不管浏览器目前处于哪种编码状态下,“网上音像店”总是自动显示GB编码汉字。

此外,<META>标签能使搜索引擎更容易找到你的位置。在你的网页中<HEAD>标签和</HEAD>标签之间加上<META>标签,当然别忘了把你自己的信息填入引号之内。

<METANAME=“KEYWORDS"CONTENT=“ONLINEMARKETING,ONLINE,MARKETING,HIGHTECHNOLOGY,WEB,INTERNET,DUMMIES,GEN-IUSES,VEEBLEFETZER">

<METANAME=DESCRIPTIONCONTENT=“在互联网上订购、销售中外音像制品">:该行为搜索引擎提供简介信息;

<METANAME=KEYWORDSCONTENT=“音像">:该行为搜索引擎提供关键词信息。

注意:某些公司在他们的META标签内容上走了极端。他们使用了与之竞争的公司及其产品的名字作为关键字,以使访问者浏览自己的网站。这种行为不仅不道德,而且还会招致法律责任。

(3)拟定准确的头行和主体的内容。除了页面的标题之外,页面文件主体内容靠近主标题的正文部分的内容非常重要,通常也对搜索引擎判定页面的内容有较大的影响。并且有的搜索引擎,比如EXCIT就不支持META,它的“蜘蛛”软件自动将正文的前20行视为描述文字,并将其中重复次数最多的单词视为关键字。

(4)制作站点的通道页。多数搜索引擎拒绝对所递交的URL的第二级或第三级以下层次网页的索引。解决的方法就是做一个“通道页”(HALLWAYPAGE)。“通道页”中放置网站的所有链接。注意,某些搜索引擎限制接受同一域名下的网页数,所以建议在“通道页”中按网页的重要程度排序链接,而且每个“通道页”中的链接数应当控制在50个以内。

(5)优质的页面

其一,避免死链接。检查链接是否正确,避免死链接。

其二,蜘蛛软件对包含在图像中的超链接是不能识别的,也就是说,蜘蛛软件是不能沿着图像中的超链接过渡到下一个页面的。因此,除了图像链接之外还要包括文本链接。

其三,避免提交含有帧的页面。许多搜索引擎软件是不认识帧的。因此最好将主页设计成无帧的页面。

其四,经常更新。为了鼓励网页更新,搜索引擎将清除长期没有更新的网页。

3)目录查询站点的注册技巧

(1)提供良好的网页。由于网页经过人工的判断来决定是否纳入分类目录,所以设计良好的网页会增加进入搜索引擎的可能性。在YAHOO网站中,就明确指出了这一点。

(2)优秀的内容。根据搜索引擎的统计结果来看,尽管人们可以采取许多提升排名的方法,但是优秀的内容仍然是保证排名在搜索结果前列的保证。

(3)选好适合的目录。企业应当对自己的网站有一个准确的定位。企业需要研究搜索引擎的分类目录,看看企业的产品或服务最适合于哪个分类目录。登录到合适的网站目录对于企业的成功是非常重要的。

3.2.4搜索引擎流程图

在上网搜索之前,需要先定好计划,给出了一个搜索计划的例子,它以流程图的方式去搜寻关于“数据采掘”的学术文档。

3.2.5智能代理

1)概念

计算智能(COMPUTATIONALINTELLIGENCE)指用计算手段实现机器智能的方法,包括用符号运算和逻辑推理实现智能的传统人工智能和智能技术的新进展——神经网络(NEURALNETWORKS)、模糊逻辑(FUZZYLOGIC)、进化计算(EVOLUTIONARYCOMPUTATION)、混沌(CHA-OS)和粗集(ROUGHSETS)理论,强调依赖于数值数据的智能。

智能代理技术是计算智能的一种应用,它的硬件基础可以是互联网(INTERNET)或单片系统(SYSTEMONACHIP)。若使用互联网,智能代理可表现为在互联网上漫游的电子机器人群体,它们可用于完成各种各样的任务,例如,信息收集、网络控制等。若使用单片系统,它是单片系统中一种会学习的软件,该单片系统需嵌入在其他设备中使用,智能代理则以嵌入系统(EMBEDDEDSYSTEM)形式出现,这构成了智能设备。以嵌入系统为代表的嵌入计算正在成为信息技术后PC时代除互联网络外又一个国际研究热点。

2)应用

智能代理在许多方面有着重要的应用意义。

其一,信息服务。信息服务是最广大的用户群接触网络环境的首要渠道。对于信息内容已经相当丰富的英语文化圈来说,进一步提高信息服务的质量,改变目前信息服务中存在的“信息过载”和“资源迷向”的状况,是信息服务业面临的最紧迫的任务。智能代理正好可以适应这方面的需要。具体地说,用于信息服务的智能代理主要完成以下功能:①导航,即告诉用户所需要的资源在哪里;②解惑,即根据网上资源回答用户关于特定主题的问题;③过滤,即按照用户指定的条件,从流向用户的大量信息中筛选符合条件的信息,并以不同级别(全文、详细摘要、简单摘要、标题)呈现给用户;④整理,即为用户把已经下载的资源进行分门别类的组织;⑤发现,即从大量的公共原始数据(比如股票行情等)中筛选和提炼有价值的信息,向有关用户发布。这些都是使信息服务走向个性化主动服务不可缺少的功能。目前在此方面已经有了一些能够使用的系统,但智能化的程度还远远不够,且主动有余、过滤不足已经造成了一些负面的影响,亟待尽快发展更先进的人工智能技术予以解决。

其二,电子商务。越来越多的人看好INTERNET上的商业机会。网上的商品越多,在网上寻找商品就越是买方的一大负担;同时,卖方商品的推销也有一个对客户实行因人而异的主动服务问题。因此,采用智能AGENT系统,代表买方去网上查看“广告牌”、逛“商店”寻找商品甚至讨价还价,代表卖方分析不同用户的消费倾向,并据此向特定的潜在用户群主动推销特定的商品,都是非常有诱惑力的。

现在已经出现了几种在网络上运行的智能代理软件(比如WWW。SHOPFIND。COM,WWW。ROBOSHOPPER。COM),尽管人们对智能代理软件的期望很高,但是由于技术方面的限制,智能代理软件的功能仅限于完成某些特殊的功能,还不能尽如人意。

同类推荐
  • 像他们那样:激情·团结·人品

    像他们那样:激情·团结·人品

    《榜样的力量·像他们那样:激情·团结·人品》主要内容包括激情篇、团结篇、人品篇三个部分,分别介绍了与激情、团结、人品有关的名人故事。比如用微笑和热情置换成就和幸福的王凤莲、在困难中依然坚持不懈的霍金、通过不断学习,最终为国家做出重大贡献的邓稼先,还有团结协作,顽强拼搏的中国女排五连冠团体……语言通俗易懂、情节跌宕起伏,内容丰富多彩。鼓励、引导青少年以他们为榜样,最终实现自己的人生梦想。
  • 中国电力高等教育

    中国电力高等教育

    进行教育创新,已经成为新世纪中国高等教育发展的时代课题。武汉大学高等教育研究所编撰的《武汉大学高等教育研究丛书》是我校结合高等教育改革和发展的实际,推进高等教育创新的理论成果,也是我校高等教育研究发展的重要标志。
  • 课外名篇

    课外名篇

    读名著,更要读名篇,精彩纷呈的名家名篇独到精辟的名师导读实战备考的经典素材。精彩纷呈的名家名篇,独到精辟的名师导读,实战备考的经典素材,真材实料打通语文读写。
  • 儿童文学理论与实践

    儿童文学理论与实践

    本书分为上下两篇:上篇为理论篇,涉及儿童文学的定义、特征、功能、地位及历史发展,儿童文学文体论;下篇为实践篇,涉及文学作品阅读指导、佳作赏析,并设计了儿童文学作品的教学,提供了教案和活动设计指导方案。
  • 世界科技史速读

    世界科技史速读

    本书主要根据世界科技史不同领域,介绍世界科技史的发展概貌,能够让广大读者很好地理解和把握世界科技史,能够看出世界科技史发展的脉络。
热门推荐
  • 无尽宝术

    无尽宝术

    一个落入深渊的少年,一个超越轮回的至尊。一个为爱追寻的奇才,一个不弱于人的阎罗。阴阳,三才,八卦,金乌,雷道仙术,溺水之道,每一个宝术随手而来。妖山碑,人河石,巫殿碑,魔神树,每一件至宝伴随左右。这是一个名叫楚南,强势无比的传奇。以无尽宝术为道,话无尽为至简,以至简衍无尽的传说。
  • 不做炮灰:上班族的职场自救之路

    不做炮灰:上班族的职场自救之路

    公司乃是一个“小圈子,大社会”的职场江湖,《不做炮灰:上班族的职场自救之路》作者深入其中,描述了职场上最常见的17种炮灰类型,以一个个鲜活的小人物穿插其间,把职场上错综复杂的人际关系和利益链条清晰地展现在你的面前。通过有针对性的分析,引导你从技能上逐步增强自己的防御力和应变力,变被动为主动,最终改变自己的职场命运。
  • 仙师难求

    仙师难求

    仙魔大战之后,流红万里。“你想救他吗?”佛问。金光笼罩下沾满鲜血的双手,正抚摸着一张苍白的容颜,痴迷的眸光无比疯狂。转瞬,女子眸眼欲裂,青丝凌乱。”想。”话落同时呛然泪下。顷刻,天地之间万丈佛光,无尽业火化为灰烬。许久许久之后,相传九重天外的半月天,有一片赤焰红莲,千年不开,千年不变,直到某一日……“我回来了。”女子回眸看着迎面走来的男子浅笑嫣然,身后的红莲在那一瞬间陡然绽放。
  • 小猪猪知道的那些事

    小猪猪知道的那些事

    小猪猪想告诉大家一些事,说大也大,说小也小。大家想知道吗?
  • 相思风华录

    相思风华录

    “让一让!让一让啊!主角要开挂了,主角要开始装逼了,主角的光环要开始闪烁了!”“你见过毁容的丑逼主角么?”——摇头。“你见过哪个主角身边既没有boss又没有大神,只有战斗力渣五级、除了吃还是吃的妖艳贱货?”——摇头。罢职山神被不会卜卦却爱听故事的女神棍逼良为娼的日常。至于到底是谁制服了谁,谁又在被制服的过程中一点点把自己的节操吃掉?一篇一故事,一卦一浮生,一行行写入相思传。
  • 哟呵小姐

    哟呵小姐

    她,一个热亲爱笑的主儿,整天嘻嘻哈哈了个不停,他,冰山一座,身旁总是冷~嗖~嗖~的。一个是火,一个是冰(挺像森林冰火人儿的哈)他们相遇后到底是擦肩而过错过这青涩美丽而痛苦万分的爱情,还是冰火相容或又是两败俱伤,为了爱情,又是谁伤了谁的心火,是那么无私的奉献着,因为她爱他,而冰心里也装着另一个她,也仅仅只是虚幻的她,可又奈何命运的捉弄,一切如雾里看花,又那么的美,又那么的虚幻……
  • 血色狂妃

    血色狂妃

    孤儿被领养后感受到亲情,给予他亲情的人他必定会永世难忘。曾经的她是一个孤儿,公会出了奸细,被仇家攻破,父亲为了保命,派出自己的养女,她不忍,反抗换来的却是毒打,仇恨,不公,愤怒,沉睡了10年的力量觉醒,却是以生命作为代价......穿越异世附身在了一个废物身上,命运是如此的捉弄人,她的遭遇是与她如此相似,她发誓此生必定不能在受人保护,她要成为强者,她要让所有人知道她不是废物。
  • 月河桥

    月河桥

    工作是嘉兴市中级法院的一名法官。已发表小说100万余字,散见于《小说选刊》、《中篇小说选刊》、《中国作家》、《江南》、《山花》、《百花洲》等期刊。
  • 最妲己

    最妲己

    只得嘴巴上彪悍的苏招娣穿越成了苏妲己?没关系,改变历史原本就是穿越者的本职工作,嫁不嫁纣王这要看心情而定,关键是对方长的够不够帅。可问题是……尼玛,肚子里的孩子又是怎么回事,经手人又特码的是哪个王八蛋。哪吒?为嘛当妈的连给孩子取名字的权利都没有……还有,还有……哪吒你的小弟弟上哪去了……改变历史,尼玛,当大王还要通过元老投票的大商朝,这又特码的是哪门子的历史啊。微子辛,你个死胖子能不能把哈喇子收起来!伯邑考,吹箫的时候,咱能不能不翘兰花指丫……还有申公豹,长的难看点你会死啊!放下黑点虎,有种你骑老娘身上来!本书很混乱,请不要用正统的封神眼光来看待,否则,我只能抱歉,其实你不知道我知道你不知道我知道你不懂我的心。
  • 坠落的蝴蝶

    坠落的蝴蝶

    微凉的风让我打了一个寒颤。穿着轻薄婚纱的新娘,却是那么般的温暖。爱情是温情暖人的。说实在的,一个女人最漂亮的,趁着风华正茂,嫁个自己喜欢的男人。