搜索引擎(Search Engine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。一个搜索引擎由搜索器 、索引器 、检索器和用户接口4个部分组成。
搜索器的功能是在互联网中漫游,发现和搜集信息。索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。
搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。
全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,国内著名的有百度、360搜索、搜狗。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。
全文搜索引擎是从网站提取信息建立网页数据库的概念,搜索引擎的自动信息搜集功能分两种:
一种是定期搜索,即每隔一段时间(比如Google一般是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。
另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。
随着搜索引擎索引规则发生很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录。
当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中关键词的匹配程度、出现的位置、频次、链接质量——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。这种引擎的特点是搜全率比较高。
从搜索结果来源的角度,全文搜索引擎又可细分为两种:
一种是拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,并自建网页数据库,搜索结果直接从自身的数据库中调用,如上面提到的7家引擎;
另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos引擎。
目录索引也称为分类检索,是因特网上最早提供WWW资源查询的服务,主要通过搜集和整理因特网的资源,根据搜索到网页的内容,将其网址分配到相关分类主题目录的不同层次的类目之下,形成像图书馆目录一样的分类树形结构索引。目录索引无需输入任何文字,只要根据网站提供的主题分类目录,层层点击进入,便可查到所需的网络信息资源。
虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已,用户完全可以按照分类目录找到所需要的信息,不依靠关键词(Keywords)进行查询。
目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词(Keywords)查询,仅靠分类目录也可找到需要的信息。
目录索引中最具代表性的莫过于大名鼎鼎的Yahoo雅虎,其他著名的还有Open Directory Project(DMOZ)、LookSmart、About等。国内的搜狐、新浪、网易搜索也都属于这一类。
元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。
著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo。
通用搜索引擎就如同互联网第一次出现的门户网站一样,大量的信息整合导航,极快的查询,将所有网站上的信息整理在一个平台上供网民使用。
大家熟知的搜索引擎Google、百度、雅虎、必应、搜狗、有道等是通用搜索引擎现如今的杰出代,他们为互联网的发展做出了重要的贡献。
通用搜索引擎的缺点:信息量大、深度不够、查询不够精准。
垂直搜索引擎为2006年后逐步兴起的一类搜索引擎。不同于通用的网页搜索引擎,垂直搜索专注于特定的搜索领域和搜索需求(例如:机票搜索、旅游搜索、生活搜索、小说搜索、视频搜索、购物搜索等等),在其特定的搜索领域有更好的用户体验。
垂直搜索引擎是专门针对某一个行业的专业搜索引擎,是通用搜索引擎的细分和延伸,对于网页库中的某类专们的信息进行处理、整合,定向分字段,抽取出需要的数据进行处理后再以某种形式返回给用户。
我们常见的淘宝、去哪儿、搜房等都是属于这一类的网站。
垂直搜索引擎优点:保证信息的收录齐全与更新及时、深度好、检出结果重复率低、相关性强、查准率高。
相比通用搜索动辄数千台检索服务器,垂直搜索需要的硬件成本低、用户需求特定、查询的方式多样。
集合式搜索引擎:如HotBot在2002年底推出的引擎,该引擎类似META搜索引擎,但区别在于不是同时调用多个引擎进行搜索,而是由用户从提供的4个引擎当中选择,因此叫它“集合式”搜索引擎更确切些。
门户搜索引擎:如AOL Search、MSN Search等虽然提供搜索服务,但自身即没有分类目录也没有网页数据库,其搜索结果完全来自其他引擎。
免费链接列表(Free For All Links,简称FFA):这类网站一般只简单地滚动排列链接条目,少部分有简单的分类目录,不过规模比起Yahoo等目录索引来要小得多。
(1)、所谓通用搜索引擎,并不能够囊括所有的网页,据google的人说,也就猜测覆盖了40%不到的网页,也就是说,更多的网页是没有被通用搜索引擎收录的。那些没有机会收录的网页,有些是需要身份验证等之后才可以看到,有些是根本未被通用搜索引擎的蜘蛛爬到,这些信息却往往是宝贵的,更有价值的。
(2)、在搜索收录的分析过程中,如果不加上行业特点和特性进行分析,很难说会更准确分析到网页的重要性和分析的准确。这个也是垂直的意义所在。当然,并非你垂直了,你的搜索收录和搜索结果就一定比通用搜索更准确。
(3)、通用搜索引擎一般就是一次性给你很多的信息。从这个角度讲,我们所看到的信息就会呈现出很大一部分的搜索垃圾,影响用户的感受,以及继续试用搜索的兴趣。而垂直搜索引擎应该可以更好的做到理解垂直用户的需求,从而给出更好的结果。
(4)、从搜索信息的结果来看,除了上面的垃圾会过多外,还会存在信息不符合要求的情况,有时候用户搜索某类事物,并以此作为关键字,他需要的是关于这个事物的数量、价格等甚至相关比较信息,而通用搜索引擎只能给你线索,给你网页。通用搜索引擎由于自身巨大,他做不到更深入分析后给出更符合行业、用户需求的结果。除此以外,垂直搜索引擎还可以粘住用户,从而区别通用搜索引擎。
(5)、在通用搜索引擎里面,其实也有类似产品服务的,如google的group和百度的贴吧。在这个分类里面,百度贴吧稍胜一筹。通过垂直搜索搜索引擎,是可以打造社区的。社区的一大特性是就是物以类聚,垂直搜索恰好是分类人群的很好途径。
(6)、由于垂直搜索引擎的服务对象有限,所以可以在基础成本上要少,从而可以更好为用户服务,可以在个性化服务上做得更好。
评论(0人参与,0条评论)
发布评论
最新评论