有关搜索引擎分析

4/11/2013 9:08:22 PM

    ——此文章摘自《精通Web标准建站:标记语言、网站分析、设计理念、SEO与BI(附光盘) 》定价:¥55.00 特价:¥41.25 购买>>

  20.2 搜索引擎分析

  本节主要介绍搜索引擎的分类和基本原理,以及对目前主流搜索引擎Google、百度、Yahoo的搜索排名特点分析。

  20.2.1 搜索引擎的基本工作原理

  1.搜索引擎的分类

  搜索引擎按其工作机制可分为3种:全文搜索、分类目录搜索和元搜索。

  全文搜索与分类目录搜索最大的不同在于信息获取的方式,全文搜索引擎使用网络机器人(Spider)或网络蜘蛛(crawlers)来抓取并分析网页。分类目录搜索使用人工抓取和整理内容。全文搜索引擎抓取网页数量大,但缺乏准确性。分类目录提供的内容有限,但内容质量较好,可信度高。全文搜索引擎的代表网站是Google、百度等,分类目录的代表网站是DMOZ等ODP(Open Directory Project)网站。

  元搜索是整合了多个搜索引擎的搜索结果,在一个界面提供给用户,严格意义上说不算是搜索引擎,如图20.2所示。

  图20.2 元搜索引擎界面

  2.全文搜索引擎的工作原理

  全文搜索引擎主要利用网络机器人或网络蜘蛛按IP段检查各个网际上的主机,如果发现有新的网站就开始抓取网站内容,被抓取的网页存放在搜索引擎的网页数据库中,搜索引擎通过特殊的分析机制,提取网页的有效信息和文本段存放于索引数据库中,同时提取页面链接存入搜索引擎的链接数据库中。

  网络机器人或网络蜘蛛会不定期地检查链接数据库中的链接,如果发现新内容便重新抓取网页内容,如发现链接失效,就删除失效链接,同时更新检索数据库。

  链接数据库会判断网页的外部链接等信息,通过特定算法形成网页排名,并发送给索引数据库。

  用户无论通过计算机、手机或PDA等任意一个可访问互联网的终端,只要进入搜索引擎,输入要查询的关键字,搜索引擎将自动从索引数据库中提取有效信息,按网页排名优先级将搜索结果反馈给用户。全文搜索引擎工作原理如图20.3所示。

  图20.3 全文搜索引擎工作原理

  20.2.2 主要搜索引擎介绍

  目前主流的搜索引擎主要有Google、百度、Yahoo!等。

  1.Google

  Google是目前全球规模最大的搜索引擎,它提供了简单易用的搜索服务,如图20.4所示。

  PageRank技术(网页级别)简称PR,是Google排名的核心技术。有关Google的SEO主要是围绕如何提高网站的PR值展开。

  图20.4 Google搜索引擎

  PR将从源网页指向目标网页的链接解释为由源网页对目标网页所投的一票,这样,PR会根据目标网页所收到的投票数以及源网页的PR值来评估目标网页的重要性。PR值较高的网页在搜索结果的列表中排名靠前。

  2.百度

  百度是全球最大的中文搜索引擎,如图20.5所示。

  图20.5 百度搜索引擎

  百度的排名核心技术是不透明的,且有人工干预的因素,但影响百度排名的因素可以总结为网页被收录的数量、指向网页的外部链接、网页的点击率、网页的更新频率等。

  3.Yahoo!

  Yahoo!是世界第二大的搜索引擎。Yahoo!最早是从分类目录搜索做起,目前还采用了自己研发的YST技术,提供全文搜索服务。

  YST是Yahoo!搜索技术(Yahoo! Search Technology)的简称。YST同样关注链接的质量、关键词密度以及网站的建立时间等因素。

  图20.6 Yahoo!搜索引擎