google搜索引擎收录网站的原理

探寻蜘蛛和探寻机器人搜索引擎要知道网上的新生事物,就得派人出去搜集。我们提到,在Yahoo创办初期,许多编辑天天泡在网上,访问新鲜网站,然后将搜集来的信息整理成序。当时的网站数量少,做起来比较容易。而现在新网站的出现数量、老网的更新都是爆炸式的,靠人工是不可能完成这个任务的。所以,搜索引擎的发明者就设计了计算机程序,派它们来执行这个任务。

探测器有多种叫法,也叫crawler(爬行器)、spider(蜘蛛)、robot(机器人)。这些形象的叫法是描绘搜索引擎派出的蜘蛛机器人爬行在互联网上探测新的信息。Google把它的探测器叫做Googlebot,百度就叫Baiduspider,MSN叫MSNbot,而Yahoo则称为Slurp。这个探测器实际上是人们编制的计算机程序,由它不分昼夜地进入访问各个网站,取回网站内容、标签、图片等,然后依照搜索引擎的算法给它们制定成索引。所以,这可不是“爬行”而是以光速来访问的。

一个搜索引擎会同时派遣出许多探测器。这些“机器人”或者从站主直接呈递的网站URL去访问,或者由一个网络用户所装的搜索引擎工具栏(比如Google工具栏)得知用户去的网站,或者是从一个网站中指向另一个网站的链接过去。探测器不一定是从网站的首页进入访问,所以,如果你要探测器访问你的其他网页,那么这个进入页就需要和其他网页相连。达到这个目的最容易的办法就是在每一页都加入指向首页的链接。

编辑搜图

请点击输入图片描述

但是,探测器对许多网站是不能完整取回信息的,这个大多是由于网站的设计没有按照搜索引擎探测器的思路来进行优化。比如,如果一个网页比较大,探测器也只能截取网页的首部,而且只能跟着少量的链接走。Google目前能够吸收100KB的文件,Yahoo会多一点。这个可以通过实验来检验。将一个搜索关键词放在一个很长的网页(约160KB)最后部分,然后看Google的缓存(cache)中显现网页的大小是多少。如果不出意料,Google的cache说这个网页只有101KB。很显然,一部分内容没有被Google抓走。

这个现象告诉我们不要将网页设计得很长、很大。将大的网页拆成若干小的网页具有多个好处:· 使得网页容易被探测器抓取。· 更容易建立合理的网站内部链接关系。· 每个网页可以更加集中在重要的关键词语。· 节省服务器的带宽。· 方便浏览者的阅读。如何将网站设计得更加方便搜索引擎来访,是搜索引擎优化的重要应用技术。

Google的Freshbot和Deepbot

Google使用两个探测器来抓取网站上的内容:Freshbot和Deepbot。深度探测器(Deepbot)每月出击一次,受访内容在Google的主要索引之中。刷新探测器(Freshbot)是持续不断地发现新的内容,例如新的网站、论坛、博客等。看起来,Google是发现了一个新的网页,之后频繁地再访,来看看是否还有什么新的更新。如果有,这个新网站就被加入到刷新探测器的名单中进行访问。

刷新探测器取得的结果是汇编到一个单独的数据库里,每一次刷新探测器进行新的一轮循环的时候都被重写。刷新探测器和Google主要的索引是合在一起提供搜寻结果的。这就是说,新的信息可能很快出现在搜索结果中然后就消失,直至一两个月后在Google主要索引中重新浮现。如果一个网页在Google主要索引中已经存在,刷新探测器取得的关于这一页的更新结果会出现几天,然后又退回原来的版本,直到深度探测器来访问这一页。我们知道的Google Dance——Google大规模调整索引的行动,就发生在深度探测器出访之后。

这个Google的操作模式就是收集-采编/索引-反馈的工作程序。事实上,搜索引擎包括下列几个元素。

· 抓取状态:搜索引擎派出探测器到互联网上不知疲倦地搜集网页。

· 网页仓库:搜索来的网页要集中在一个地方储存,等候索引处理。

· 索引整理:将网页分门别类,进行压缩,等候进行索引编类,而未压缩的原始网页资料被删除。

· 问询状态:将用户问询所用的白话转变成搜索引擎读懂的计算机语言,来咨询各个索引求得相关答案。

· 排名状态:搜索引擎将相关答案根据一定的标准以单子的形式排列给用户。搜索引擎认为最好的答案被推荐在首位,较次的排列随后,依此类推。

下面我们具体了解搜索引擎如何收录网站、遵循什么标准来排名,以及给搜索引擎优化从事者的挑战。

营销型网站