600字范文,内容丰富有趣,生活中的好帮手!
600字范文 > 服务器处理蜘蛛抓取网页的过程 搜索引擎抓取网页的蜘蛛爬行流程

服务器处理蜘蛛抓取网页的过程 搜索引擎抓取网页的蜘蛛爬行流程

时间:2020-06-03 18:43:34

相关推荐

服务器处理蜘蛛抓取网页的过程 搜索引擎抓取网页的蜘蛛爬行流程

搜索引擎是怎样抓取网页的?

要抓取网页搜索引擎首先会派出爬虫程序(也就是常说的蜘蛛),访问服务器或者网页,爬虫程序最开始访问的是那些比较流行的网站或一些访问量大的服务器。

在爬虫程序访问网页的过程中,会从一个网站开始搜索网站里的文字,然后爬行发现网站里的每一个链接,然后顺着链接继续爬行其他的页面,也就是网页上的内链或外链,有助于蜘蛛爬行找到更多的页面。

爬虫访问服务器或者网页,会把网页里面的信息,包括不同的文字、链接等信息以及所属的网页地址做出标记,然后把不同的信息根据搜索引擎系统自己的标准规则进行分类整理。最后把这些数据压缩,为了节省空间或者加密放到自己的硬盘上,供人们搜索。所以搜索引擎搜索的结果并不是因特网而是因特网在搜索引擎上的拷贝(搜索引擎的数据库)的结果,可以说搜索只是给了人们提供了一个搜索结果的导航,只有点击进入该网页才算是通过互联网访问到该网页。

像google的话,最开始同时3、4个爬虫,每个爬虫开将近300个线程,每秒钟能够爬行超过100个网页,爬虫爬行网页然后做出记录并带回到自己的服务器上,这一过程持续进行产生大量的数据,搜索引擎再以搜索结果的形式展现给搜索的人们。

/

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。