搜索引擎的抓取是搜索引擎最基础的工作,为后续的一切工作做铺垫。抓取的少,抓取太多重复信息,抓取能力差直接影响用户的使用体验。连抓取能力都做不好也不用谈后面的信息提取、分析了。因此,搜索引擎们一直都在提高自己的抓取能力。
一,页面抓取流程。
搜索引擎通过自己原有的域名列表,来进入网站,再抓取网页,在通过页面的链接,再进到下一层网页,从而建立起庞大的域名列表、URL列表。
二,页面抓取的方式
1, 广度优先
广度优先:是指将网站的主栏目抓取之后,然后再抓取主栏目下面的子栏目。广度优先要注意以下几点:
(1)重要网页离主站点的一般比较近
(2)宽度优先规则有利于多个爬虫合作爬取,先抓站内后抓站外,封闭性强
(3)万维网的深度并不是想像中的深
2,深度优先
与广度优先正好相反,这种首先会选择某个分支,继而深入到不能深入的情况下才考虑其他分支的策略。通过这种方式能抓取到比较隐蔽的页面,从而实现更多用户的检索要求
3网页重访
由于页面的更新的问题,所以需要重新访问
4不重复抓取
搜索引擎不会抓取信息几乎一样的两个网页。它会给原创的网页予以更高权重。如何判断原创?搜索引擎会根据修改时间,网站权重等因素综合考虑。