SEO优化

首页 > SEO优化 > 潍坊网站优化之搜索引擎抓取策略

潍坊网站优化之搜索引擎抓取策略

搜索引擎的抓取是搜索引擎最基础的工作,为后续的一切工作做铺垫。抓取的少,抓取太多重复信息,抓取能力差直接影响用户的使用体验。连抓取能力都做不好也不用谈后面的信息提取、分析了。因此,搜索引擎们一直都在提高自己的抓取能力。

一,页面抓取流程。

搜索引擎通过自己原有的域名列表,来进入网站,再抓取网页,在通过页面的链接,再进到下一层网页,从而建立起庞大的域名列表、URL列表。

二,页面抓取的方式

1         广度优先

广度优先:是指将网站的主栏目抓取之后,然后再抓取主栏目下面的子栏目。广度优先要注意以下几点:

(1)重要网页离主站点的一般比较近

(2)宽度优先规则有利于多个爬虫合作爬取,先抓站内后抓站外,封闭性强

(3)万维网的深度并不是想像中的深

           2,深度优先

与广度优先正好相反,这种首先会选择某个分支,继而深入到不能深入的情况下才考虑其他分支的策略。通过这种方式能抓取到比较隐蔽的页面,从而实现更多用户的检索要求

            3网页重访

由于页面的更新的问题,所以需要重新访问

            4不重复抓取

搜索引擎不会抓取信息几乎一样的两个网页。它会给原创的网页予以更高权重。如何判断原创?搜索引擎会根据修改时间,网站权重等因素综合考虑。