搜索引擎优化SEO框架思维-爬抓系统概述-高端网站建设优化指南

就上次为大家讲述了企业品牌网站进行搜索引擎优化中:爬抓系统的基本框架与网络协议,以及爬抓的基本过程之后,今天则为大家解读一份来自官方给出的蜘蛛爬抓原则,大多时候我们可以通过同理心来揣测搜索引擎背后运营算法的逻辑性,但身为SEO从业人员,仅有同理心是不足以支撑自己的逻辑框架体系的,接下来便讲解一下蜘蛛爬抓高端网站建设过程中的系统原则。

蜘蛛爬抓高端品牌网站建设服务器

蜘蛛爬抓原则的主要类型有以下几种:

1、爬抓行为对网站的友好性,降低服务器压力

2、常见爬抓返回码的示意

3、多种网站链接的重定向识别

4、调配爬抓优先级

5、过滤重复网站链接

6、获取暗网信息资源

7、反作弊爬抓判断

8、提高爬抓效率,提高带宽利用效率

搜索引擎爬抓行为对高端网站建设服务器的压力示意图

1、降低搜索引擎的爬抓行为对高端网站建设服务器压力

Web信息资源是极其庞杂的,这要求了搜索引擎蜘蛛爬抓系统需要尽可能的高效利用带宽,在有限硬件、带宽资源下尽可能多的爬抓到对用户有需求、有价值的信息资源。

这就造成了另一个问题,被搜索引擎蜘蛛爬抓的高端品牌网站建设服务器带宽造成访问压力,如果这种爬抓行为的请求量过大则会直接影响到网站的正常用户访问行为。

因此,在爬抓过程中就要进行一定的爬抓压力控制,达到既不影响网站的正常用户访问又能尽量多的爬抓到有价值资源的目的。

对同一个站点的爬抓速度控制一般分为两类:

一者是一段时间内的爬抓频率;

另一者则是一段时间内的爬抓流量。

同一站点不同的时间爬抓速度也会不同,例如深夜正常用户访问量较低的时候,爬抓就会快一些,也视具体站点类型而定,主要思想是错开正常用户访问高峰,不断的调整。

对于不同的站点类型,也需要不同的爬抓速度。

常见的爬抓品牌网站返回码

2、常见爬抓返回码的示意

简单介绍几种搜索引擎支持的返回码:

404会使搜索引擎认为该高端品牌网站建设服务器下的该网页已失效,通常会在收录库中删除,同时短期内如果搜索引擎蜘蛛再次发现这条网站链接也不会爬抓;

503是因服务器问题导致网页临时不可访问,通常网站临时关闭,带宽有限等会产生这种情况。搜索引擎不会把这条网站链接直接删除,同时短期内将会反复访问几次,如果网页已恢复,则正常爬抓;如果继续返回503,那么这条网站链接仍会被认为是失效链接,从库中删除。

403代表“Forbidden”,认为网页目前禁止访问。如果是该高端品牌网站建设服务器下的一条新网站链接,搜索引擎蜘蛛暂时不爬抓,短期内同样会反复访问几次;如果是已收录网站链接,不会直接删除,短期内同样反复访问几次。如果网页正常访问,则正常爬抓;如果仍然禁止访问,那么这条网站链接也会被认为是失效链接,从库中删除。

301 即永久重定向,一般SEO从业人员在遇到站点迁移、域名更换、站点改版的情况时会使用301返回码,同时也需要在站长平台网站改版工具中进行改版保护登记,以减少改版对网站流量造成的损失。

多种品牌高端网站链接重定向识别

3、多种网站链接重定向的识别

Web中一部分网页因为各种各样的原因存在网站链接重定向状态,为了对这部分资源正常爬抓,就要求搜索引擎蜘蛛对网站链接重定向进行识别判断,同时防止作弊行为。

重定向可分为三类:http 30x重定向、meta refresh重定向和js重定向。另外,百度也支持Canonical标签,在效果上可以认为也是一种间接的重定向。

4、爬抓优先级调配

由于Web资源规模的巨大以及迅速的变化,对于搜索引擎来说全部爬抓到并合理的更新保持一致性几乎是不可能的事情,因此这就要求爬抓系统设计一套合理的爬抓优先级调配原则。主要包括:深度优先遍历原则、宽度优先遍历原则、页面pr优先原则、反链原则、社会化分享指导原则等等。每个原则各有优劣,在实际情况中往往是多种原则结合使用以达到最优的爬抓效果。

5、重复网站链接的过滤

搜索引擎蜘蛛在爬抓过程中需要判断一个页面是否已经爬抓过了,如果还没有爬抓再进行爬抓网页的行为并放在已爬抓网址集合中。判断是否已经爬抓其中涉及到最核心的是快速查找并对比,同时涉及到网站链接归一化识别,例如一个网站链接中包含大量无效参数而实际是同一个页面,这将视为同一个网站链接来对待。

品牌高端网站重复链接的筛选

6、暗网信息资源的获取

Web中存在着大量的搜索引擎暂时无法爬抓到的信息资源,被称为暗网信息资源。一方面,很多网站的大量信息资源是存在于网络信息资源库中,搜索引擎蜘蛛难以采用爬抓网页的方式获得完整资源;另一方面,由于网络环境、网站本身不符合规范、孤岛等等问题,也会造成搜索引擎无法爬抓。目前来说,对于暗网信息资源的获取主要思路仍然是通过开放平台采用信息资源提交的方式来解决,例如“百度站长平台”“百度开放平台”等等。

7、爬抓反作弊

搜索引擎蜘蛛在爬抓过程中往往会遇到所谓爬抓黑洞或者面临大量低质量页面的困扰,这就要求爬抓系统中同样需要设计一套完善的爬抓反作弊系统。例如分析网站链接特征、分析页面大小及资源、分析站点规模对应爬抓规模等等。

在高端品牌网站建设的路上,耀年数字高端网站建设将持续不断地进行钻研,只为给客户提供更好的服务。如果大家对搜索引擎爬抓还有别的疑问,欢迎与我们联系,或通过百度搜索资源平台寻求相关信息帮助。


  • 行业新闻
  • 公司新闻
  • 网站优化
  • 建站知识