经典案例
  • 苏州企业网站优化案例
雅博 苏州网站优化

SEO优化中的搜索引擎蜘蛛怎么分析

发布于:2017-08-14 16:26来源:苏州SEO 作者:SEO大神 点击:177

  为了记录我们网站的情况特意制作了了一个IIS日志也叫网站日志,用来记录网站搜索引擎蜘蛛爬取的情况,可有效的根据日志判断出搜索引擎蜘蛛每天来我们网站的各个信息,例如:网站次数、时间、爬去的页面和返回的HTTP状态码。下面我两点划分,用来分析和了解网站日志。

  一、各大搜索引擎的蜘蛛名称:

  百度(Baidu)爬虫名称(Baiduspider)

  谷歌(Google)爬虫名称(Googlebot)

  雅虎(Yahoo)爬虫名称(Yahoo Slurp)

  有道(Yodao)蜘蛛名称(YodaoBot)

  搜狗(sogou)蜘蛛名称(sogou spider)

  MSN的蜘蛛名称:msnbot

  二、IIS日志手动分析:

  案例日志:61.135.168.22 – – [11/Jan/2015:04:02:45 +0800] “GET /thread-7303-1-1.html HTTP/1.1” 200 8450 “-” “Baiduspider(+http://www.baidu.com/search/spider.htm)”

  分析:

  1、61.135.168.22 是访问了是服务器IP为这个的网站;

  2、11/Jan/2015:04:02:45 表示蜘蛛爬行时间;

  3、GET /thread-7303-1-1.html HTTP,表示蜘蛛抓取了这个页面;

  4、200 状态码表示蜘蛛抓取页面成功;404表示蜘蛛抓取页面失败;

  5、8450 表示此次抓取了8450个字节;

  6、Baiduspider(+http://www.baidu.com/search/spider.htm)表示百度蜘蛛的名称。

  三、搜索引擎蜘蛛爬寻返回代码

  HTTP协议状态码的含义,协议状态sc-status,是服务器日记扩展属性的一项,下面是各状态码含义:

  "100" :Continue,客户必须继续发出请求。

  "101" :witching Protocols,客户要求服务器根据请求转换HTTP协议版本。

  "200" :OK,交易成功。

  "201" :Created,提示知道新文件的URL。

  "202" :Accepted,接受和处理、但处理未完成。

  "203" :Non-Authoritative Information,返回信息不确定或不完整。

  "204" :No Content,请求收到,但返回信息为空。

  "205" :Reset Content,服务器完成了请求,用户代理必须复位当前已经浏览过的文件。

  "206" :Partial Content,服务器已经完成了部分用户的GET请求。

  "300" :Multiple Choices,请求的资源可在多处得到。

  "301" :Moved Permanently,删除请求数据。

  "302" :Found,在其他地址发现了请求数据。

  "303" :See Other,建议客户访问其他URL或访问方式。

  "304" :Not Modified,客户端已经执行了GET,但文件未变化。

  "305" :Use Proxy,求的资源必须从服务器指定的地址得到。

  "306" :前一版本HTTP中使用的代码,现行版本中不再使用。

  "307" :Temporary Redirect,申明请求的资源临时性删除。

  "400" :Bad Request,错误请求,如语法错误。

  "401" :Unauthorized,请求授权失败。

  "402" :Payment Required,保留有效ChargeTo头响应。

  "403" :Forbidden,请求不答应。

  "404" :Not Found,没有发现文件、查询或URl。

  "405" :Method Not Allowed,用户在Request-Line字段定义的方法不答应。

  "406" :Not Acceptable,根据用户发送的Accept拖,请求资源不可访问。

  "407" :Proxy Authentication Required,类似401,用户必须首先在代理服务器上得到授权。

  "408" :Request Time-out,客户端没有在用户指定的饿时间内完成请求。

  "409" :Conflict,对当前资源状态,请求不能完成。

  "410" :Gone,服务器上不再有此资源且无进一步的参考地址。

  "411" :Length Required,服务器拒绝用户定义的Content-Length属性请求。

  "412" :Precondition Failed,一个或多个请求头字段在当前请求中错误。

  "413" :Request Entity Too Large,请求的资源大于服务器答应的大小。

  "414" :Request-URI Too Large,请求的资源URL长于服务器答应的长度。

  "415" :Unsupported Media Type,请求资源不支持请求项目格式。

  "416" :Requested range not satisfiable,请求中包含Range请求头字段,在当前请求资源范围内没有range指示值,请求也不包含If-Range请求头字段。

  "417" :Expectation Failed,服务器不满足请求Expect头字段指定的期望值,假如是代理服务器。

  "500" :Internal Server Error,服务器产生内部错误。

  "501" :Not Implemented,服务器不支持请求的函数。

  "502" :Bad Gateway,服务器暂时不可用,有时是为了防止发生系统过载。

  "503" :Service Unavailable,服务器过载或暂停维修。

  "504" :Gateway Time-out,关口过载,服务器使用另一个关口或服务来响应用户,等待时间设定值较长。

  "505" :HTTP Version not supported,服务器不支持或拒绝支请求头中指定的HTTP版本。

  雅博博客点评

  网站的日志,我们每天都要去看,了解蜘蛛来我们网站抓取页面的情况,那些页面是蜘蛛抓取不到的,为什么抓取不到?根据IIS日志的反应情况,对我们的空间的某些事情和问题提前进行预警,这些在IIS日志中会第一时间反映出来,

  都可以通过网站日志分析,查找原因,解决问题。

------分隔线----------------------------
------分隔线----------------------------