为了记录我们网站的情况特意制作了了一个IIS日志也叫网站日志,用来记录网站搜索引擎蜘蛛爬取的情况,可有效的根据日志判断出搜索引擎蜘蛛每天来我们网站的各个信息,例如:网站次数、时间、爬去的页面和返回的HTTP状态码。下面我两点划分,用来分析和了解网站日志。
一、各大搜索引擎的蜘蛛名称:
百度(Baidu)爬虫名称(Baiduspider)
谷歌(Google)爬虫名称(Googlebot)
雅虎(Yahoo)爬虫名称(Yahoo Slurp)
有道(Yodao)蜘蛛名称(YodaoBot)
搜狗(sogou)蜘蛛名称(sogou spider)
MSN的蜘蛛名称:msnbot
二、IIS日志手动分析:
案例日志:61.135.168.22 – – [11/Jan/2015:04:02:45 +0800] “GET /thread-7303-1-1.html HTTP/1.1” 200 8450 “-” “Baiduspider(+http://www.baidu.com/search/spider.htm)”
分析:
1、61.135.168.22 是访问了是服务器IP为这个的网站;
2、11/Jan/2015:04:02:45 表示蜘蛛爬行时间;
3、GET /thread-7303-1-1.html HTTP,表示蜘蛛抓取了这个页面;
4、200 状态码表示蜘蛛抓取页面成功;404表示蜘蛛抓取页面失败;
5、8450 表示此次抓取了8450个字节;
6、Baiduspider(+http://www.baidu.com/search/spider.htm)表示百度蜘蛛的名称。
三、搜索引擎蜘蛛爬寻返回代码
HTTP协议状态码的含义,协议状态sc-status,是服务器日记扩展属性的一项,下面是各状态码含义:
"100" :Continue,客户必须继续发出请求。
"101" :witching Protocols,客户要求服务器根据请求转换HTTP协议版本。
"200" :OK,交易成功。
"201" :Created,提示知道新文件的URL。
"202" :Accepted,接受和处理、但处理未完成。
"203" :Non-Authoritative Information,返回信息不确定或不完整。
"204" :No Content,请求收到,但返回信息为空。
"205" :Reset Content,服务器完成了请求,用户代理必须复位当前已经浏览过的文件。
"206" :Partial Content,服务器已经完成了部分用户的GET请求。
"300" :Multiple Choices,请求的资源可在多处得到。
"301" :Moved Permanently,删除请求数据。
"302" :Found,在其他地址发现了请求数据。
"303" :See Other,建议客户访问其他URL或访问方式。
"304" :Not Modified,客户端已经执行了GET,但文件未变化。
"305" :Use Proxy,求的资源必须从服务器指定的地址得到。
"306" :前一版本HTTP中使用的代码,现行版本中不再使用。
"307" :Temporary Redirect,申明请求的资源临时性删除。
"400" :Bad Request,错误请求,如语法错误。
"401" :Unauthorized,请求授权失败。
"402" :Payment Required,保留有效ChargeTo头响应。
"403" :Forbidden,请求不答应。
"404" :Not Found,没有发现文件、查询或URl。
"405" :Method Not Allowed,用户在Request-Line字段定义的方法不答应。
"406" :Not Acceptable,根据用户发送的Accept拖,请求资源不可访问。
"407" :Proxy Authentication Required,类似401,用户必须首先在代理服务器上得到授权。
"408" :Request Time-out,客户端没有在用户指定的饿时间内完成请求。
"409" :Conflict,对当前资源状态,请求不能完成。
"410" :Gone,服务器上不再有此资源且无进一步的参考地址。
"411" :Length Required,服务器拒绝用户定义的Content-Length属性请求。
"412" :Precondition Failed,一个或多个请求头字段在当前请求中错误。
"413" :Request Entity Too Large,请求的资源大于服务器答应的大小。
"414" :Request-URI Too Large,请求的资源URL长于服务器答应的长度。
"415" :Unsupported Media Type,请求资源不支持请求项目格式。
"416" :Requested range not satisfiable,请求中包含Range请求头字段,在当前请求资源范围内没有range指示值,请求也不包含If-Range请求头字段。
"417" :Expectation Failed,服务器不满足请求Expect头字段指定的期望值,假如是代理服务器。
"500" :Internal Server Error,服务器产生内部错误。
"501" :Not Implemented,服务器不支持请求的函数。
"502" :Bad Gateway,服务器暂时不可用,有时是为了防止发生系统过载。
"503" :Service Unavailable,服务器过载或暂停维修。
"504" :Gateway Time-out,关口过载,服务器使用另一个关口或服务来响应用户,等待时间设定值较长。
"505" :HTTP Version not supported,服务器不支持或拒绝支请求头中指定的HTTP版本。
雅博博客点评:
网站的日志,我们每天都要去看,了解蜘蛛来我们网站抓取页面的情况,那些页面是蜘蛛抓取不到的,为什么抓取不到?根据IIS日志的反应情况,对我们的空间的某些事情和问题提前进行预警,这些在IIS日志中会第一时间反映出来,
都可以通过网站日志分析,查找原因,解决问题。