网站空间IIS日志分析

一个网站一直以来都有个问题困扰着他们,这个网站的注册一共分为4个步骤就是通过四次下一步就能够完成网站的注册,他们发现这个注册页面每10000个人都来到了注册的第一步,但是到第四个步骤完成注册的人却只有

一个网站一直以来都有个问题困扰着他们,这个网站的注册一共分为4个步骤就是通过四次下一步就能够完成网站的注册,他们发现这个注册页面每10000个人都来到了注册的第一步,但是到第四个步骤完成注册的人却只有几十个,这个是一个非常大的落差,但是他们一开始也没有太注意,认为可能只是根据人的习惯不同而导致的,但是在一次日志分析中意外发现有某一个页面出现了90000多次的404状态码,经过查看之后发现这个页面正好就是这个注册页面的第二个步骤相应的页面,因为程序出现了一些问题导致很多时候点击下一步的时候出现错误导致无法完成注册。可以想象这么多用户流失是一个多么大的损失,而这些都是流量统计工具无法找到的,如果能够及时的分析网站的日志就能够早点发现这个问题避免损失的出现。

什么是网站日志?

网站日志是记录web 服务器接收处理请求以及运行时错误等各种原始信息的以.log 结尾的文件。

用我自己的理解就是我们可以通俗的认为他就是一个流水账,就像是你今天早上吃了啥,谁来了你家做客等等统统记下来的一本流水账,只不过这本流水账使用的是自己的方式记录的,我们也许看起来不是那么方便,如果你对服务器返回代码比较熟悉的话是没有多大问题,如果你对代码不熟悉那就头痛了,那么我们这个时候就要用到IIS 日志分析工具了。有了IIS 日志分析工具我们就能够很直观了了解到今天自己的网站发生了哪些事情,是否有蜘蛛来过。

IIS 日志文件详解

找到日志打开,发现日志的前几行如下

#Software: Microsoft Internet Information Services 5.1 //iis版本 #Version: 1.0 //版本 #Date: 2010-07-30 00:53:58 //创建时间 #Fields: date time c-ip cs-username s-sitename s-computername s-ip s-port cs-method cs-uri-stem cs-uri-query sc-status sc-win32-status sc-bytes cs-bytes time-taken cs-version cs-host

cs(User-Agent) cs(Cookie) cs(Referer) //日志格式

下面的日志我在本地上测试的,扩展属性全部选中。 2010-07-30 01:06:43

192.168.0.102 - W3SVC1 MGL 192.168.0.102 80 GET /css/rss.xslt - 304 0 140 358 0 HTTP/1.1 192.168.0.102

Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; InfoPath.2; 360SE) ASPSESSIONIDACRRDABA=IDDHCBBBHBMBODAGCIDKAGLM -

下面对日志格式进行详细解答。 Fields: date 2010-07-30 爬行日期 time 01:06:43 时间 s-sitename W3SVC1 服务器名称 s-computername MGL 网站名称 s-ip 192.168.0.102 网站IP cs-method GET 获取方法 cs-uri-stem /css/rss.xslt 文件的URL cs-uri-query - ?后面的参数 s-port 80 服务器端口 cs-username - 用户名 c-ip 192.168.0.102 访问者(蜘蛛)ip cs-version HTTP/1.1 协议版本 cs(User-Agent)

Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; InfoPath.2; 360SE) 用户代理,即用户所用的浏览器(这个最重要) cs(Cookie)

ASPSESSIONIDACRRDABA=IDDHCBBBHBMBODAGCIDKAGLM 发送或接收的 Cookie 内容(如果有) cs(Referer) - 选择该选项可以记录用户访问的前一个站点。此站点提供与当前站点的链接。 cs-host 192.168.0.102 主机头的内容。我本地访问的是IP ,这个应该是网站域名。

,

sc-status 304 协议状态(200是正常的 404 是找不到文件,304未改变。更多请查看IIS 返回日志详解) sc-substatus 0 协议子状态 sc-win32-status 0 win32状态 sc-bytes 140 发送的字节数 cs-bytes 358 接受的字节数 time-taken 0 所用时间 200 0 0 4600 316 140返回200正常,4600发送的字节数,316接受的字节数 140所用时间。这个时间应该是毫秒级别的。

下面介绍几个常见的百度蜘蛛IP

IIS 日记上的百度蜘蛛IP 为例:

123.125.68.*这个蜘蛛经常来, 别的来的少, 表示网站可能要进入沙盒了,或被者降权。

220.181.68.*每天这个IP 段只增不减很有可能进沙盒或K 站。

220.181.7.*、123.125.66.* 代表百度蜘蛛IP 造访,准备抓取你东西。

121.14.89.*这个ip 段作为度过新站考察期。

203.208.60.*这个ip 段出现在新站及站点有不正常现象后。

210.72.225.*这个ip 段不间断巡逻各站。

125.90.88.* 广东茂名市电信也属于百度蜘蛛IP 主要造成成分,是新上线站较多,还有使用过站长工具,或SEO 综合检测造成的。

220.181.108.95这个是百度抓取首页的专用IP ,如是220.181.108段的话,基本来说你的网站会天天隔夜快照 220.181.108.92 同上98抓取首页,可能还会抓取其他 (不是指内页)220.181段属于权重IP 段此段爬过的文章或首页基本24小时放出来。

123.125.71.106 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。

220.181.108.91属于综合的,主要抓取首页和内页或其他,属于权重IP 段,爬过的文章或首页基本24小时放出来。

220.181.108.75重点抓取更新文章的内页达到90,8抓取首页,2其他。权重IP 段,爬过的文章或首页基本24小时放出来。

220.181.108.86专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。

123.125.71.95 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。

123.125.71.97 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。

220.181.108.89专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。

,

220.181.108.94专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。

220.181.108.97专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。

220.181.108.80专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。

220.181.108.77 专用抓首页IP 权重段,一般返回代码是304 0 0 代表未更新。

123.125.71.117 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。

220.181.108.83专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。

注:以上IP 尾数还有很多,但段位一样的123.125.71.*段IP 代表抓取内页收录的权重比较低. 可能由于你采集文章或拼文章暂时被收录但不放出来.(意思也就是说待定) 。

220.181.108.*段IP 主要是抓取首页占80,内页占30,这此爬过的文章或首页

以上只能当作参考千万被完全当真,如果还看到一些不知名的类似百度IP 蜘蛛的话可能是一些(站长工具)的模拟蜘蛛IP ,其次要说的一点是网站空间也是影响网站的一个主要的原因,选择一个好的VPS 主机能有效的解决很多网站的不稳定问题。

标签: