欢迎来到锦皓工作室
当前位置:首页 > SEO基础

分析网站日志,看蜘蛛是否青睐你的网站?

作者/整理:锦皓工作室 时间: 2015-05-28 浏览:

 分析网站日志,看蜘蛛是否青睐你的网站?

 

 

    一、看网站的抓取情况
  1、新站刚上线,看看搜索引擎有没有来你网站抓取了
  2、网站收录异常,或者被k,通过日志可以了解搜索引擎是否还有来光顾你的网站
  3、对于网站的问题进行解决,必须要读懂日志

  二、怎么查找网站日志?
  一般在FTP一个名为logs的文件夹,我的呼叫中心系统网站里就有不同的服务器可能日志文件命名不一样,不过一定会包含logs这个关键词。

  三、怎么打开日志?
  下载,解压后,可以用文本编辑器打开,如果打开是乱码的话,可以用Editplus或dreamweaver等网页编辑器打开。一般我喜欢用光年日志分析工具。

  四、各大搜索引擎蜘蛛名称:
  打开日志后我们可以看到如下的这些搜索引擎蜘蛛名称,分别代表的就是哪个搜索引擎到过你的网站。
  百度:baiduspider
  Google=Googlebot
  Msn:msnbot
  yahoo:Slurp
  yodao:YoudaoBot
  sogou:Sogou+get+spider
  360:360Spider

  五:日志拆解
  在日志里面搜索下以上蜘蛛的名称就能清楚了解蜘蛛有没有来过你的网站,并且知道蜘蛛抓取你的网站页面情况。从网站上下载下的网站日志,在txt文本中就可以看到以下数据:
  117.26.203.167 - - [02/May/2011:01:57:44 -0700] "GET/index.php HTTP/1.1" 500 19967 "-" "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; AskTbCS-ST/5.11.3.15590; .NET CLR 2.0.50727; Alexa Toolbar)"

  分析:
  117.26.203.167 访问ip
  02/May/2011:01:57:44 -0700 访问日期 -时区
  GET/index.php HTTP/1.1 根据HTTP/1.1 协议 抓取(域名下)/index.php 这个页面(GET表示服务器动作)
  500 服务器响应状态码

  服务器响应状态码通常状态码有以下几 种:200,301,302,304,404,500等。200代表用户成功的获取到了所请求的文件,如果是搜索引擎,则证明蜘蛛在这次爬行中顺利的发现 了一些新的内容。而301则代表用户所访问的某个页面url已经做了301重定向(永久性)处理,302则是暂时性重定向。404则代表所访问的页面已经 不存在了,或者说访问的url根本就是个错误的。500则是服务器的错误。

  19967 表示抓取了19967个字节
  Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; AskTbCS-ST/5.11.3.15590; .NET CLR 2.0.50727; Alexa Toolbar 表示访问者使用火狐浏览器及Alexa Toolbar 等访问端信息
  如果你的日志里格式不是如此,则代表日志格式设置不同。

  六、网站日志对seo有关于的信息
  不同的服务器或虚拟主机设置的日志记录内容不同。

  有的如:200 0 33834 237 953 我们通过多看几条记录,观察规律,可以判断第三个数字代表字节数。
  有的如:200 0 0或200 0 64 这是没有记录抓取字节数。注意:200 0 0和200 0 64 没代表什么问题。所谓200 0 64代表要被K的言论没有根据,一般的网站都有64代码。

  在日志里,发现比较多的HTTP状态码是,200(正常)、304(没变化)、404(错误链接)。
  304代表,自从上次抓取后,该内容没有更新。一般情况下,网站的图片经常会返回该值。
  404代表,比如呼叫中心系统这个网站访问的这个链接是错误链接。这个错误链接,一方面来自原本存在后来删除了网页,另一方面可能来自本来就不存在,但其他人外链了这么个死链接。