利用google analytics追踪搜索引擎蜘蛛(spider/robots)的爬行日志

2011年3月16日 由 子木 留言 »

     在做搜索引擎优化中分析搜蜘蛛爬虫日志是非常重要的一步,大部分网站采取服务器日志数据 ,一般认为采用类似google analytics的页面标记法是无法捕捉搜索引擎爬虫的信息,然而两位法国google analytics的爱好者的一段代码却可以让我们轻松利用google analytics追踪搜索引擎spider的抓取信息。

   要实现此功能的步骤:

第一步:添加一个新的profile配置文件,这个profile文件必须是设置为新的domain域名。

第二步:下载analytics文件夹 解压后上传到网站根目录,里面包含了analytics 、config和patterns三个文件。

   需要做的是修改config文件,

  • 添加第一步中增加的新的配置文件的profile id ( 例如新增加文件的http://robots.robinli007.com便是
    UA-16811947-5)
  • 增加你的域名信息(如www.robinli007.com
  • 添加你域名的哈希(hash)值信息,为域名cookie里面的_utma cookie内容字段的第一段id.

利用firebug cookie读出

里面的”109917574”’就是需要增加的id.

   第三步  :让网站每个页面都包含analytics文件的代码,可以在网站页面的公共调用部分(如footer header) 加入以下代码:

  <?php include_once( “analytics/analytics.php”) ?>

    以上步骤完成 等待两小时后 在google analytics后台便可以看到来自搜索引擎爬虫的爬行信息”

     在内容(content)报告, 按来源选择可以很清晰的看到来自各爬虫的爬行信息

作者: 子木李俊

特别声明:转载请注明来源。

我的推荐

25 条评论

  1. joy说道:

    请问:静态的页面如何实现呢?动态的好像问题不大。

  2. 子木说道:

    不明白你说的是那一步骤不能实现?

  3. AiT说道:

    看你的博客很久了,感觉这篇文章不错,特意转载到光年论坛了,链接地址:http://www.gnbase.com/thread-990-1.html

  4. updatex说道:

    joy 说的应该是 如何在静态页面上运行PHP

  5. molly说道:

    域名的哈希(hash)值信息,这个也是在google分析里面找么?在哪个页面呢?没找到啊

  6. 子木说道:

    域名的哈希(hash)值信息,为域名cookie里面的_utma cookie内容字段的第一段id.
    用fifebug的cookie工具可以看到

  7. 子木说道:

    如果是静态页面 考虑让程序写js在页面 回掉那个analytics下面的php文件

  8. simon说道:

    域名的哈希(hash)值信息,_utma cookie内容字段的第一段id。
    这个怎样用firebug cookie读出来?我没有找到。

  9. free music说道:

    i like it 利用google analytics追踪搜索引擎蜘蛛(spider/robots)的爬行日志 at this moment im your rss reader

  10. simon说道:

    搞定了。原来是先要把统计代码放在网站上去,然后再去firebug中获域名的哈希值。然后再更新config.php

  11. 臭皮匠说道:

    搞定了。原来是先要把统计代码放在网站上去,然后再去firebug中获域名的哈希值。然后再更新config.php,不错

  12. 一灰说道:

    GA真的很强啊~~膜拜中!!

  13. Hugo说道:

    在jsp 网站我又该怎么引入公共代码。是不是只要把Analytics 文件夹上传到根目录,然后引入公共代码就行了嘛?

  14. 子木说道:

    是的

  15. joy 说的应该是 如何在静态页面上运行PHP

  16. 美瞳说道:

    把放在代码里后需要在GA里检查状态吗?
    代码安装完成后在源代码里会有相关显示吗?
    怎么样才能确认安装成功?

  17. 子木说道:

    新增加profile文件 调用公用部分会显示加跟踪成功。

  18. 学习了,这样,不能提供网站日志的服务器,就能够很好的分析蜘蛛的来访记录了

  19. 低调小胡说道:

    可以查看到百度蜘蛛吗 ??

  20. 米豆豆说道:

    没试成功,没有数据,取哈希值必须要先把统计代码加上,是加原始id的统计代码,还是新id的统计代码呢?

  21. 子木说道:

    不用加新代码 新增加一个proflle即可

  22. 米豆豆说道:

    我是指在网页中加统计代码加哪一个的,是加原始proflle的统计代码,还是新增的proflle的统计代码,两个我都试过了,都看不到蜘蛛的记录。

发表评论

你必须 登陆 方可发表评论.