存档在 ‘web analytics’ 分类

利用google analytics追踪搜索引擎蜘蛛(spider/robots)的爬行日志

2011年3月16日

在做搜索引擎优化中分析搜蜘蛛爬虫日志是非常重要的一步,大部分网站采取服务器日志数据 ,一般认为采用类似google analytics的页面标记法是无法捕捉搜索引擎爬虫的信息,然而两位法国google analytics的爱好者的一段代码却可以让我们轻松利用google analytics追踪搜索引擎spider的抓取信息。

要做到这个功能需要做以下步骤

第一步,添加一个新的profile配置文件,这个profile文件必须是设置为新的domain域名。

第二步下载analytics文件夹 解压后上传到网站根目录,里面包含了analytics 、config和patterns三个文件。

需要做的是修改config文件,

  • 添加第一步中增加的新的profile id 号(非网站的始proflie id)
  • 增加你的域名信息(如www.robinli007.com
  • 添加你域名的哈希(hash)值信息,为域名cookie里面的_utma cookie内容字段的第一段id.

利用firebug cookie读出

里面的”109917574”’就是需要增加的id.

第三步  让网站每个页面都包含analytics文件的代码,可以在网站页面的公共调用部分(如footer header) 加入以下代码:

<?php include_once( “analytics/analytics.php”) ?>

以上步骤完成 等待两小时后 在google analytics后台便可以看到来自搜索引擎爬虫的爬行信息”

在内容(content)报告, 按来源选择可以很清晰的看到来自各爬虫的爬行信息

作者: 子木-李俊

特别声明:转载请注明来源。

透过数据看真实

2011年3月9日

 周日参加了淘宝组织的ResysChina…拿到一些好玩的数据。

一 明星的影响力谁最大?

淘宝网做了所有明星演唱会前一个月的门票销售额数据统计。 结果是上张学友>王菲>周杰伦。

 

二   为什么明星喜欢开演唱会?

 张学友和王菲两个人的演唱会门票收入基本等于整个唱片市场销量

三  谁在喜欢王菲?

喜欢王菲的老男人和年轻姑娘很多,预计是在王菲演唱会是一群老男人和小萝莉在摇旗呐喊。

四  你大龄了吗?

淘宝根据用户购买喜糖的数据统计有40%的男性是30岁后结婚的

五 中国商人对于市场敏感性有多强?

 PS:(ipad2 北京时间3月3日发布

中间一段是春节)

六 谁在说淘宝是女人的专利?

 

  网购时代来了吗?

 

 

19.5亿这一数据已超过北京、上海、广州国内三个一线城市的单日社会消费品零售总额。

八 谁是真正的浪漫之都?

 

利用Google analytics虚拟页面来统计网站频道流量

2010年8月24日

       在一些网站前期因为没有基于数据统计的需要去规范化url,导致在统计一些网站的各种频道流量的时候是一个瓶颈。

比如某电子商务网站 商品二级分类url是www.robinli007.com/items/12-135-1256.html

一级频道url是 www.robinli007.com/3c/   www.robinli007.com/book/

二级分类url是 www.robinli007.com/SecondCategory-233.html

而在分类下面的产品的url是www.robinli007.com/products/15.html

这种类型的url 在数据统计起来根本不能汇总统计到频道和分类的流量,对于一些大型网站来说要做数据分析可谓一头雾水,于是我们不得不利用ga里面的trackPageview函数。

我先将完整代码贴出来,然后一步一步分解代码

代码部分:

<script>

var gaJsHost = ((“https:” == document.location.protocol) ? “   https://ssl.” : “   http://www.”);

document.write(unescape(“%3Cscript src=’” + gaJsHost + “google-analytics.com/ga.js’ type=’text/javascript’%3E%3C/script%3E”));

</script>

<script>

try {

var firstTracker = _gat._getTracker(“UA-10104379-1″);

firstTracker._setDomainName(“.robinli007.com”);

firstTracker._addOrganic(“soso”, “w”);

firstTracker._addOrganic(“sogou”, “query”);

firstTracker._addOrganic(“youdao”, “q”);

firstTracker._addOrganic(“baidu”, “word”);

firstTracker._trackPageview();

var secondTracker = _gat._getTracker(“UA-10104379-5″);

secondTracker._setDomainName(“.robinli007.com”);

secondTracker._addOrganic(“soso”, “w”);

secondTracker._addOrganic(“sogou”, “query”);

secondTracker._addOrganic(“youdao”, “q”);

secondTracker._addOrganic(“baidu”, “word”);

secondTracker._trackPageview(“虚拟页面函数”);

} catch(err) {}</script>

(1)这是一段完整的代码,先从轮廓看这个代码包含两段id,

为什么要这样做,在做数据分析的时候很重要的一点是在做任何过滤和筛选的时候,你必须保证一个完整的没有被过滤和筛选的数据作为备份,毕竟是工具,任何过滤和筛选都可能导致原有数据出错。

所以在ga后台你要添加新的配置文件

(2)第一段脚本是公用部分

(3) firstTracker._setDomainName(“.robinli007.com”); 是定义robinli007.com下面的所有二级域名 这样如果你有比如blog.robinlioo7.com等二级域名一样可以被统计到。

(4)

firstTracker._addOrganic(“soso”, “w”);

firstTracker._addOrganic(“sogou”, “query”);

firstTracker._addOrganic(“youdao”, “q”);

firstTracker._addOrganic(“baidu”, “word”);

这段里面将搜搜 搜狗 有道 百度新闻流量归为ga里面的搜索引擎流量 ,在ga默认里面这些算推介的。

(5)secondTracker._trackPageview(“虚拟页面函数”);

这个是第二段id 也是我们要虚拟页面的 ,在里面你让程序根据自己网站把变量填写进去即可,你提前必须制定好虚拟的规则

比如www.robinli007.com/items/12-135-1256.html 这个三级频道

属于一级频道

www.robinli007.com/3c/ 同时属于二级频道www.robinli007.com/SecondCategory-233.html

那么你虚拟可以这样虚拟成 secondTracker._trackPageview(“/3c/SecondCategory-233/12/”);

12-135-1256都是属于一个频道里面通过各种筛选项筛选出的函数 其12属性表示是某一个三级分类,故我如此筛选,如何筛选根据自己需要。

同理www.robinli007.com/SecondCategory-233.html  可以虚拟成 secondTracker._trackPageview(“/3c/SecondCategory-233/”);

trackPageview后面的是英文全角双引号

这样大功告成 在ga你便可以虚拟url了。

当然所有这些这样工作实际都是下策,最好最完美的办法是你在规划你的url的时候要考虑数据分析的需求,比如

www.robinli007.com/Product/36-c09-155.htm

这样的url明显注意到在产品页面 产品url的流量分类统计需求。

跳出率和退出率详解

2010年6月5日

一 跳出率和退出率的区别

此处所说跳出率退出率是基于Google analytics的度量标准

跳出率(Bounce Rate) 也被称为 蹦失率:浏览单页即退出的次数/访问次数=single access/entry visits

退出率 exit rate:从该页退出的的页面访问数/进入该页的页面访问数= exit pv/pv(注意这里面的访问数和一般概念的visits是不一样的 其实是指pv,非visits,关于pv和visits参考Google analytics的说明文档)

其中:

跳出率只能衡量该页做为着陆页面(Landing Page)的访问, 跳出率分母等于Landing Page的visits ,分子也是指跳出的visits

退出率则是针对全部的访问页面不限于着陆页面(Landing Page),任何页面都有退出率。

退出率的分子=退出的次数(包括一次访问过程中用户浏览单页即跳出的次数,也包括浏览多页后从该页面退出的次数。)

退出率的分母=进入该页的页面访问次数=该页的所有访问pv(综合浏览量)

进入的次数包括用户重复浏览该页的次数,因此可理解为综合浏览量。

google analytics和Omniture关于退出率的定义区别:

google analytics里面计算退出率分子分母是计算pv的,而Omniture是exit/visit

当然google analytics和Omniture里面计算跳出率都是计算访问次数visits的。

EG:

10个visits来到a页面 ——5个visits直接离开,3个visits去b页面 (2个visits去c页面然后直接离开)。 b页面的3个visits有2个visits返还a页面最终从a页面离开

计算a页面的于Bounce Rate和Exit Rate 分别就是(5/10) *100% 和 (5+2/10+2 )*100%

这是Google analytics里面的退出率的计算 ,在Omniture是算exit/visit,也就意味着这个值是(5+2)/10*100%

换个条件 ,如果从b页面返还a页面的2个visit ,一个visits去d页面 一个visit去f 页面 然后1visit从d页面返还a页面并最终离开

这个时候计算a页面的Bounce Rate和Exit Rate 分别就是(5/10)*100% 和 ( 5+2+1/10+2+1)*100%

在这个例子里面我所有的条件都是用访问而没有用访客,是因为ga在计算跳出率是算visist的而不是uv(绝对唯一访客),而退出率的分子分母是pv.

为了证明结论 再贴一副图做为来证实结论

这幅图说明几个问题 ,一直来很多概念在度量跳出率都是用进入,可能部分读者还是不能明白所谓进入是指什么,这里可以看到所谓进入其实就是访问数visit.

这个实验的网站全站我们验证跳出率 ,跳出数259,进入访问数visit等于451。于是跳出率略等于259/451≈0.574279 忽略小数点就是图中的57.43%。

退出率,退出数是 451,综合浏览量pv是975,计算退出率就是451/975≈0.46256,忽略小数点就是46.26%

二 退出率和跳出率说明什么

跳出率

跳出率只能衡量该页作为用户的landing page的页面质量,不能衡量其他。

一般来说,如果你做的是从其他媒体引入的流量,说明你的媒体渠道选择失误,搜索引擎付费关键字定位不准、客户群定位不准确,还是landing page的call to action可能不够吸引人。

当然对于不同页面和不同类型的网站的跳出率需要区别对待,很多网站的性质决定用户甚至只要浏览首页,需求就可能得到满足。比如wordpress的博客,可能一些老访问者,访问博客只是看有没有更新,没有更新,跳出很正常。这种情况如果简单的说网站质量很差是值得商権的,这个时候建议细分群体和细分页面去看跳出率,并且关注页面停留时间。

退出率

退出率高也要分情况讨论并不能一概而论,如果你已经规划好你网站的用户访问流程,但是你发现你网站的某个退出页面成为去其他某个很重要的页面的阻碍,那么你应该关心的你的这个退出页面的内容了。

退出率不能用来分析网站所有的页面,只能用来分析特定流程中的某些页面能不能满足用户的需求(交互)的问题。一般认为退出率高需求没有得到满足,但在特定页面不能用退出率衡量用户需求问题。

如果客户需要得到满足直退出,退出率高是很正常的,如电子商务网站的支付成功页面,其他网站的客户服务(eg:联系我们,关于我们)此类页面,退出率一般肯定很高。用户结算支付完需求得到满足,用户知道联系方式需求得到满足。这个时候需要借助其他分析了,例如电子商务可以用转化漏斗分析。但是在同样的类似流程中,注册页面、支付页面和填写收货地址页面却又是可以用退出率来衡量页面质量的(这样的页面一般是有固定步骤的),如果退出率高,那么反映你的注册流程页面、支付流程页面和物流流程页面存在问题了,比如不支持货到付款,需要填写项过多,界面不友好等等。

退出率还反映在页面内容的吸引性,call to action能不能激励用户。另外从网站技术角度来说,页面太大不能被完全加载,页面没有返回任何其他页面的链接入口,也是造成退出率过高的问题。

三 面对跳出和退出,我们如何优化?

跳出率可以用在外部流量渠道分析和付费关键字广告的分析上面,对于那些跳出率过高的渠道,一方面我们要分析,是不是渠道客户群和网站定义客户群有偏差,另外一方面是鉴别虚假流量上,大部分的虚假流量的跳出率一般都是很高的。

退出率更多被运用在页面内容,页面用户需求分析上面,对于什么样子的页面是满足需求的,可以采取A/B Test和多变量分析。你可以首先分析你关键页面的退出率,比如支付,注册等你认为对于你网站完成转化很重要的页面的退出率还有高参与度【页面参与度=(总目标价值+电子商务收入)/ uv)】页面。

作者: 子木-李俊

特别声明:转载请注明来源。

Google Analytics 过滤.net动态网页小技巧

2010年6月3日

Net网站的Google Analytics 过滤网页流量 的 小技巧

无意中 有人问我 Google Analytics 里面 过滤URL目录可以看到下面所有页面的流量 过滤每个具体的带aspx结尾的url地址却什么都看不得了 实际上这个url地址是有流量的? 这是为什么

聪明的 朋友 你们看出什么问题了?

第一个查询条件里面 url是Items/promotion.aspx?id=556

第二个查询条件 我在Items/promotion.aspx?id=556的 aspx后面加了个\ 这样Items/promotion.aspx\?id=556

这样便得出查询条件了 是ga 需要这个url属性的传递