基于数据分析的seo

       数据分析不仅仅体现在tag方式监控的前端wa数据和后端交易数据,在基于seo的服务器log日志方面同样可以得到运用,并为提供网站seo优化做出贡献。
        在seo的数据分析中传统的工具均提供了流量监控,但普通缺乏log服务器日志层面监控。seo的数据分析中有几项指标特别值得关注。
1、网站页面收录比率查询
         以往在搜索引擎用site命令得出的是收录是估算值,后来演变的百度统计、百度站长工具能计算到精准的收录数据。但对于运营特别值得关注的是页面被收录比率而不是总收录页面数。
       主要是基于三方面考虑:
        一、收录多少不能完全反映seo的好坏、因为本身网站的总页面数很多站长主是不知道,这时候收录数是100,1,000不能说明这个值到底意味站点的seo是否是合格的。
       二、页面数目本身是变量。也许读者会问那看页面收录数趋势就好了,但大部分网站的页面数基本在不断变化的,所以即便增加或者减少也不能说明seo的好处,此时页面收录比率变得特别重要。
       三、不是所有页面都应该被收录。网站主希望将权重l集中到核心页面,对于不能获取搜索流量 的比如 购物车、支付页面等页面是不希望被收录的。
如何实现?
       要实现查询页面收录比率,原理就是模拟一个蜘蛛抓取网站页面,同时已经将抓取的页面和搜索引擎的搜索结果页面做比对,看抓取的数据和搜索引擎结果页面是否匹配。
        工具设计如下:
实现步骤:
1、从任意一个页面开始抓取(建议取首页或者和网页地图之类页面),
2、利用正则表达式匹配出要被收录的页面类型。
3、设定采样的页面数目。
4、同时列出未被收录的页面,为后续的分析做数据支撑。
2、关键字竞争分析
     只有知己知彼才能百战百胜 ,关键字竞争分析是指基于网站主的行业搜索词计算网站主网站在搜索引擎中的排名和得分情况。
实现方式:
      a、查询网站关键字排名:用给定关键字去百度自然搜索(排除竞价),如排在第一位的网站给30分,第二位的20分, 第三位 15 以此类推,第17位给1分.
     b、对排名前17网站的得分进行汇总排序

卖个关子留两个问题:

1、为什么第一名给30分、第二名给20分,第三位给15分?

2、另外按照现在的排名给分的一个待优化算法的地方是什么?