把博客的主题和标题描述都改了下,以新的姿态迎接2014。
搜索引擎优化(SEO)并不是我的研究领域,但是尝试一下也未尝不可,而且数据分析没有数据怎么行呢,纸上谈兵终觉浅。于是前些天抽空写了个抓取程序,仅仅14.3KB,完全是SEO,最多的一天有三千多个UV(其中Google占比最大但存活期很短,其他搜索引擎不温不火),收录量也达到了几百万,当然最终肯定是被K了,毫无疑问的,可能也正好赶在Google打击垃圾内容的特殊时期因此存活时间有点短。仅仅是做了一个测试,获取了大量的数据,算是搞了个测试样本,也顺便了解下蜘蛛爬行的习惯和SEO的基本原理。
总结一下心得:
- 遵守搜索引擎优化基本原则,参考官方文档即可,尽可能使用富文本摘要,制作网站地图并在站长工具中提交。
- 慢慢来,当你的收录突然从一个量级爬升到另外一个量级的时候,搜索引擎会特别谨慎,可能会进入人工审核。
- 分析蜘蛛爬行数据,了解蜘蛛的IP和抓取频率,并不断参考数据进行调整。分析访问数据,加强优质内容建设。
- 垃圾内容太多,国内几大搜索引擎基本是弱爆了,看看百度影音和淘宝客等站点就知道,Cookie、盗版、弹窗。
获取到的一些数据:
- 各个搜索引擎蜘蛛的最新的IP地址列表,通过这么大量数据的几周时间观察基本都覆盖到了。Google有342个IP(其中Google-Feedfetcher和Google-AdsBot会共用IP,Google完全匹配的有138个),360有602个IP,百度有181个IP。
- 各个搜索引擎的爬行时段,如下图为Google的,百度那些数据量太小就不放上来了,建议可以参照下图分析下自己网站的:
- 访客的IP和cookie数据、地域、兴趣、浏览器、分辨率等其他数据。这个就不方便公开了,仅供自己研究学习。
- 国内的Google流量并没有你想象的那么低,特别是在一些技术型行业、偏门行业、灰色地带等。台湾、香港和马来西亚的流量也不错。搜狗和雅虎、必应的流量也不容小觑。
- (not provided)的占比逐步攀升,大概会占到一半左右,当然这部分用户的跳出率、停留时间、访问页数等综合表现也略微好一点。
- 移动设备的访问量占比大概1/3左右,其中苹果、三星、HTC、华为、索尼的使用率为前五。
- IE浏览器的使用量仅次于Chrome,其次是Safari,再其次是安卓和火狐。
- 上海、北京、广州、深圳、杭州这五个地区的用户占比依次最高。
- 某个不良网站的对应关键词搜索量居高不下,在北京、广州、郑州、武汉、青岛、重庆、石家庄等地传播广泛,并且在晚上8点后比较猛,哎。
- 新闻、科技、电视、电影、音乐、游戏的兴趣占比排名靠前。25-34、18-24、35-44年龄段的最多,男性大概是女性的4倍。
还有很多,就总结这些了,几千万的数据,怎么从这些数据中获取想要的资讯,这个是数据分析人员的基本功,不能淹没在数据海洋中。
前几天听到的这句电视剧台词,结束本文。陆三金:当你有能力听到一切的时候,你本能地会选择感兴趣的声音。而这个时候,你会忽略掉最重要的声音,这是人的本能。从一开始,我们说的每一句话都是给你听的,我们表现得越愚蠢,你的警惕性就会越低。在这样一个时代,如果你不能分析和过滤资讯的话,你还不如是个聋子。