《社交网站的数据挖掘与分析》(《 Mining the Social Web》)是一本非常优秀的关于社交网络分析和文本挖掘的书籍,全书没有说教,没有数学公式,有的是如何把一个想法变成代码及可视化式呈现,不仅提供了分析思路,而且还可以扩展,当然,对于如何扩展取决于你的洞察力。全书代码使用Python实现,集成了众多开源工具,在github的代码库已经获得了889个赞(2013-09-27)。
书中使用了wordpress的一个可视化插件WP-Cumulus,该插件使用javascript和flash生成具有3D效果的标签云图。作者给出了一个
tagscloud(tag,url=NULL,freq,fontSize=c(1,5),filename="tagscloud",color='#00ff00',speed=50, width=600, height=600)
豆瓣线上活动标签是一个不错的数据源,除了拥有词汇频率外,还有对应的网址,抓取了1999个标签数据内置在该包中(名称为doubanOnlineTags),作为示例:
library(Rtagscloud)data(doubanOnlineTags)x<-doubanOnlineTags[1:50,]tagscloud(tag=x[,1],url=x[,2],freq=x[,3])
此博客无法插入该图,点击这里查看效果,这样的效果显得package:worcloud弱爆了。另外Github真是个好东西,有专门的HTML解析页面。生成的HTML页面调用了Google Code的js文件:
主要的是后两个js文件,鄙人看不懂js代码,经测试后两个依赖Google的jsapi文件,如果想移植js文件,需注意这几个js文件,另外flash文件tagcloud.swf的路径配置在wordcumulus.js中。