大家好,我是四毛。
在系列1 中,主要分析了微博信息与评论信息的抓取,今天主要讲一下如何获取关注用户的数据信息,以使得爬虫可以增量爬取。
OK,开始学(zhuang)习(bi)。
说明:本文针对的是有一些爬虫基础的同学,所以看不太懂的同学先补一下基础。
大家如果有问题交流的话,欢迎在下面进行评论,或者可以加我QQ:549411552(加的话麻烦注明来自静觅),欢迎大佬拍砖指错,大家共同进步。
抓包
在系列一中的网址1的请求返回的内容主要是关于博主信息的,在其中可以发现fans_scheme、follow_scheme这两个字段,从字面上就可以知道这是关注博主的人以及博主关注的人的url,对其进行抓包,截图如下:
前方高能:
但是这里只返回了200个博主关注的人的信息,原以为是没有登录导致的,后来试着登录了一下,发现依然还是200,所以对于数据完整性要求比较高的就不要用这个接口了。
在上图的返回值中,包含了当前请求网址的页码数,关注列表中用户的信息。通过这些信息,我们就可以实现爬虫的递增爬取了。还有一个注意的地方就是需要将follow_url 中的recomm替换掉才是真正我们需要的关注页的网址。
好了,今天写的很少,在写的过程中也觉得没什么好写的了,很尴尬。
代码地址: WEIBO
转载请注明:静觅 » 免登录新浪微博爬虫系列之第二篇 获取关注用户数据,实现递增爬取