IT博客汇
  • 首页
  • 精华
  • 技术
  • 设计
  • 资讯
  • 扯淡
  • 权利声明
  • 登录 注册

    免登录新浪微博爬虫系列之第二篇 获取关注用户数据,实现递增爬取

    四毛发表于 2017-05-27 04:51:04
    love 0

    大家好,我是四毛。

        在系列1  中,主要分析了微博信息与评论信息的抓取,今天主要讲一下如何获取关注用户的数据信息,以使得爬虫可以增量爬取。

        OK,开始学(zhuang)习(bi)。

    说明:本文针对的是有一些爬虫基础的同学,所以看不太懂的同学先补一下基础。

    大家如果有问题交流的话,欢迎在下面进行评论,或者可以加我QQ:549411552(加的话麻烦注明来自静觅),欢迎大佬拍砖指错,大家共同进步。

     

           抓包

        在系列一中的网址1的请求返回的内容主要是关于博主信息的,在其中可以发现fans_scheme、follow_scheme这两个字段,从字面上就可以知道这是关注博主的人以及博主关注的人的url,对其进行抓包,截图如下:

            前方高能:

    但是这里只返回了200个博主关注的人的信息,原以为是没有登录导致的,后来试着登录了一下,发现依然还是200,所以对于数据完整性要求比较高的就不要用这个接口了。

    在上图的返回值中,包含了当前请求网址的页码数,关注列表中用户的信息。通过这些信息,我们就可以实现爬虫的递增爬取了。还有一个注意的地方就是需要将follow_url 中的recomm替换掉才是真正我们需要的关注页的网址。

    好了,今天写的很少,在写的过程中也觉得没什么好写的了,很尴尬。

    代码地址: WEIBO

     

    转载请注明:静觅 » 免登录新浪微博爬虫系列之第二篇 获取关注用户数据,实现递增爬取



沪ICP备19023445号-2号
友情链接