1.URL地址分析选取的一个百度贴吧帖子的网址是http://tieba.baidu.com/p/4739169817,各位可以点击进去查看一下。如果点击只看楼主或者翻页,则会产生两个参数http://tieba.baidu.com/p/4739169817?pn=2或http://tieba.baidu.com/p/4739169817?see_lz=1,分析一下该网址如下:http://tieba.baidu.com/p/4739169817?see_lz=1这是网址see_lz 该参数表示是否只看楼主发的帖子,1表示truepn 该参数表示表示第几页2.页面爬取python2.7版本,代码如下:123456789101112131415161718#coding=utf-8__author__ = 'xuzhengxi'import syssys.path.append("/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/")import urllib2import stringdef baidu_tieba(url,begin_page,end_page):for i in range(begin_page,end_page+1):sName = string.z
...
继续阅读
(10)