前言前段时间忙于备考,博客有段时间没更新了。其实早就有写这篇博客的想法了,原因嘛——我是比较喜欢看电影的,而且近来也对数据分析颇感兴趣,于是花了一天时间,先是爬取数据,再分析整理,数据可视化。其实豆瓣对爬虫的防范算是比较高级了,即使伪造了 Cookie,还是会封禁 IP(还好我的代理 IP 多😏),甚至还会把你的帐号暂时冻结,其实要不是有一些电影词条必须登录才可见,也不用伪造 Cookie 这么麻烦。爬取之前爬取都是用的正则匹配,这次首次接触了「Beautiful Soup」这个库,相见恨晚啊,不多说,先上代码:def get_info(url):
movie = {}
proxies = {'https': "socks5://127.0.0.1:1080"}
info = get(url, cookies=read_cookie(), proxies=proxies).text
soup = BeautifulSoup(info)
try:
# get movie name
name = soup.find(property='v:itemreviewed').get_text()
movie['name'] = name.split(' ')[0]
# get movie
...
继续阅读
(49)