查看: 2776|回复: 0
打印 上一主题 下一主题

[应用领域] 【小实验】豆瓣读书爬虫程序的设计与实现

[复制链接]

5472

主题

6

听众

1万

积分

版主

Rank: 7Rank: 7Rank: 7

纳金币
76544
精华
23

活跃会员 荣誉管理 突出贡献 优秀版主 论坛元老

跳转到指定楼层
楼主
发表于 2018-3-15 15:27:57 |只看该作者 |倒序浏览
【小实验】豆瓣读书爬虫程序的设计与实现

鸣谢原作者:lanbing510

豆瓣读书爬虫,可以将特定“标签”下的图书爬取下来,排序按照评分进行,储存到Excel中,方便筛选。

更新

最近爬书发现豆瓣的页面规则发生了变化,导致不能爬到评价人数,由此对代码进行了相应的更新,并爬了一些新的数据。


实现功能

1 可以爬下豆瓣读书标签下的所有图书

2 按评分排名依次存储

3 存储到Excel中,可方便大家筛选搜罗,比如筛选评价人数>1000的高分书籍;可依据不同的主题存储到Excel不同的Sheet

4 采用User Agent伪装为浏览器进行爬取,并加入随机延时来更好的模仿浏览器行为,避免爬虫被封(更新于 2015-5-20)

效果截图

试着小小运行了下,爬了七八万本书,结果在book_list.xlsx中,截图如下: 1.png

笔者尝试(2016/12/9)

爬取豆瓣读书中关于“旅行”的图书,需要添加代码,如下图蓝色字体:
2.png
执行代码:
3.png
结束后出现的列表:
4.png
豆瓣读书中关于“旅行”的图书列表,截图如下:
5.png
详细源代码,请下载压缩包:

DouBanSpider-master.zip (13.59 MB, 下载次数: 0, 售价: 20 纳金币)


分享到: QQ好友和群QQ好友和群 腾讯微博腾讯微博 腾讯朋友腾讯朋友 微信微信
转播转播0 分享淘帖0 收藏收藏0 支持支持0 反对反对0
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

关闭

站长推荐上一条 /1 下一条

手机版|纳金网 ( 闽ICP备08008928号

GMT+8, 2024-4-27 13:09 , Processed in 0.087360 second(s), 37 queries .

Powered by Discuz!-创意设计 X2.5

© 2008-2019 Narkii Inc.

回顶部