博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
阅读基地畅销榜数据抓取
阅读量:6987 次
发布时间:2019-06-27

本文共 462 字,大约阅读时间需要 1 分钟。

  hot3.png

1、需求说明

由于业务需要,现需要将阅读基地畅销榜上的作品部分数据抓取到本地,保存在数据库中,用于后续的数据导出分析

2、详细需求

Ø  移动阅读基地有一个排行榜叫畅销榜,其中有各个分类的作品畅销排行。现需要每天将畅销榜上的作品抓取下来(包括:原创、女生、出版、言情、穿越、玄幻、武侠、游戏、浪漫、历史、灵异、科幻、时尚、官场、现代都市。注意:其中原创、女生和出版榜单上的作品和分类榜单上的作品可能会重复),并存入数据库中,一天抓取一次,抓取榜单前100名作品。只抓取周榜和月榜;只抓取畅销榜。

Ø  抓取的字段为:日期、榜单名称、排名、作品类别、作品名称、完成情况、点击数、收藏数、鲜花数、总字数、章节数、价格,阅读用户数,发布评论的网友数。

Ø  存入数据库中的数据可以根据所抓取的字段进行筛选并导出成EXCEL表格。另外,也可以根据日期段、榜单名称以及在该日期段内排名上升若干位的作品进行筛选。

Ø  畅销榜地址:

Ø  作品数据情况地址

 

转载于:https://my.oschina.net/qeecoo/blog/41844

你可能感兴趣的文章
a:active
查看>>
方位话机同一号码双链路注册实现冗余
查看>>
JENKINS系统的安装部署
查看>>
最强悍的VS插件—reSharper
查看>>
easyui---修改删除查询
查看>>
各种推导式
查看>>
初识Typescript及vscode环境配置
查看>>
org.apache.poi 读取数字问题
查看>>
python使用snappy压缩
查看>>
Error: "Call requires API level 11 (current min is 8): android.app.Activity#onCreateView"
查看>>
Ubuntu12.04下Linux内核编译
查看>>
Codeforces Round #113 (Div. 2) Tetrahedron(滚动DP)
查看>>
结构体的使用
查看>>
NOR flash and NAND flash
查看>>
关于异步委托的调用与应用场景
查看>>
flask+redis实现抢购(秒杀)功能
查看>>
Linux 学习笔记 (一)在VMware 中安装 Ubtuntu 以及 VMware tools
查看>>
经典测试用例
查看>>
3月16日学习内容整理:metaclass
查看>>
Vue和其他框架的区别
查看>>