1、需求说明
由于业务需要,现需要将阅读基地畅销榜上的作品部分数据抓取到本地,保存在数据库中,用于后续的数据导出分析
2、详细需求
Ø 移动阅读基地有一个排行榜叫畅销榜,其中有各个分类的作品畅销排行。现需要每天将畅销榜上的作品抓取下来(包括:原创、女生、出版、言情、穿越、玄幻、武侠、游戏、浪漫、历史、灵异、科幻、时尚、官场、现代都市。注意:其中原创、女生和出版榜单上的作品和分类榜单上的作品可能会重复),并存入数据库中,一天抓取一次,抓取榜单前100名作品。只抓取周榜和月榜;只抓取畅销榜。
Ø 抓取的字段为:日期、榜单名称、排名、作品类别、作品名称、完成情况、点击数、收藏数、鲜花数、总字数、章节数、价格,阅读用户数,发布评论的网友数。
Ø 存入数据库中的数据可以根据所抓取的字段进行筛选并导出成EXCEL表格。另外,也可以根据日期段、榜单名称以及在该日期段内排名上升若干位的作品进行筛选。
Ø 畅销榜地址:
Ø 作品数据情况地址