600字范文,内容丰富有趣,生活中的好帮手!
600字范文 > python爬虫——爬起点中文网小说

python爬虫——爬起点中文网小说

时间:2023-03-19 08:33:42

相关推荐

python爬虫——爬起点中文网小说

(一)项目目标

本次要练习的目标时起点中文网里面的免费小说。

1. 如下图,找到免费小说的目录:

2. 点击更多后,随便找一本免费小说打开:

3. 点击中间的目录按钮,进入小说目录:

可以看到,该小说一共有83章,这就是本次目标。

(二)网页分析

1. 在目录页中点击一章,进入阅读页面,并同时检查网络,查看内容来源。

请注意下图中标注的三个部分:

2. 这样,我们找到了获取内容的请求。下面仔细分析该请求:

从上面截图可以看到,请求的类型是GET,url与页面url相同。

这样,只要通过页面url就能拿到小说这一章的数据。

那么,其他章的url从哪里可以获取呢?

3. 还是回到最初的目录页,审查元素,发现其中包含了所有章节的相对url。

4. 至此,网页分析完毕。思路如下:

- 通过目录页,拿到所有章节页面url

- 通过章节页面url,拿到小说原文。

(三) 核心代码实现

本次代码比较简单,我是直接用jupyter写的,下面将jupyter代码页面直接粘贴如下:

(四)结果展示

由于内容不多,大概程序在20秒左右执行完毕,打开Mongodb查看,爬取结果如下:

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。