600字范文,内容丰富有趣,生活中的好帮手!
600字范文 > python用find爬虫提取img下的src属性_基于 Python 的 Scrapy 爬虫入门:页面提取

python用find爬虫提取img下的src属性_基于 Python 的 Scrapy 爬虫入门:页面提取

时间:2021-01-01 21:16:41

相关推荐

python用find爬虫提取img下的src属性_基于 Python 的 Scrapy 爬虫入门:页面提取

目录

下面创建一个爬虫项目,以图虫网为例抓取图片。

一、内容分析

打开 图虫网,顶部菜单“发现” “标签”里面是对各种图片的分类,点击一个标签,比如“美女”,网页的链接为:/tags/美女/,我们以此作为爬虫入口,分析一下该页面:

打开页面后出现一个个的图集,点击图集可全屏浏览图片,向下滚动页面会出现更多的图集,没有页码翻页的设置。Chrome右键“检查元素”打开开发者工具,检查页面源码,内容部分如下:

可以判断每一个li.gallery-item是一个图集的入口,存放在ul.pagelist-wrapper下,div.widget-gallery是一个容器,如果使用 xpath 选取应该是://div[@class=">

但是如果用类似 Postman 的HTTP调试工具请求该页面,得到的内容是:

也就是并没有实际的图集内容,因此可以断定页面使用了Ajax请求,只有在浏览器载入页面时才会请求图集内容并加入div.widget-gallery中,通过开发者工具查看XHR请求地址为:

/rest/tags/美女/posts?page=1&count=20&order=weekly&before_timestamp=

参数很简单&#

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。