目录
下面创建一个爬虫项目,以图虫网为例抓取图片。
一、内容分析
打开 图虫网,顶部菜单“发现” “标签”里面是对各种图片的分类,点击一个标签,比如“美女”,网页的链接为:/tags/美女/,我们以此作为爬虫入口,分析一下该页面:
打开页面后出现一个个的图集,点击图集可全屏浏览图片,向下滚动页面会出现更多的图集,没有页码翻页的设置。Chrome右键“检查元素”打开开发者工具,检查页面源码,内容部分如下:
可以判断每一个li.gallery-item是一个图集的入口,存放在ul.pagelist-wrapper下,div.widget-gallery是一个容器,如果使用 xpath 选取应该是://div[@class=">
但是如果用类似 Postman 的HTTP调试工具请求该页面,得到的内容是:
也就是并没有实际的图集内容,因此可以断定页面使用了Ajax请求,只有在浏览器载入页面时才会请求图集内容并加入div.widget-gallery中,通过开发者工具查看XHR请求地址为:
/rest/tags/美女/posts?page=1&count=20&order=weekly&before_timestamp=
参数很简单&#