600字范文 > python爬取豆瓣书籍_Python爬虫-爬取豆瓣图书Top250

python爬取豆瓣书籍_Python爬虫-爬取豆瓣图书Top250

时间：2020-06-03 21:29:02

豆瓣网站很人性化，对于新手爬虫比较友好，没有如果调低爬取频率，不用担心会被封 IP。但也不要太频繁爬取。

涉及知识点：requests、html、xpath、csv

一、准备工作

需要安装requests、lxml、csv库

二、分析页面源码

打开网址，按下F12，然后查找书名，右键弹出菜单栏 Copy==> Copy Xpath

以书名“追风筝的人” 获取书名的xpath是：//*[@id="content"]/div/div[1]/div/table[1]/tbody/tr/td[2]/div[1]/a

这里需要注意一下，浏览器复制的xpath只能作参考，因为浏览器经常会在自己里面增加多余的tbody标签，我们需要手动把这个标签删除，整理成//*[@id="content"]/div/div[1]/div/table[1]/tr/td[2]/div[1]/a

同样获取图书的评分、评论人数、简介，结果如下：

//*[@id="content"]/div/div[1]/div/table[1]/tr/td[2]/div[2]/span[2]

//*[@id="content"]/div/div[1]/div/table[1]/tr/td[2]/div[2]/span[3]

//*[@id=&#

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。