600字范文,内容丰富有趣,生活中的好帮手!
600字范文 > [Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(三) —— 数据的持久化——

[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(三) —— 数据的持久化——

时间:2021-05-15 02:38:30

相关推荐

[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(三) —— 数据的持久化——

上一篇:[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(二) —— 编写一个基本的 Spider 爬取微博用户信息

在上一篇博客中,我们已经新建了一个爬虫应用,并简单实现了爬取一位微博用户的基本信息。这一篇博客就将介绍怎样横向和纵向地扩展爬虫,让爬虫程序循环地爬取用户信息,然后将爬取的用户信息,保存到 MongoDB。

扩展爬取范围

1. 完善爬取用户的资料

其实上一篇博客还遗留了部分问题,我们只爬取了用户主页的信息(用户Id、微博数、关注数、粉丝数),还没有爬取用户资料中的信息,包括用户昵称、认证信息、简介、认证、性别、地区等,这一节我们就来实现这部分逻辑。

我们上一篇实现用户基本信息的爬取是在 base_info_parse() 方法中实现的,我们再定义一个 detail_info_parse() 方法来实现用户资料的爬取。我们在用户主页点击“资料”就可以跳转到用户资料页面(/1809054937/info),因此我们可以在base_info_parse() 方法中获取用户资料的 url,当然,仔细观察不难看出所有用户的资料页面 url 都是形如/{user_id}/info的,因此我们也可以用解析的 user_id 直接组装出 url,这里采用自己组装 url 的方法,然后构造一个新的请求。在base_info_parse() 方法末尾构建新的爬虫 Request,另外,由于我们得到一位用户的完整信息,是需要将用户基本信息和详细信息组装到一起的,所以我们希望将base_info_parse() 提取的信息也传递到detail_info_parse() 方法中去,我们可以采用 meta 这个参数,将提取的信息传递下去,代码如下:

yield scrapy.Request(url='/%s/info' % user_id, callback=self.detail_info_parse,headers=self.headers, cookies=self.cookies, meta={'item': load.load_item()})

detail_info_parse() 的完整代码如下:

def detail_info_parse(self, response):"""用户资料解析函数\n:param response::return:"""# 获取上一个函数的解析结果item = response.meta['item']user_id = item.get('user_id')# 利用上一个函数的解析结果构造加载器(Loader)load = ItemLoader(item=item, response=response)selector = scrapy.Selector(response)# 如果 user_id 为空,在用户资料页面,再次提取 user_idif not user_id:ids = selector.xpath('//a[contains(@href,"uid")]/@href').re('uid=(\d{10})')ids = list(set(ids))user_id = ids[0]load.add_value('user_id', user_id)nick_name, gender, district, birthday, brief_intro, identify, head_img = '', '', '', '', '', '', ''for info in selector.xpath('//div[@class="c"][3]/text()'):# 提取个人资料nick_name = info.re(u'昵称:(.*)')[0] if info.re(u'昵称:(.*)') else nick_nameidentify = info.re(u'认证:(.*)')[0] if info.re(u'认证:(.*)') else identifygender = info.re(u'性别:(.*)')[0] if info.re(u'性别:(.*)') else genderdistrict = info.re(u'地区:(.*)')[0] if info.re(u'地区:(.*)') else districtbirthday = info.re(u'生日:(.*)')[0] if info.re(u'生日:(.*)') else birthdaybrief_intro = info.re(u'简介:(.*)')[0] if info.re(u'简介:(.*)') else brief_intro# 根据用户填写的地区信息拆分成 省份 和 城市province, city = '', ''if district:extract = district.split(' ')province = extract[0] if extract else ''city = extract[1] if extract and len(extract) > 1 else ''# 合并用户基本信息和详细资料load.add_value('province', province)load.add_value('city', city)load.add_xpath('head_img', '//div[@class="c"]/img[@alt="头像"]/@src')load.add_value('username', nick_name)load.add_value('identify', identify)load.add_value('gender', gender)load.add_value('district', district)load.add_value('birthday', birthday)load.add_value('brief_intro', brief_intro)yield load.load_item()

2. 纵向扩展爬取:递归爬取用户的粉丝和关注

目前我们已经基本实现爬取一位微博用户的信息,要实现爬取多用户信息虽然可以在 start_urls 里面构造多个 url 来实现爬取多位用户,但是这样做显然是不现实的,我们注意到微博用户都有自己的粉丝和关注,我们可以通过爬取指定微博用户的关注和粉丝来扩展爬取,因此我们就需要解析用户的关注和粉丝页面来提取数据了。每一个用户的关注页面 url 都是:/{user_id}/follow,粉丝页面 url 都是:/{user_id}/fans,因此我们就可以通过 user_id 来组装出用户的粉丝页面和关注页面:代码如下:

# 用户关注页 urlfollows_url = '/%s/follow' % user_id# 用户粉丝页 urlfans_url = '/%s/fans' % user_id

通过分析粉丝和关注页面,其实两者的页面结构是一样的,因此我们可以用一个方法来分别解析两个页面,代码如下:

def follow_fans_parse(self, response):"""获取关注用户/粉丝用户\n:param response::return:"""user_id = response.meta.get('user_id')if not user_id:user_id = pile('/(\d{10})/.*').findall(response.url)user_id = user_id[0] if user_id else ''selector = scrapy.Selector(response)# 判断用户数是否超过配置的最大用户数type_str = '关注' if str(response.url).find('follow') > 0 else '粉丝'self.logger.info('开始构造 [%s] %s爬取请求...' % (user_id, type_str))# 解析页面中所有的 URL,并提取 用户 idaccounts = selector.xpath('//a[starts-with(@href,"/u/")]/@href').re(u'/u/(\d{10})')# 去重accounts = list(set(accounts))# 使用用户 id 构造个人资料、用户主页、关注列表以及粉丝列表的 URLurls = [][urls.extend(('/u/%s' % acc, '/%s/fans' % acc,'/%s/follow' % acc)) for acc in accounts]

在上面代码中,我们只是解析了用户关注/粉丝页面的 user_id ,还并没有爬取他们的信息,现在我们来进一步完善程序,使其形成一个闭环,继续爬取用户关注和粉丝的信息以及他们的粉丝和关注的信息。可以看到,我们构造了三种 url,分别是用户主页、关注列表以及粉丝列表的 url,其中关注列表 url 和粉丝列表 url,可以递归调用follow_fans_parse() 方法,而用户主页可以调用 base_info_parse() 方法,代码如下:

# 使用生成的 URL 构造 requestfor url in urls:if str(url).find('follow') > 0 or str(url).find('fan') > 0:yield scrapy.Request(url=url, callback=self.follow_fans_parse, headers=self.headers,cookies=self.cookies, meta={'user_id': user_id})else:yield scrapy.Request(url=url, callback=self.base_info_parse, headers=self.headers, cookies=self.cookies)

3. 横向扩展爬取:添加分页爬取

现在我们只是实现了爬取一页的关注/粉丝,在页面中,我们看到对于用户关注和粉丝都是有分页的,每一页只展示 10 位用户,因此我们添加分页的实现,代码如下:

# 下一页nextLink = selector.xpath('//div[@class="pa"]/form/div/a/@href').extract()if nextLink:url = '' + nextLink[0]self.logger.info('[%s] %s下一页:%s' % (user_id, type_str, url))yield scrapy.Request(url=url, callback=self.follow_fans_parse, headers=self.headers, cookies=self.cookies, meta={'user_id': user_id})else:self.logger.info(u'[%s] %s已爬取完毕!' % (user_id, type_str))

最后别忘了在base_info_parse() 方法中构造 follow_fans_parse() 的请求:

for url in (follows_url, fans_url):yield scrapy.Request(url=url, callback=self.follow_fans_parse, headers=self.headers,cookies=self.cookies, meta={'user_id': user_id})

目前,sina_user.py 的完整代码如下(已隐去 cookies的值):

# -*- coding: utf-8 -*-import scrapy, time, refrom scrapy.loader import ItemLoaderfrom sina_scrapy.items import SinaUserItemclass SinaUserSpider(scrapy.Spider):# 爬虫的名字,唯一标识name = 'sina_user'# 允许爬取的域名范围allowed_domains = ['']# 爬虫的起始页面urlstart_urls = ['/u/1809054937']def __init__(self):self.headers = {'Referer': '/u/1809054937','User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'}self.cookies = {'SCF': 'XXXXXXXXXXXXXXXXXXXXXXXXXX','SUB': 'XXXXXXXXXXXXXXXXXXXXXXXXXX','SUHB': 'XXXXXXXXXXXXXXXXXXXXXXXXX','_T_WM': XXXXXXXXXXXXXXXXXXXXXXXXX}def start_requests(self):"""构造最初 request 函数\n:return:"""for url in self.start_urls:yield scrapy.Request(url=url, callback=self.base_info_parse, headers=self.headers, cookies=self.cookies)def base_info_parse(self, response):"""微博用户基本信息解析函数\n:param response::return:"""# 加载器(Loader)load = ItemLoader(item=SinaUserItem(), response=response)selector = scrapy.Selector(response)# 解析微博用户 idre_url = selector.xpath('///a[contains(@href,"uid")]/@href').re('uid=(\d{10})')user_id = re_url[0] if re_url else ''load.add_value('user_id', user_id)follows_url = '/%s/follow' % user_idfans_url = '/%s/fans' % user_idfor url in (follows_url, fans_url):yield scrapy.Request(url=url, callback=self.follow_fans_parse, headers=self.headers,cookies=self.cookies, meta={'user_id': user_id})# 微博数webo_num_re = selector.xpath('//div[@class="tip2"]').re(u'微博\[(\d+)\]')webo_num = int(webo_num_re[0]) if webo_num_re else 0load.add_value('webo_num', webo_num)# 关注人数follow_num_re = selector.xpath('//div[@class="tip2"]').re(u'关注\[(\d+)\]')follow_num = int(follow_num_re[0]) if follow_num_re else 0load.add_value('follow_num', follow_num)# 粉丝人数fans_num_re = selector.xpath('//div[@class="tip2"]').re(u'粉丝\[(\d+)\]')fans_num = int(fans_num_re[0]) if fans_num_re else 0load.add_value('fans_num', fans_num)# 记录爬取时间load.add_value('crawl_time', time.strftime('%Y-%m-%d %H:%M:%S', time.localtime(time.time())))yield scrapy.Request(url='/%s/info' % user_id, callback=self.detail_info_parse,headers=self.headers, cookies=self.cookies, meta={'item': load.load_item()})def detail_info_parse(self, response):"""用户资料解析函数\n:param response::return:"""# 获取上一个函数的解析结果item = response.meta['item']user_id = item.get('user_id')# 利用上一个函数的解析结果构造加载器(Loader)load = ItemLoader(item=item, response=response)selector = scrapy.Selector(response)# 如果 user_id 为空,在用户资料页面,再次提取 user_idif not user_id:ids = selector.xpath('//a[contains(@href,"uid")]/@href').re('uid=(\d{10})')ids = list(set(ids))user_id = ids[0]load.add_value('user_id', user_id)nick_name, gender, district, birthday, brief_intro, identify, head_img = '', '', '', '', '', '', ''for info in selector.xpath('//div[@class="c"][3]/text()'):# 提取个人资料nick_name = info.re(u'昵称:(.*)')[0] if info.re(u'昵称:(.*)') else nick_nameidentify = info.re(u'认证:(.*)')[0] if info.re(u'认证:(.*)') else identifygender = info.re(u'性别:(.*)')[0] if info.re(u'性别:(.*)') else genderdistrict = info.re(u'地区:(.*)')[0] if info.re(u'地区:(.*)') else districtbirthday = info.re(u'生日:(.*)')[0] if info.re(u'生日:(.*)') else birthdaybrief_intro = info.re(u'简介:(.*)')[0] if info.re(u'简介:(.*)') else brief_intro# 根据用户填写的地区信息拆分成 省份 和 城市province, city = '', ''if district:extract = district.split(' ')province = extract[0] if extract else ''city = extract[1] if extract and len(extract) > 1 else ''# 合并用户基本信息和详细资料load.add_value('province', province)load.add_value('city', city)load.add_xpath('head_img', '//div[@class="c"]/img[@alt="头像"]/@src')load.add_value('username', nick_name)load.add_value('identify', identify)load.add_value('gender', gender)load.add_value('district', district)load.add_value('birthday', birthday)load.add_value('brief_intro', brief_intro)yield load.load_item()def follow_fans_parse(self, response):"""获取关注用户/粉丝用户\n:param response::return:"""user_id = response.meta.get('user_id')if not user_id:user_id = pile('/(\d{10})/.*').findall(response.url)user_id = user_id[0] if user_id else ''selector = scrapy.Selector(response)# 判断用户数是否超过配置的最大用户数type_str = '关注' if str(response.url).find('follow') > 0 else '粉丝'self.logger.info('开始构造 [%s] %s爬取请求...' % (user_id, type_str))# 解析页面中所有的 URL,并提取 用户 idaccounts = selector.xpath('//a[starts-with(@href,"/u/")]/@href').re(u'/u/(\d{10})')# 去重accounts = list(set(accounts))# 使用用户 id 构造个人资料、用户主页、关注列表以及粉丝列表的 URLurls = [][urls.extend(('/u/%s' % acc, '/%s/fans' % acc,'/%s/follow' % acc)) for acc in accounts]# 使用生成的 URL 构造 requestfor url in urls:if str(url).find('follow') > 0 or str(url).find('fan') > 0:yield scrapy.Request(url=url, callback=self.follow_fans_parse, headers=self.headers,cookies=self.cookies, meta={'user_id': user_id})else:yield scrapy.Request(url=url, callback=self.base_info_parse, headers=self.headers, cookies=self.cookies)# 下一页nextLink = selector.xpath('//div[@class="pa"]/form/div/a/@href').extract()if nextLink:url = '' + nextLink[0]self.logger.info('[%s] %s下一页:%s' % (user_id, type_str, url))yield scrapy.Request(url=url, callback=self.follow_fans_parse, headers=self.headers, cookies=self.cookies,meta={'user_id': user_id})else:self.logger.info(u'[%s] %s已爬取完毕!' % (user_id, type_str))

现在,我们的程序已经基本实现了爬取微博用户信息的功能(目前没有限制爬取速度,因此在爬取部分用户后,微博服务器会响应 418,这是微博反爬的一种策略,目前只能通过降低爬取的频率来避免出现 418,这个问题会在后面的博客介绍)

实现数据的持久化

还记得在 第一篇博客 [Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(一) —— 新建爬虫项目中分析 Scrapy 的整体架构时介绍到,Spider 爬取的数据,会交给 Item Pipeline 处理。在上面的代码中,detail_info_parse() 方法的最后一行代码:

yield load.load_item()

通过这行代码,Spider 就生成了一个 Item,并将这个 Item 返回给了Item Pipeline 处理。我们在Item Pipeline 里面可以将我们爬取的数据存入到 MongoDB 中去。

首先我们在 settings.py 里面定义我们 MongoDB 的连接信息,代码如下:

# MONGODB 主机名MONGODB_HOST = "127.0.0.1"# MONGODB 端口号MONGODB_PORT = 27017# 数据库名称MONGODB_DBNAME = "crawl"# 存放数据的集合名称MONGODB_COLLECTION = "sina_userinfo"

然后在Item Pipeline 中得到这些配置,用来初始化 MongoDB 连接,代码如下:

from scrapy.conf import settingsfrom pymongo import MongoClienthost = settings.get('MONGODB_HOST')port = settings.get('MONGODB_PORT')dbname = settings.get('MONGODB_DBNAME')collection_name = settings.get('MONGODB_COLLECTION')db = MongoClient(host=host, port=port).get_database(dbname).get_collection(collection_name)

接下来我们要做的很简单,只需要把得到的 Item 保存到 MongoDB 就可以了,我们定义一个SaveUserInfoPipeline 类,然后定义一个process_item() 方法,然后将 item 转化成字典类型,保存入库就行了。代码如下:

class SaveUserInfoPipeline(object):"""保存爬取的数据\n"""def __init__(self):print('要保存的 Collenction:%s' % collection_name)def process_item(self, item, spider):data = dict(item)print("最终入库数据:%s" % item)# 记录不存在则插入,否则更新数据db.update_one({'weibo_id': data.get('weibo_id')}, {"$set": data}, True)return item

最后一步,在 settings 启用我们定义的Item Pipeline,代码如下:

ITEM_PIPELINES = {'sina_scrapy.pipelines.SaveUserInfoPipeline': 20,}

后面的数字 20 是代表优先级(取值范围是 1 ~999),目前只有一个Item Pipeline,所以任意指定一个就行。

使用 scrapy crawl sina_user 指令启动爬虫,现在我们已经实现了将爬取的用户信息保存到 MongoDB,但是查看 MongoDB 的数据可以发现,保存的每一项都是一个列表形式,这并不是我们想要的。针对这个问题,我们可以修改 Items 里面关于数据模型的定义,对于每一项数据都只取第一个元素,代码如下:

import scrapyfrom scrapy.loader.processors import TakeFirstclass SinaUserItem(scrapy.Item):# 微博用户唯一标识user_id = scrapy.Field(output_processor=TakeFirst())# 用户昵称username = scrapy.Field(output_processor=TakeFirst())# 微博数量webo_num = scrapy.Field(output_processor=TakeFirst())# 关注人数follow_num = scrapy.Field(output_processor=TakeFirst())# 粉丝人数fans_num = scrapy.Field(output_processor=TakeFirst())# 性别gender = scrapy.Field(output_processor=TakeFirst())# 地区district = scrapy.Field(output_processor=TakeFirst())# 省份province = scrapy.Field(output_processor=TakeFirst())# 地市city = scrapy.Field(output_processor=TakeFirst())# 生日birthday = scrapy.Field(output_processor=TakeFirst())# 简介brief_intro = scrapy.Field(output_processor=TakeFirst())# 认证identify = scrapy.Field(output_processor=TakeFirst())# 头像 URLhead_img = scrapy.Field(output_processor=TakeFirst())# 爬取时间crawl_time = scrapy.Field(output_processor=TakeFirst())

这样我们就实现了我们预期的效果了。

总结

这一篇博客,我们实现了从横向和纵向扩展爬取用户信息并将用户信息保存到 MongoDB。在下一节中,我们将对爬虫的一些反爬技术进行介绍,例如添加 IP代理池、Cookies池以及随机选取 User-Agent 等。让我们的爬虫应用反爬机制更加健全。

下一篇:[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(四) —— 应对反爬技术(选取 User-Agent、添加 IP代理池以及Cookies池 )

[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(三) —— 数据的持久化——使用MongoDB存储爬取的数据

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。