600字范文 > [Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息（三） —— 数据的持久化——

[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息（三） —— 数据的持久化——

时间：2021-05-15 02:38:30

上一篇：[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息（二） —— 编写一个基本的 Spider 爬取微博用户信息

在上一篇博客中，我们已经新建了一个爬虫应用，并简单实现了爬取一位微博用户的基本信息。这一篇博客就将介绍怎样横向和纵向地扩展爬虫，让爬虫程序循环地爬取用户信息，然后将爬取的用户信息，保存到 MongoDB。

扩展爬取范围

1. 完善爬取用户的资料

其实上一篇博客还遗留了部分问题，我们只爬取了用户主页的信息（用户Id、微博数、关注数、粉丝数），还没有爬取用户资料中的信息，包括用户昵称、认证信息、简介、认证、性别、地区等，这一节我们就来实现这部分逻辑。

我们上一篇实现用户基本信息的爬取是在 base_info_parse() 方法中实现的，我们再定义一个 detail_info_parse() 方法来实现用户资料的爬取。我们在用户主页点击“资料”就可以跳转到用户资料页面（/1809054937/info），因此我们可以在base_info_parse() 方法中获取用户资料的 url，当然，仔细观察不难看出所有用户的资料页面 url 都是形如/{user_id}/info的，因此我们也可以用解析的 user_id 直接组装出 url，这里采用自己组装 url 的方法，然后构造一个新的请求。在base_info_parse() 方法末尾构建新的爬虫 Request，另外，由于我们得到一位用户的完整信息，是需要将用户基本信息和详细信息组装到一起的，所以我们希望将base_info_parse() 提取的信息也传递到detail_info_parse() 方法中去，我们可以采用 meta 这个参数，将提取的信息传递下去，代码如下：

yield scrapy.Request(url='/%s/info' % user_id, callback=self.detail_info_parse,headers=self.headers, cookies=self.cookies, meta={'item': load.load_item()})

detail_info_parse() 的完整代码如下：

def detail_info_parse(self, response):"""用户资料解析函数\n:param response::return:"""# 获取上一个函数的解析结果item = response.meta['item']user_id = item.get('user_id')# 利用上一个函数的解析结果构造加载器（Loader）load = ItemLoader(item=item, response=response)selector = scrapy.Selector(response)# 如果 user_id 为空，在用户资料页面，再次提取 user_idif not user_id:ids = selector.xpath('//a[contains(@href,"uid")]/@href').re('uid=(\d{10})')ids = list(set(ids))user_id = ids[0]load.add_value('user_id', user_id)nick_name, gender, district, birthday, brief_intro, identify, head_img = '', '', '', '', '', '', ''for info in selector.xpath('//div[@class="c"][3]/text()'):# 提取个人资料nick_name = info.re(u'昵称:(.*)')[0] if info.re(u'昵称:(.*)') else nick_nameidentify = info.re(u'认证:(.*)')[0] if info.re(u'认证:(.*)') else identifygender = info.re(u'性别:(.*)')[0] if info.re(u'性别:(.*)') else genderdistrict = info.re(u'地区:(.*)')[0] if info.re(u'地区:(.*)') else districtbirthday = info.re(u'生日:(.*)')[0] if info.re(u'生日:(.*)') else birthdaybrief_intro = info.re(u'简介:(.*)')[0] if info.re(u'简介:(.*)') else brief_intro# 根据用户填写的地区信息拆分成省份和城市province, city = '', ''if district:extract = district.split(' ')province = extract[0] if extract else ''city = extract[1] if extract and len(extract) > 1 else ''# 合并用户基本信息和详细资料load.add_value('province', province)load.add_value('city', city)load.add_xpath('head_img', '//div[@class="c"]/img[@alt="头像"]/@src')load.add_value('username', nick_name)load.add_value('identify', identify)load.add_value('gender', gender)load.add_value('district', district)load.add_value('birthday', birthday)load.add_value('brief_intro', brief_intro)yield load.load_item()

2. 纵向扩展爬取：递归爬取用户的粉丝和关注

目前我们已经基本实现爬取一位微博用户的信息，要实现爬取多用户信息虽然可以在 start_urls 里面构造多个 url 来实现爬取多位用户，但是这样做显然是不现实的，我们注意到微博用户都有自己的粉丝和关注，我们可以通过爬取指定微博用户的关注和粉丝来扩展爬取，因此我们就需要解析用户的关注和粉丝页面来提取数据了。每一个用户的关注页面 url 都是：/{user_id}/follow，粉丝页面 url 都是：/{user_id}/fans，因此我们就可以通过 user_id 来组装出用户的粉丝页面和关注页面：代码如下：

# 用户关注页 urlfollows_url = '/%s/follow' % user_id# 用户粉丝页 urlfans_url = '/%s/fans' % user_id

通过分析粉丝和关注页面，其实两者的页面结构是一样的，因此我们可以用一个方法来分别解析两个页面，代码如下：

def follow_fans_parse(self, response):"""获取关注用户/粉丝用户\n:param response::return:"""user_id = response.meta.get('user_id')if not user_id:user_id = pile('/(\d{10})/.*').findall(response.url)user_id = user_id[0] if user_id else ''selector = scrapy.Selector(response)# 判断用户数是否超过配置的最大用户数type_str = '关注' if str(response.url).find('follow') > 0 else '粉丝'self.logger.info('开始构造 [%s] %s爬取请求...' % (user_id, type_str))# 解析页面中所有的 URL，并提取用户 idaccounts = selector.xpath('//a[starts-with(@href,"/u/")]/@href').re(u'/u/(\d{10})')# 去重accounts = list(set(accounts))# 使用用户 id 构造个人资料、用户主页、关注列表以及粉丝列表的 URLurls = [][urls.extend(('/u/%s' % acc, '/%s/fans' % acc,'/%s/follow' % acc)) for acc in accounts]

在上面代码中，我们只是解析了用户关注/粉丝页面的 user_id ，还并没有爬取他们的信息，现在我们来进一步完善程序，使其形成一个闭环，继续爬取用户关注和粉丝的信息以及他们的粉丝和关注的信息。可以看到，我们构造了三种 url，分别是用户主页、关注列表以及粉丝列表的 url，其中关注列表 url 和粉丝列表 url，可以递归调用follow_fans_parse() 方法，而用户主页可以调用 base_info_parse() 方法，代码如下：

# 使用生成的 URL 构造 requestfor url in urls:if str(url).find('follow') > 0 or str(url).find('fan') > 0:yield scrapy.Request(url=url, callback=self.follow_fans_parse, headers=self.headers,cookies=self.cookies, meta={'user_id': user_id})else:yield scrapy.Request(url=url, callback=self.base_info_parse, headers=self.headers, cookies=self.cookies)

3. 横向扩展爬取：添加分页爬取

现在我们只是实现了爬取一页的关注/粉丝，在页面中，我们看到对于用户关注和粉丝都是有分页的，每一页只展示 10 位用户，因此我们添加分页的实现，代码如下：

# 下一页nextLink = selector.xpath('//div[@class="pa"]/form/div/a/@href').extract()if nextLink:url = '' + nextLink[0]self.logger.info('[%s] %s下一页：%s' % (user_id, type_str, url))yield scrapy.Request(url=url, callback=self.follow_fans_parse, headers=self.headers, cookies=self.cookies, meta={'user_id': user_id})else:self.logger.info(u'[%s] %s已爬取完毕！' % (user_id, type_str))

最后别忘了在base_info_parse() 方法中构造 follow_fans_parse() 的请求：

for url in (follows_url, fans_url):yield scrapy.Request(url=url, callback=self.follow_fans_parse, headers=self.headers,cookies=self.cookies, meta={'user_id': user_id})

目前，sina_user.py 的完整代码如下（已隐去 cookies的值）：

# -*- coding: utf-8 -*-import scrapy, time, refrom scrapy.loader import ItemLoaderfrom sina_scrapy.items import SinaUserItemclass SinaUserSpider(scrapy.Spider):# 爬虫的名字，唯一标识name = 'sina_user'# 允许爬取的域名范围allowed_domains = ['']# 爬虫的起始页面urlstart_urls = ['/u/1809054937']def __init__(self):self.headers = {'Referer': '/u/1809054937','User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'}self.cookies = {'SCF': 'XXXXXXXXXXXXXXXXXXXXXXXXXX','SUB': 'XXXXXXXXXXXXXXXXXXXXXXXXXX','SUHB': 'XXXXXXXXXXXXXXXXXXXXXXXXX','_T_WM': XXXXXXXXXXXXXXXXXXXXXXXXX}def start_requests(self):"""构造最初 request 函数\n:return:"""for url in self.start_urls:yield scrapy.Request(url=url, callback=self.base_info_parse, headers=self.headers, cookies=self.cookies)def base_info_parse(self, response):"""微博用户基本信息解析函数\n:param response::return:"""# 加载器（Loader）load = ItemLoader(item=SinaUserItem(), response=response)selector = scrapy.Selector(response)# 解析微博用户 idre_url = selector.xpath('///a[contains(@href,"uid")]/@href').re('uid=(\d{10})')user_id = re_url[0] if re_url else ''load.add_value('user_id', user_id)follows_url = '/%s/follow' % user_idfans_url = '/%s/fans' % user_idfor url in (follows_url, fans_url):yield scrapy.Request(url=url, callback=self.follow_fans_parse, headers=self.headers,cookies=self.cookies, meta={'user_id': user_id})# 微博数webo_num_re = selector.xpath('//div[@class="tip2"]').re(u'微博\[(\d+)\]')webo_num = int(webo_num_re[0]) if webo_num_re else 0load.add_value('webo_num', webo_num)# 关注人数follow_num_re = selector.xpath('//div[@class="tip2"]').re(u'关注\[(\d+)\]')follow_num = int(follow_num_re[0]) if follow_num_re else 0load.add_value('follow_num', follow_num)# 粉丝人数fans_num_re = selector.xpath('//div[@class="tip2"]').re(u'粉丝\[(\d+)\]')fans_num = int(fans_num_re[0]) if fans_num_re else 0load.add_value('fans_num', fans_num)# 记录爬取时间load.add_value('crawl_time', time.strftime('%Y-%m-%d %H:%M:%S', time.localtime(time.time())))yield scrapy.Request(url='/%s/info' % user_id, callback=self.detail_info_parse,headers=self.headers, cookies=self.cookies, meta={'item': load.load_item()})def detail_info_parse(self, response):"""用户资料解析函数\n:param response::return:"""# 获取上一个函数的解析结果item = response.meta['item']user_id = item.get('user_id')# 利用上一个函数的解析结果构造加载器（Loader）load = ItemLoader(item=item, response=response)selector = scrapy.Selector(response)# 如果 user_id 为空，在用户资料页面，再次提取 user_idif not user_id:ids = selector.xpath('//a[contains(@href,"uid")]/@href').re('uid=(\d{10})')ids = list(set(ids))user_id = ids[0]load.add_value('user_id', user_id)nick_name, gender, district, birthday, brief_intro, identify, head_img = '', '', '', '', '', '', ''for info in selector.xpath('//div[@class="c"][3]/text()'):# 提取个人资料nick_name = info.re(u'昵称:(.*)')[0] if info.re(u'昵称:(.*)') else nick_nameidentify = info.re(u'认证:(.*)')[0] if info.re(u'认证:(.*)') else identifygender = info.re(u'性别:(.*)')[0] if info.re(u'性别:(.*)') else genderdistrict = info.re(u'地区:(.*)')[0] if info.re(u'地区:(.*)') else districtbirthday = info.re(u'生日:(.*)')[0] if info.re(u'生日:(.*)') else birthdaybrief_intro = info.re(u'简介:(.*)')[0] if info.re(u'简介:(.*)') else brief_intro# 根据用户填写的地区信息拆分成省份和城市province, city = '', ''if district:extract = district.split(' ')province = extract[0] if extract else ''city = extract[1] if extract and len(extract) > 1 else ''# 合并用户基本信息和详细资料load.add_value('province', province)load.add_value('city', city)load.add_xpath('head_img', '//div[@class="c"]/img[@alt="头像"]/@src')load.add_value('username', nick_name)load.add_value('identify', identify)load.add_value('gender', gender)load.add_value('district', district)load.add_value('birthday', birthday)load.add_value('brief_intro', brief_intro)yield load.load_item()def follow_fans_parse(self, response):"""获取关注用户/粉丝用户\n:param response::return:"""user_id = response.meta.get('user_id')if not user_id:user_id = pile('/(\d{10})/.*').findall(response.url)user_id = user_id[0] if user_id else ''selector = scrapy.Selector(response)# 判断用户数是否超过配置的最大用户数type_str = '关注' if str(response.url).find('follow') > 0 else '粉丝'self.logger.info('开始构造 [%s] %s爬取请求...' % (user_id, type_str))# 解析页面中所有的 URL，并提取用户 idaccounts = selector.xpath('//a[starts-with(@href,"/u/")]/@href').re(u'/u/(\d{10})')# 去重accounts = list(set(accounts))# 使用用户 id 构造个人资料、用户主页、关注列表以及粉丝列表的 URLurls = [][urls.extend(('/u/%s' % acc, '/%s/fans' % acc,'/%s/follow' % acc)) for acc in accounts]# 使用生成的 URL 构造 requestfor url in urls:if str(url).find('follow') > 0 or str(url).find('fan') > 0:yield scrapy.Request(url=url, callback=self.follow_fans_parse, headers=self.headers,cookies=self.cookies, meta={'user_id': user_id})else:yield scrapy.Request(url=url, callback=self.base_info_parse, headers=self.headers, cookies=self.cookies)# 下一页nextLink = selector.xpath('//div[@class="pa"]/form/div/a/@href').extract()if nextLink:url = '' + nextLink[0]self.logger.info('[%s] %s下一页：%s' % (user_id, type_str, url))yield scrapy.Request(url=url, callback=self.follow_fans_parse, headers=self.headers, cookies=self.cookies,meta={'user_id': user_id})else:self.logger.info(u'[%s] %s已爬取完毕！' % (user_id, type_str))

现在，我们的程序已经基本实现了爬取微博用户信息的功能（目前没有限制爬取速度，因此在爬取部分用户后，微博服务器会响应 418，这是微博反爬的一种策略，目前只能通过降低爬取的频率来避免出现 418，这个问题会在后面的博客介绍）

实现数据的持久化

还记得在第一篇博客 [Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息（一） —— 新建爬虫项目中分析 Scrapy 的整体架构时介绍到，Spider 爬取的数据，会交给 Item Pipeline 处理。在上面的代码中，detail_info_parse() 方法的最后一行代码：

yield load.load_item()

通过这行代码，Spider 就生成了一个 Item，并将这个 Item 返回给了Item Pipeline 处理。我们在Item Pipeline 里面可以将我们爬取的数据存入到 MongoDB 中去。

首先我们在 settings.py 里面定义我们 MongoDB 的连接信息，代码如下：

# MONGODB 主机名MONGODB_HOST = "127.0.0.1"# MONGODB 端口号MONGODB_PORT = 27017# 数据库名称MONGODB_DBNAME = "crawl"# 存放数据的集合名称MONGODB_COLLECTION = "sina_userinfo"

然后在Item Pipeline 中得到这些配置，用来初始化 MongoDB 连接，代码如下：

from scrapy.conf import settingsfrom pymongo import MongoClienthost = settings.get('MONGODB_HOST')port = settings.get('MONGODB_PORT')dbname = settings.get('MONGODB_DBNAME')collection_name = settings.get('MONGODB_COLLECTION')db = MongoClient(host=host, port=port).get_database(dbname).get_collection(collection_name)

接下来我们要做的很简单，只需要把得到的 Item 保存到 MongoDB 就可以了，我们定义一个SaveUserInfoPipeline 类，然后定义一个process_item() 方法，然后将 item 转化成字典类型，保存入库就行了。代码如下：

class SaveUserInfoPipeline(object):"""保存爬取的数据\n"""def __init__(self):print('要保存的 Collenction：%s' % collection_name)def process_item(self, item, spider):data = dict(item)print("最终入库数据：%s" % item)# 记录不存在则插入，否则更新数据db.update_one({'weibo_id': data.get('weibo_id')}, {"$set": data}, True)return item

最后一步，在 settings 启用我们定义的Item Pipeline，代码如下：

ITEM_PIPELINES = {'sina_scrapy.pipelines.SaveUserInfoPipeline': 20,}

后面的数字 20 是代表优先级（取值范围是 1 ~999），目前只有一个Item Pipeline，所以任意指定一个就行。

使用 scrapy crawl sina_user 指令启动爬虫，现在我们已经实现了将爬取的用户信息保存到 MongoDB，但是查看 MongoDB 的数据可以发现，保存的每一项都是一个列表形式，这并不是我们想要的。针对这个问题，我们可以修改 Items 里面关于数据模型的定义，对于每一项数据都只取第一个元素，代码如下：

import scrapyfrom scrapy.loader.processors import TakeFirstclass SinaUserItem(scrapy.Item):# 微博用户唯一标识user_id = scrapy.Field(output_processor=TakeFirst())# 用户昵称username = scrapy.Field(output_processor=TakeFirst())# 微博数量webo_num = scrapy.Field(output_processor=TakeFirst())# 关注人数follow_num = scrapy.Field(output_processor=TakeFirst())# 粉丝人数fans_num = scrapy.Field(output_processor=TakeFirst())# 性别gender = scrapy.Field(output_processor=TakeFirst())# 地区district = scrapy.Field(output_processor=TakeFirst())# 省份province = scrapy.Field(output_processor=TakeFirst())# 地市city = scrapy.Field(output_processor=TakeFirst())# 生日birthday = scrapy.Field(output_processor=TakeFirst())# 简介brief_intro = scrapy.Field(output_processor=TakeFirst())# 认证identify = scrapy.Field(output_processor=TakeFirst())# 头像 URLhead_img = scrapy.Field(output_processor=TakeFirst())# 爬取时间crawl_time = scrapy.Field(output_processor=TakeFirst())

这样我们就实现了我们预期的效果了。