转载:03 爬虫实例-获取网页弹幕内容
思路:
向哔哩哔哩网站发送请求请求成功后,解析爬取的弹幕内容保存到一个文件中读取文件并分析弹幕内容中词组或文字出现的频率将这些词组或文字组成五角星图形组成五角星图形后,以图片的形式输出
使用到的类库,如果没有,需要下载,下载命令:
pip
实现:
import
知识点:
request 向对方服务器发送请求BeautifulSoup 解析爬取的弹幕内容pandas 分析弹幕数据jieba 中文分词器,或称为中文词组切片器wordcloud 加载弹幕文本,并输出文件(这里使用图片的方式输出)matplotlib.pyplot 将整理后的弹幕文本以图形的方式输出(这里是以五角星的图片为例)imread 读取图片问题:
爬取的弹幕内容被保存在了文件后,后又重新读取,是否可以不存放在文件中,直接使用列表或者其他对象存储,然后再读取?保存在文件和直接读取的优缺点是什么?弹幕内容中除了汉字,实际上还包含了大量的字母,表情符号,这些内容可以通过什么正则表达式进行筛选,能否同时跟汉字一起筛选出来?在导包的时候,使用[from scipy.misc import imread]报错,用[from imageio import imread]代替即可。为什么使用scipy.misc中的imread报错?beautifulsoup爬取网页中的表格_python爬取哔哩哔哩网页弹幕内容 并将爬取的内容以五角星的形式显示出来...