推荐专题：

600字范文 > python 示列：抓取网页所有a连接

python 示列：抓取网页所有a连接

时间：2022-05-04 19:14:32

相关推荐

python 示列：抓取网页所有a连接

如果我们编写一个搜索引擎，第一步是用爬虫把目标网站的页面抓回来，第二步是分析网页内容，看到底是新闻、图片或是视频。

接下来的示例展示分为2个步骤

1.获取目标网页的内容

2.屏幕输出网页中所有的<a>标签的连接

示列：myparser.py

1 #!/usr/bin/envPython

2 #-*- encoding:utf-8 -*-

3

4 import urllib

5

6 import HTMLParser

7

8 class myparser(HTMLParser.HTMLParser):

9 def __init__(self):

10HTMLParser.HTMLParser.__init__(self)

11

12 def handle_starttag(self, tag, attrs):

13if tag == 'a':

14 for name, value in attrs:

15 if name == 'href':

16 print value

17

18 if __name__ == '__main__':

19 #a = '<html><head></head><body><div class="test"><a href=""></div></body></html>';

20

21 url = '/jiankang/yangsheng/';

22

23 page = urllib.urlopen(url)

24 print page

25 assert page

26

27 data = page.read() #1.

28

29 my = myparser()

30 my.feed(data) #2.

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。

相关阅读

php抓取网页所有文字 php抓取网页内容的方法

2020-03-25

一键抓取网页的所有图片

2022-08-11

python爬取网页某一个a标签_Python爬虫获取某个网页所有的a标签中的超链接网址...

2019-01-01

Python 爬虫篇 - 通过urllib.request伪装成浏览器绕过反爬虫爬取网页所有连接实例

2019-08-22

扩展阅读

: 要的就是速度！3分钟在网页中飞速抓取关键数据

: 要的就是速度！3分钟在网页中飞速抓取关键数据

: SEO优化：搜索引擎抓取网页文章的方法用户粘性助力网站优化！

: 正则表达式的研究和在网页抓取中的应用论文

: 数据从业者必读：抓取了一千亿个网页后我才明白爬虫一点都不简单

: 如何一键抓取获得微信公众号的所有历史文章

最近发布

高中秋天的落叶作文600字

2024-07-29

绿山墙的安妮读后感600字范文

2024-07-29

冬日如诗冬阳如画600字作文

2024-07-29

第一次钓鱼作文600字4篇

2024-07-29

别人收获的作文600字

2024-07-29

我的故事作文600字简单

2024-07-29

推荐专题

种子的心作文600字初中科幻作文600字新鲜事作文600字写事记叙文600字科学让生活更美好600字六年级我经历过的一件事600字因为有了我作文600字家乡的四季600字带批注的作文600字西厢记读后感600字刘姥姥进大观园课本剧600字收获温暖作文600字敞开心扉作文600字不错过什么作文600字我想____为题600字左右