600字范文,内容丰富有趣,生活中的好帮手!
600字范文 > python 示列:抓取网页所有a连接

python 示列:抓取网页所有a连接

时间:2022-05-04 19:14:32

相关推荐

python 示列:抓取网页所有a连接

如果我们编写一个搜索引擎,第一步是用爬虫把目标网站的页面抓回来,第二步是分析网页内容,看到底是新闻、图片或是视频。

接下来的示例展示分为2个步骤

1.获取目标网页的内容

2.屏幕输出网页中所有的<a>标签的连接

示列:myparser.py

1 #!/usr/bin/envPython

2 #-*- encoding:utf-8 -*-

3

4 import urllib

5

6 import HTMLParser

7

8 class myparser(HTMLParser.HTMLParser):

9 def __init__(self):

10HTMLParser.HTMLParser.__init__(self)

11

12 def handle_starttag(self, tag, attrs):

13if tag == 'a':

14 for name, value in attrs:

15 if name == 'href':

16 print value

17

18 if __name__ == '__main__':

19 #a = '<html><head></head><body><div class="test"><a href=""></div></body></html>';

20

21 url = '/jiankang/yangsheng/';

22

23 page = urllib.urlopen(url)

24 print page

25 assert page

26

27 data = page.read() #1.

28

29 my = myparser()

30 my.feed(data) #2.

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。