如果我们编写一个搜索引擎,第一步是用爬虫把目标网站的页面抓回来,第二步是分析网页内容,看到底是新闻、图片或是视频。
接下来的示例展示分为2个步骤
1.获取目标网页的内容
2.屏幕输出网页中所有的<a>标签的连接
示列:myparser.py
1 #!/usr/bin/envPython
2 #-*- encoding:utf-8 -*-
3
4 import urllib
5
6 import HTMLParser
7
8 class myparser(HTMLParser.HTMLParser):
9 def __init__(self):
10HTMLParser.HTMLParser.__init__(self)
11
12 def handle_starttag(self, tag, attrs):
13if tag == 'a':
14 for name, value in attrs:
15 if name == 'href':
16 print value
17
18 if __name__ == '__main__':
19 #a = '<html><head></head><body><div class="test"><a href=""></div></body></html>';
20
21 url = '/jiankang/yangsheng/';
22
23 page = urllib.urlopen(url)
24 print page
25 assert page
26
27 data = page.read() #1.
28
29 my = myparser()
30 my.feed(data) #2.