600字范文,内容丰富有趣,生活中的好帮手!
600字范文 > python基本网络爬虫代码_Python实现网页爬虫基本实现代码解读

python基本网络爬虫代码_Python实现网页爬虫基本实现代码解读

时间:2021-03-19 12:54:14

相关推荐

python基本网络爬虫代码_Python实现网页爬虫基本实现代码解读

Python实现网页爬虫基本实现代码解读

(-11-08 14:11:56)

标签:

python

python培训

北京

it

Python是一款功能强大的计算机程序语言,同时也可以被看做是一款面向对象的通用型语言。它的功能特点比较突出,极大的方便开发人员应用。在这里我们先来一起了解一下有关Python市县网页爬虫的方法。

今天看到一个网页,又因为在家里用电话线上网,一直在线阅读很麻烦。所以就写了个简单的程序把网页抓下来离线阅读,省点电话费:)这个程序因为主页面链接到的页面都在同一个目录下,结构很简单,只有一层。因此写了一些硬编码做链接地址的分析。

Python实现网页爬虫代码如下:

#!/usr/bin/env python 1.# -*- coding: GBK -*-

import urllib

2.from sgmllib import SGMLParser

class URLLister(SGMLParser):

3.def reset(self):

SGMLParser.reset(self)

4.self.urls = []

def start_a(self, attrs):

5.href = [v for k, v in attrs if k == 'href']

if href:

6.self.urls.extend(href)

url =

r'http://www.sinc.sunysb.edu/Clubs/buddhism/JinGangJingShuoShenMo/'

7.sock = urllib.urlopen(url)

htmlSource = sock.read()

8.sock.close()

#print htmlSource

9.f = file('jingangjing.html', 'w')

f.write(htmlSource)

10.f.close()

mypath =

r'http://www.sinc.sunysb.edu/Clubs/buddhism/JinGangJingShuoShenMo/'

11.parser = URLLister()

parser.feed(htmlSource)

12.for url in parser.urls:

myurl = mypath + url

13.print "get: " + myurl

sock2 = urllib.urlopen(myurl)

14.html2 = sock2.read()

sock2.close()

15.# 保存到文件

print "save as: " + url

16.f2 = file(url, 'w')

f2.write(html2)

17.f2.close()

以上就是我们为大家介绍的有关

分享:

喜欢

0

赠金笔

加载中,请稍候......

评论加载中,请稍候...

发评论

登录名: 密码: 找回密码 注册记住登录状态

昵 称:

评论并转载此博文

发评论

以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。