600字范文,内容丰富有趣,生活中的好帮手!
600字范文 > python正则表达式处理txt_Python文本处理服务(re正则表达式例子)

python正则表达式处理txt_Python文本处理服务(re正则表达式例子)

时间:2019-04-22 23:17:22

相关推荐

python正则表达式处理txt_Python文本处理服务(re正则表达式例子)

正则表达式例子

检查对子

在此示例中,我们将使用以下帮助函数来更优雅地显示匹配对象:

defdisplaymatch(match):ifmatchisNone:returnNonereturn''%(match.group(),match.groups())

假设你在写一个扑克程序,一个玩家的一手牌为五个字符的串,每个字符表示一张牌,"a" 就是 A, "k" K, "q" Q, "j" J, "t" 为 10, "2" 到 "9" 表示2 到 9。

要看给定的字符串是否有效,我们可以按照以下步骤

>>>>>>valid=pile(r"^[a2-9tjqk]{5}$")>>>displaymatch(valid.match("akt5q"))#Valid."">>>displaymatch(valid.match("akt5e"))#Invalid.>>>displaymatch(valid.match("akt"))#Invalid.>>>displaymatch(valid.match("727ak"))#Valid.""

最后一手牌,"727ak" ,包含了一个对子,或者两张同样数值的牌。要用正则表达式匹配它,应该使用向后引用如下

>>>>>>pair=pile(r".*(.).*\1")>>>displaymatch(pair.match("717ak"))#Pairof7s."">>>displaymatch(pair.match("718ak"))#Nopairs.>>>displaymatch(pair.match("354aa"))#Pairofaces.""

要找出这对组成的卡,可以按以下方式使用match对象的group()方法:

>>>pair.match("717ak").group(1)'7'# Error because re.match() returns None, which doesn't have a group() method:>>>pair.match("718ak").group(1)Traceback (most recent call last):File "", line 1, in re.match(r".*(.).*\1", "718ak").group(1)AttributeError: 'NoneType' object has no attribute 'group'>>>pair.match("354aa").group(1)'a'

模拟 scanf()

Python 目前没有一个类似c函数 scanf() 的替代品。正则表达式通常比 scanf() 格式字符串要更强大一些,但也带来更多复杂性。下面的表格提供了 scanf() 格式符和正则表达式大致相同的映射。

scanf()格式符正则表达式%c.

%5c.{5}

%d[-+]?\d+

%e,%E,%f,%g[-+]?(\d+(\.\d*)?|\.\d+)([eE][-+]?\d+)?

%i[-+]?(0[xX][\dA-Fa-f]+|0[0-7]*|\d+)

%o[-+]?[0-7]+

%s\S+

%u\d+

%x,%X[-+]?(0[xX])?[\dA-Fa-f]+

从文件名和数字提取字符串

/usr/sbin/sendmail-0errors,4warnings

你可以使用 scanf() 格式化

%s-%derrors,%dwarnings

等价的正则表达式是:

(\S+)-(\d+)errors,(\d+)warnings

search() vs. match()

Python 提供了两种不同的操作:基于 re.match() 检查字符串开头,或者 re.search() 检查字符串的任意位置(默认Perl中的行为)。

例如

>>>>>>re.match("c","abcdef")#Nomatch>>>re.search("c","abcdef")#Match

在 search() 中,可以用 '^' 作为开始来限制匹配到字符串的首位

>>>>>>re.match("c","abcdef")#Nomatch>>>re.search("^c","abcdef")#Nomatch>>>re.search("^a","abcdef")#Match

注意 MULTILINE 多行模式中函数 match() 只匹配字符串的开始,但使用 search() 和以 '^' 开始的正则表达式会匹配每行的开始

>>>>>>re.match('X','A\nB\nX',re.MULTILINE)#Nomatch>>>re.search('^X','A\nB\nX',re.MULTILINE)#Match

建立一个电话本

split() 将字符串用参数传递的样式分隔开。这个方法对于转换文本数据到易读而且容易修改的数据结构,是很有用的,如下面的例子证明。

首先,这是输入。通常它可能来自文件,这里我们使用三引号字符串语法:

>>>>>>text="""RossMcFluff:834.345.1254155ElmStreet......RonaldHeathmore:892.345.3428436FinleyAvenue...FrankBurger:925.541.7625662SouthDogwoodWay.........HeatherAlbrecht:548.326.4584919ParkPlace"""

条目用一个或者多个换行符分开。现在我们将字符串转换为一个列表,每个非空行都有一个条目:

>>>entries=re.split("\n+",text)>>>entries['RossMcFluff:834.345.1254155ElmStreet','RonaldHeathmore:892.345.3428436FinleyAvenue','FrankBurger:925.541.7625662SouthDogwoodWay','HeatherAlbrecht:548.326.4584919ParkPlace']

最终,将每个条目分割为一个由名字、姓氏、电话号码和地址组成的列表。我们为 split() 使用了 maxsplit 形参,因为地址中包含有被我们作为分割模式的空格符:

>>>[re.split(":?",entry,3)forentryinentries][['Ross','McFluff','834.345.1254','155ElmStreet'],['Ronald','Heathmore','892.345.3428','436FinleyAvenue'],['Frank','Burger','925.541.7625','662SouthDogwoodWay'],['Heather','Albrecht','548.326.4584','919ParkPlace']]

:? 样式匹配姓后面的冒号,因此它不出现在结果列表中。如果 maxsplit 设置为 4 ,我们还可以从地址中获取到房间号:

>>>[re.split(":?",entry,4)forentryinentries][['Ross','McFluff','834.345.1254','155','ElmStreet'],['Ronald','Heathmore','892.345.3428','436','FinleyAvenue'],['Frank','Burger','925.541.7625','662','SouthDogwoodWay'],['Heather','Albrecht','548.326.4584','919','ParkPlace']]

文字整理

sub() 替换字符串中出现的样式的每一个实例。这个例子证明了使用 sub() 来整理文字,或者随机化每个字符的位置,除了首位和末尾字符

>>>>>>defrepl(m):...inner_word=list(m.group(2))...random.shuffle(inner_word)...returnm.group(1)+"".join(inner_word)+m.group(3)>>>text="ProfessorAbdolmalek,pleasereportyourabsencespromptly.">>>re.sub(r"(\w)(\w+)(\w)",repl,text)'PoefsrosrAealmlobdk,pslaeereorptyourabnsecesplmrptoy.'>>>re.sub(r"(\w)(\w+)(\w)",repl,text)'PofsroserAodlambelk,plaseereoprtyuorasnebcespotlmrpy.'

找到所有副词

findall() 匹配样式 所有 的出现,不仅是像 search() 中的第一个匹配。比如,如果一个作者希望找到文字中的所有副词,他可能会按照以下方法用 findall()

>>>>>>text="Hewascarefullydisguisedbutcapturedquicklybypolice.">>>re.findall(r"\w+ly",text)['carefully','quickly']

找到所有副词和位置

如果需要匹配样式的更多信息, finditer() 可以起到作用,它提供了 匹配对象 作为返回值,而不是字符串。继续上面的例子,如果一个作者希望找到所有副词和它的位置,可以按照下面方法使用 finditer()

>>>>>>text="Hewascarefullydisguisedbutcapturedquicklybypolice.">>>forminre.finditer(r"\w+ly",text):...print('%02d-%02d:%s'%(m.start(),m.end(),m.group(0)))07-16:carefully40-47:quickly

原始字符记法

原始字符串记法 (r"text") 保持正则表达式正常。否则,每个正则式里的反斜杠('\') 都必须前缀一个反斜杠来转义。比如,下面两行代码功能就是完全一致的

>>>>>>re.match(r"\W(.)\1\W","ff")>>>re.match("\\W(.)\\1\\W","ff")

当需要匹配一个字符反斜杠,它必须在正则表达式中转义。在原始字符串记法,就是 r"\\"。否则就必须用 "\\\\",来表示同样的意思

>>>>>>re.match(r"\\",r"\\")>>>re.match("\\\\",r"\\")

写一个词法分析器

一个 词法器或词法分析器 分析字符串,并分类成目录组。这是写一个编译器或解释器的第一步。

文字目录是由正则表达式指定的。这个技术是通过将这些样式合并为一个主正则式,并且循环匹配来实现的

import collectionsimport reToken = collections.namedtuple('Token', ['type', 'value', 'line', 'column'])def tokenize(code):keywords = {'IF', 'THEN', 'ENDIF', 'FOR', 'NEXT', 'GOSUB', 'RETURN'}token_specification = [('NUMBER', r'\d+(\.\d*)?'), # Integer or decimal number('ASSIGN', r':='),# Assignment operator('END', r';'),# Statement terminator('ID', r'[A-Za-z]+'), # Identifiers('OP', r'[+\-*/]'), # Arithmetic operators('NEWLINE', r'\n'),# Line endings('SKIP', r'[ \t]+'), # Skip over spaces and tabs('MISMATCH', r'.'),# Any other character]tok_regex = '|'.join('(?P%s)' % pair for pair in token_specification)line_num = 1line_start = 0for mo in re.finditer(tok_regex, code):kind = mo.lastgroupvalue = mo.group()column = mo.start() - line_startif kind == 'NUMBER':value = float(value) if '.' in value else int(value)elif kind == 'ID' and value in keywords:kind = valueelif kind == 'NEWLINE':line_start = mo.end()line_num += 1continueelif kind == 'SKIP':continueelif kind == 'MISMATCH':raise RuntimeError(f'{value!r} unexpected on line {line_num}')yield Token(kind, value, line_num, column)statements = '''IF quantity THENtotal := total + price * quantity;tax := price * 0.05;ENDIF;'''for token in tokenize(statements):print(token)

这个词法器产生以下输出

Token(type='IF',value='IF',line=2,column=4)Token(type='ID',value='quantity',line=2,column=7)Token(type='THEN',value='THEN',line=2,column=16)Token(type='ID',value='total',line=3,column=8)Token(type='ASSIGN',value=':=',line=3,column=14)Token(type='ID',value='total',line=3,column=17)Token(type='OP',value='+',line=3,column=23)Token(type='ID',value='price',line=3,column=25)Token(type='OP',value='*',line=3,column=31)Token(type='ID',value='quantity',line=3,column=33)Token(type='END',value=';',line=3,column=41)Token(type='ID',value='tax',line=4,column=8)Token(type='ASSIGN',value=':=',line=4,column=12)Token(type='ID',value='price',line=4,column=15)Token(type='OP',value='*',line=4,column=21)Token(type='NUMBER',value=0.05,line=4,column=23)Token(type='END',value=';',line=4,column=27)Token(type='ENDIF',value='ENDIF',line=5,column=4)Token(type='END',value=';',line=5,column=9)

正则表达式例子

检查对子

在此示例中,我们将使用以下帮助函数来更优雅地显示匹配对象:

defdisplaymatch(match):ifmatchisNone:returnNonereturn''%(match.group(),match.groups())

假设你在写一个扑克程序,一个玩家的一手牌为五个字符的串,每个字符表示一张牌,"a" 就是 A, "k" K, "q" Q, "j" J, "t" 为 10, "2" 到 "9" 表示2 到 9。

要看给定的字符串是否有效,我们可以按照以下步骤

>>>>>>valid=pile(r"^[a2-9tjqk]{5}$")>>>displaymatch(valid.match("akt5q"))#Valid."">>>displaymatch(valid.match("akt5e"))#Invalid.>>>displaymatch(valid.match("akt"))#Invalid.>>>displaymatch(valid.match("727ak"))#Valid.""

最后一手牌,"727ak" ,包含了一个对子,或者两张同样数值的牌。要用正则表达式匹配它,应该使用向后引用如下

>>>>>>pair=pile(r".*(.).*\1")>>>displaymatch(pair.match("717ak"))#Pairof7s."">>>displaymatch(pair.match("718ak"))#Nopairs.>>>displaymatch(pair.match("354aa"))#Pairofaces.""

要找出这对组成的卡,可以按以下方式使用match对象的group()方法:

>>>pair.match("717ak").group(1)'7'# Error because re.match() returns None, which doesn't have a group() method:>>>pair.match("718ak").group(1)Traceback (most recent call last):File "", line 1, in re.match(r".*(.).*\1", "718ak").group(1)AttributeError: 'NoneType' object has no attribute 'group'>>>pair.match("354aa").group(1)'a'

模拟 scanf()

Python 目前没有一个类似c函数 scanf() 的替代品。正则表达式通常比 scanf() 格式字符串要更强大一些,但也带来更多复杂性。下面的表格提供了 scanf() 格式符和正则表达式大致相同的映射。

scanf()格式符正则表达式%c.

%5c.{5}

%d[-+]?\d+

%e,%E,%f,%g[-+]?(\d+(\.\d*)?|\.\d+)([eE][-+]?\d+)?

%i[-+]?(0[xX][\dA-Fa-f]+|0[0-7]*|\d+)

%o[-+]?[0-7]+

%s\S+

%u\d+

%x,%X[-+]?(0[xX])?[\dA-Fa-f]+

从文件名和数字提取字符串

/usr/sbin/sendmail-0errors,4warnings

你可以使用 scanf() 格式化

%s-%derrors,%dwarnings

等价的正则表达式是:

(\S+)-(\d+)errors,(\d+)warnings

search() vs. match()

Python 提供了两种不同的操作:基于 re.match() 检查字符串开头,或者 re.search() 检查字符串的任意位置(默认Perl中的行为)。

例如

>>>>>>re.match("c","abcdef")#Nomatch>>>re.search("c","abcdef")#Match

在 search() 中,可以用 '^' 作为开始来限制匹配到字符串的首位

>>>>>>re.match("c","abcdef")#Nomatch>>>re.search("^c","abcdef")#Nomatch>>>re.search("^a","abcdef")#Match

注意 MULTILINE 多行模式中函数 match() 只匹配字符串的开始,但使用 search() 和以 '^' 开始的正则表达式会匹配每行的开始

>>>>>>re.match('X','A\nB\nX',re.MULTILINE)#Nomatch>>>re.search('^X','A\nB\nX',re.MULTILINE)#Match

建立一个电话本

split() 将字符串用参数传递的样式分隔开。这个方法对于转换文本数据到易读而且容易修改的数据结构,是很有用的,如下面的例子证明。

首先,这是输入。通常它可能来自文件,这里我们使用三引号字符串语法:

>>>>>>text="""RossMcFluff:834.345.1254155ElmStreet......RonaldHeathmore:892.345.3428436FinleyAvenue...FrankBurger:925.541.7625662SouthDogwoodWay.........HeatherAlbrecht:548.326.4584919ParkPlace"""

条目用一个或者多个换行符分开。现在我们将字符串转换为一个列表,每个非空行都有一个条目:

>>>entries=re.split("\n+",text)>>>entries['RossMcFluff:834.345.1254155ElmStreet','RonaldHeathmore:892.345.3428436FinleyAvenue','FrankBurger:925.541.7625662SouthDogwoodWay','HeatherAlbrecht:548.326.4584919ParkPlace']

最终,将每个条目分割为一个由名字、姓氏、电话号码和地址组成的列表。我们为 split() 使用了 maxsplit 形参,因为地址中包含有被我们作为分割模式的空格符:

>>>[re.split(":?",entry,3)forentryinentries][['Ross','McFluff','834.345.1254','155ElmStreet'],['Ronald','Heathmore','892.345.3428','436FinleyAvenue'],['Frank','Burger','925.541.7625','662SouthDogwoodWay'],['Heather','Albrecht','548.326.4584','919ParkPlace']]

:? 样式匹配姓后面的冒号,因此它不出现在结果列表中。如果 maxsplit 设置为 4 ,我们还可以从地址中获取到房间号:

>>>[re.split(":?",entry,4)forentryinentries][['Ross','McFluff','834.345.1254','155','ElmStreet'],['Ronald','Heathmore','892.345.3428','436','FinleyAvenue'],['Frank','Burger','925.541.7625','662','SouthDogwoodWay'],['Heather','Albrecht','548.326.4584','919','ParkPlace']]

文字整理

sub() 替换字符串中出现的样式的每一个实例。这个例子证明了使用 sub() 来整理文字,或者随机化每个字符的位置,除了首位和末尾字符

>>>>>>defrepl(m):...inner_word=list(m.group(2))...random.shuffle(inner_word)...returnm.group(1)+"".join(inner_word)+m.group(3)>>>text="ProfessorAbdolmalek,pleasereportyourabsencespromptly.">>>re.sub(r"(\w)(\w+)(\w)",repl,text)'PoefsrosrAealmlobdk,pslaeereorptyourabnsecesplmrptoy.'>>>re.sub(r"(\w)(\w+)(\w)",repl,text)'PofsroserAodlambelk,plaseereoprtyuorasnebcespotlmrpy.'

找到所有副词

findall() 匹配样式 所有 的出现,不仅是像 search() 中的第一个匹配。比如,如果一个作者希望找到文字中的所有副词,他可能会按照以下方法用 findall()

>>>>>>text="Hewascarefullydisguisedbutcapturedquicklybypolice.">>>re.findall(r"\w+ly",text)['carefully','quickly']

找到所有副词和位置

如果需要匹配样式的更多信息, finditer() 可以起到作用,它提供了 匹配对象 作为返回值,而不是字符串。继续上面的例子,如果一个作者希望找到所有副词和它的位置,可以按照下面方法使用 finditer()

>>>>>>text="Hewascarefullydisguisedbutcapturedquicklybypolice.">>>forminre.finditer(r"\w+ly",text):...print('%02d-%02d:%s'%(m.start(),m.end(),m.group(0)))07-16:carefully40-47:quickly

原始字符记法

原始字符串记法 (r"text") 保持正则表达式正常。否则,每个正则式里的反斜杠('\') 都必须前缀一个反斜杠来转义。比如,下面两行代码功能就是完全一致的

>>>>>>re.match(r"\W(.)\1\W","ff")>>>re.match("\\W(.)\\1\\W","ff")

当需要匹配一个字符反斜杠,它必须在正则表达式中转义。在原始字符串记法,就是 r"\\"。否则就必须用 "\\\\",来表示同样的意思

>>>>>>re.match(r"\\",r"\\")>>>re.match("\\\\",r"\\")

写一个词法分析器

一个 词法器或词法分析器 分析字符串,并分类成目录组。这是写一个编译器或解释器的第一步。

文字目录是由正则表达式指定的。这个技术是通过将这些样式合并为一个主正则式,并且循环匹配来实现的

import collectionsimport reToken = collections.namedtuple('Token', ['type', 'value', 'line', 'column'])def tokenize(code):keywords = {'IF', 'THEN', 'ENDIF', 'FOR', 'NEXT', 'GOSUB', 'RETURN'}token_specification = [('NUMBER', r'\d+(\.\d*)?'), # Integer or decimal number('ASSIGN', r':='),# Assignment operator('END', r';'),# Statement terminator('ID', r'[A-Za-z]+'), # Identifiers('OP', r'[+\-*/]'), # Arithmetic operators('NEWLINE', r'\n'),# Line endings('SKIP', r'[ \t]+'), # Skip over spaces and tabs('MISMATCH', r'.'),# Any other character]tok_regex = '|'.join('(?P%s)' % pair for pair in token_specification)line_num = 1line_start = 0for mo in re.finditer(tok_regex, code):kind = mo.lastgroupvalue = mo.group()column = mo.start() - line_startif kind == 'NUMBER':value = float(value) if '.' in value else int(value)elif kind == 'ID' and value in keywords:kind = valueelif kind == 'NEWLINE':line_start = mo.end()line_num += 1continueelif kind == 'SKIP':continueelif kind == 'MISMATCH':raise RuntimeError(f'{value!r} unexpected on line {line_num}')yield Token(kind, value, line_num, column)statements = '''IF quantity THENtotal := total + price * quantity;tax := price * 0.05;ENDIF;'''for token in tokenize(statements):print(token)

这个词法器产生以下输出

Token(type='IF',value='IF',line=2,column=4)Token(type='ID',value='quantity',line=2,column=7)Token(type='THEN',value='THEN',line=2,column=16)Token(type='ID',value='total',line=3,column=8)Token(type='ASSIGN',value=':=',line=3,column=14)Token(type='ID',value='total',line=3,column=17)Token(type='OP',value='+',line=3,column=23)Token(type='ID',value='price',line=3,column=25)Token(type='OP',value='*',line=3,column=31)Token(type='ID',value='quantity',line=3,column=33)Token(type='END',value=';',line=3,column=41)Token(type='ID',value='tax',line=4,column=8)Token(type='ASSIGN',value=':=',line=4,column=12)Token(type='ID',value='price',line=4,column=15)Token(type='OP',value='*',line=4,column=21)Token(type='NUMBER',value=0.05,line=4,column=23)Token(type='END',value=';',line=4,column=27)Token(type='ENDIF',value='ENDIF',line=5,column=4)Token(type='END',value=';',line=5,column=9)

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。