600字范文 > 使用正则表达式提取文件中满足条件的内容

使用正则表达式提取文件中满足条件的内容

时间：2024-02-04 21:51:50

相关推荐

使用正则表达式提取文件中满足条件的内容

最近遇到需要处理一个很大文件的情况，需求是提取满足以`（ASCII 十进制 96）开头’结束的字符串，例如xxxxx`abcdedg'。

尝试在shell脚本中用正则表达式提取。有点曲折，后来通过python实现了，后续的工作就顺利很多。

python 的re 模块提供了compile 函数用于编译正则表达式，生成一个正则表达式（ Pattern ）对象，供 match() , search() 和findall（）这几个函数使用。菜鸟教程是个好网站！

语法格式为：
pile(pattern[, flags])
参数：
pattern: 一个字符串形式的正则表达式
flags: 可选，表示匹配模式，比如忽略大小写，多行模式等，具体参数为：
re.I忽略大小写re.L表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境re.M多行模式re.S即为.并且包括换行符在内的任意字符（.不包括换行符）re.U表示特殊字符集 \w, \W, \b, \B, \d, \D, \s, \S 依赖于 Unicode 字符属性数据库re.X为了增加可读性，忽略空格和#后面的注释

python利用正则表达式提取文本中特定内容 - ZhangHT97 - 博客园正则表达式是一个特殊的字符序列，它能帮助你方便的检查一个字符串是否与某种模式匹配。 Python 自1.5版本起增加了re 模块，它提供 Perl 风格的正则表达式模式。 re 模块使 Python /ZhangHT97/p/13427325.html

看着还是挺抽象，比如我这个例子，里面的pattern 不知道给什么，参考了一位大神的帖子，得到答案，真的不胜感激！

原来可以这样pile('<开始字符>.+<结束字符>')就表示匹配以<开始字符> 到<结束字符> 的内容。我这种情况，pile('`.+\'') 就是我想要的了。注意此处用到了转义字符\, 因为和包正则表达式的单引号冲突。

同时还学到，如果要匹配<开始字符>之前以及<结束字符>之后的内容，pile('<开始字符>(.+)<结束字符>')

import re, sysfilename = "multi.error"result = []i = 0pattern = pile('`.+\'')with open(filename, "r") as f:lines = f.readlines()with open ("result.txt", "w") as p:for line in lines:result = pattern.findall(line)#因为每行只会有一个满足条件的内容，所以取数据第0个p.write(result[0])

如果line =xxxxx`abcdedg'

运行结果如下：

`abcdedg'

靡不有初，鲜克有终。好好学习，天天向上！

参考内容：

1.python利用正则表达式提取文本中特定内容 - ZhangHT97 - 博客园

2.Python 正则表达式 | 菜鸟教程

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。