python 正则表达式 re模块

2022-08-01,,

该文主要为概念详解(理解)。实例参见文末链接,博主示例写的很详细。

""" 1、python re 模块的使用 """
# (1)、re.match()
# res = re.match(pattern, string, flags=0)尝试从字符串的起始位置匹配一个字符串,匹配以pattern开头的字符串
# 成功返回match的"对象",否则返回None。调用:结果对象res.group()输出返回的结果,匹配失败不能用group
# .group(num) 多个结果以元组的形式存储 num的取值为1 2 3,用下标的形式获取匹配的结果,也可以group()输出
# .groups() 以元组的形式,返回多个匹配的结果

# (2)、re.complie()
# complie将正则表达式模式编译成一个正则表达式对象
# reg = re.compile()  result = reg.match(string) 共两行代码,对象重用效率高
# 上述两行等价于result = re.match(pattern, string)

# (3)、re.search()
# re.search(pattern, string, flags=0) 在全文中匹配一次,匹配到(找到了)就返回"对象"
data = '我爱我的祖国,我来自中国,中国的风景非常美丽'   # 这里有两个“中国”
res = re.search('中国', data)
print(res)   # 返回索引为(10,12)
print(data[10:12])   # 查看一下,确实是返回的第一个“中国”
# print(res.group())

# (4)、re.findall() 返回的是一个列表
# 用于查询字符串中/某个正则表达式匹配到的/所有满足条件的结果,返回的是一个"列表",该方法使用频率高
# re.findall(string, pos, endpos) 三个参数
# string为待匹配的字符串;pos可选参数,指定字符串的起始位置,默认为0;
# endpos可选参数,指定字符串的结束位置,默认为字符串的长度
data = '华为是华人、华侨的骄傲!'
res1 = re.findall('华.', data)
print(res1)
res = re.compile('华.')      # 最好用这个方法
res2 = res.findall(data)
print(res2)

# (5)、re.sub()
# 将匹配到的数据进行替换 re.sub(pattern, repl, string, count=0, flags=0)
# 上述5个参数的含义依次为:正则中的模式字符串;替换的字符串;要被查找替换的原始字符串
#                         替换的次数,默认为0表示替换所有的匹配;标志位,控制匹配方式。
# 下面是一个例子
data = '我在学习Python, Python是一门很受欢迎的编程语言,我熟悉用Python'
res1 = re.sub('[A-Za-z]+', 'C++', data)  # 全部替换
res2 = re.sub('[A-Za-z]+', 'C++', data, count=2)  # 替换两处
print(res1)
print(res2)

# (6)、re.subn()
# 用于完成目标的搜索和替换,以"元组"形式返回被替换的数量
data = '我在学习Python, Python是一门很受欢迎的编程语言,我熟悉用Python'
resn = re.subn('[A-Za-z]+', 'C++', data)  # 全部替换
print(resn)

# (7)、re.split()
# 实现字符串的分割,返回一个"列表"
data = 'C++,C#,Java,Python,Perl'
print(re.split(',', data))   # 用逗号分割,结果为一个list
""" 2、python正则表达式字符 """

# \A    只从字符开头匹配,re.search("\Aabc","alexabc") 是匹配不到的
# \Z    匹配字符结尾,同$
# \d    匹配数字0-9
# \D    匹配非数字
# \w    匹配[A-Za-z0-9]
# \W    匹配非[A-Za-z0-9]
# \s    匹配空白字符、\t、\n、\r , re.search("\s+","ab\tc1\n3").group() 结果 '\t'
# \b    单词边界
# \B    非单词边界
#  ^    放在中括号里面指的是取反,放在中括号外面指的是“开头”,只匹配开头的一个数据
#  $    结尾
#  .    匹配任何单个字符(除了换行符),它只能出现在方括号以外,如果匹配6个字母,那么写6个点
#  ?   可选字符。u?表示u既可以出现也可以不出现,匹配?之前的字符0次或1次 favou?rite
# {N}   在一个字符组后加上{N} 就可以表示在它之前的字符组出现N次  \d{3}-\d{5} 匹配电话号码 010-88480
# {M,N} M是下界N是上界,\d{3,4}既可以匹配3个数字也可以匹配4个数字,当有4个数字的时候,
#       优先匹配4个数字,这是因为正则表达式默认是贪婪模式,非贪婪模式,需要在后面加一个?,\d{3,4}?

# + *   开闭区间:遇到字符组的重复次数没有边界时,如 \d{1,}:第二个区间不写,表示匹配1个或无穷个,是贪婪模式
#       使用 + 匹配前面的模式1个到无数个,使用 * 代表0个到无数个,即:+等价于{1,},*等价于{0,},是贪婪模式
#       .+ 匹配任意字符1个或者无穷个   .* 匹配任意字符0个或者无穷个

# ()    分组机制:使用分组时,除了获得整个匹配,还能够在匹配中选择每一个分组。
#  |    或者,在()中使用
# (?:表达式)      非捕获分组?:,并不需要捕获某个分组的内容,但是又想使用分组的特性,也就是不想要某一个分组的结果
# 分组的回溯引用  引用之前匹配分组的机制,使用\N可以引用编号为N的分组,如\1
# 正向先行断言    (?=表达式),指在某个位置向右看,表示所在位置右侧必须能匹配表达式,但是不匹配括号内的内容,匹配
#                 的是括号之前的
# 反向先行断言    (?!表达式) 保证右边不能出现某字符表达式
# 正向后行断言    先行断言和后行断言区别在于:先行断言从左往右看,后行断言从右往左看;
#                 (?<=表达式),指在某个位置向左看,表示所在位置左侧必须能匹配表达式
#                 eg. 如果要取出“爱”这个字,要求爱的前面有“我”,后面有“中国”,这时:(?<=我)爱(?=中国)
# 反向后行断言    (?<!表达式),指在某个位置向左看,表示所在位置左侧不能匹配表达式
#                 例如:如果要取出“爱”这个字,要求爱的前面没有“我”,后面没有“你”,(?<!我)爱(?!你)
# (?P<>)          P是大写的,用于分组起别名 <>里面为别名,使用时:(?P=引用的名字)

Python正则表达式符号及re模块例子(详细使用情况):

https://blog.csdn.net/likunkun__/article/details/81707883

本文地址:https://blog.csdn.net/qq_43385457/article/details/107449196

《python 正则表达式 re模块.doc》

下载本文的Word格式文档,以方便收藏与打印。