正则表达式之前戏、字符组、量词、特殊符号、贪婪与非贪婪匹配等，python正则模块之re

目录
正则表达式前戏
正则表达式之字符组
正则表达式之特殊符号
正则表达式之量词
 贪婪匹配与非贪婪匹配
转义符
正则表达式实战建议
re模块
re模块补充说明
作业

正则表达式前戏

案例:京东注册手机号校验

基本需求:手机号必须是11位、手机号必须以13 15 17 18 19开头、必须是纯数字

'''纯python代码实现'''

while True:

    # 1.获取用户输入的手机号

    phone_num = input('请输入您的手机号>>>:').strip()

    # 2.先判断是否是十一位

    if len(phone_num) == 11:

        # 3.再判断是否是纯数字

        if phone_num.isdigit():

            # 4.判断手机号的开头

            if phone_num.startswith('13') or phone_num.startswith('15') or phone_num.startswith(

                    '17') or phone_num.startswith('18') or phone_num.startswith('19'):

                print('手机号码输入正确')

            else:

                print('手机号开头不对')

        else:

            print('手机号必须是纯数字')

    else:

        print('手机号必须是11位')

'''python结合正则实现'''

import re

phone_number = input('please input your phone number: ')

if re.match('^(13|14|15|18)[0-9]{9}$', phone_number):

    print('是合法的手机号码')

else:

    print('不是合法的手机号码')

"""

正则表达式是一门独立的技术  所有编程语言都可以使用

它的作用可以简单的概括为:利用一些特殊符号(也可以直接写需要查找的具体字符)的组合产生一些特殊的含义然后去字符串中筛选出符合条件的数据

	>>>:筛选数据(匹配数据)

"""

正则表达式之字符组

'''字符组默认匹配方式是挨个挨个匹配'''

[0123456789]		匹配0到9任意一个数(全写)

[0-9]			   匹配0到9任意一个数(缩写)

[a-z]		      匹配26个小写英文字母

[A-Z]			   匹配26个大写英文字母

[0-9a-zA-Z]			匹配数字或者小写字母或者大写字母

ps:字符组内所有的数据默认都是或的关系

正则表达式之特殊符号

'''特殊符号默认匹配方式是挨个挨个匹配'''

.			匹配除换行符以外的任意字符

\w			匹配数字、字母、下划线

\W			匹配非数字、非字母、非下划线

\d			匹配数字

^			匹配字符串的开头

$			匹配字符串的结尾

		两者组合使用可以非常精确的限制匹配的内容

a|b			匹配a或者b(管道符的意思是或)

()			给正则表达式分组 不影响表达式的匹配功能

[]			字符组 内部填写的内容默认都是或的关系

[^]			取反操作 匹配除了字符组里面的其他所有字符

		注意上尖号在中括号内和中括号意思完全不同

正则表达式之量词

'''正则表达式默认情况下都是贪婪匹配>>>:尽可能多的匹'''

* 		匹配零次或多次   默认是多次(无穷次)

+		匹配一次或多次   默认是多次(无穷次)

?		匹配零次或一次	  作为量词意义不大主要用于非贪婪匹配

{n}		重复n次

{n,}	重复n次或更多次	默认是多次(无穷次)

{n,m}	重复n到m次		  默认是m次

ps:量词必须结合表达式一起使用 不能单独出现 并且只影响左边第一个表达式

    jason\d{3} 只影响\d

贪婪匹配与非贪婪匹配

"""所有的量词都是贪婪匹配如果想要变为非贪婪匹配只需要在量词后面加问号"""

待匹配的文本

	<script>alert(123)</script>

待使用的正则(贪婪匹配)

	<.*>

请问匹配的内容

	<script>alert(123)</script> 一条

# .*属于典型的贪婪匹配 使用它 结束条件一般在左右明确指定

待使用的正则(非贪婪匹配)

	<.*?>

转义符

"""斜杠与字母的组合有时候有特殊含义"""

\n     	   匹配的是换行符

\\n			匹配的是文本\n

\\\\n		匹配的是文本\\n

ps:如果是在python中使用 还可以在字符串前面加r取消转义

正则表达式实战建议

1.编写校验用户身份证号的正则

	 ^[1-9]\d{13,16}[0-9x]$

    ^[1-9]\d{14}(\d{2}[0-9x])?$

    ^([1-9]\d{16}[0-9x]|[1-9]\d{14})$

2.编写校验邮箱的正则

3.编写校验用户手机号的正则(座机、移动)

4.编写校验用户qq号的正则

'''很多时候 很多问题 前人已经弄好了 你只需要花点时间找一找就可以'''

ps:能够写出简单的正则 能够大致看懂复杂的正则

re模块

在python中如果想要使用正则 可以考虑re模块  

import re

# 常见操作方法

# res = re.findall('a', 'jason apple eva')

# print(res)  # 查找所有符合正则表达式要求的数据 结果直接是一个列表

# res = re.finditer('a', 'jason apple eva')

# print(res)  # 查找所有符合正则表达式要求的数据 结果直接是一个迭代器对象

# res = re.search('a', 'jason apple eva')

# print(res)  # <re.Match object; span=(1, 2), match='a'>

# print(res.group())  # a  匹配到一个符合条件的数据就立刻结束

# res = re.match('a', 'jason apple eva')

# print(res)  # None  匹配字符串的开头 如果不符合后面不用看了

# print(res.group())  # 匹配开头符合条件的数据 一个就结束

# obj = re.compile('\d{3}')  # 当某一个正则表达式需要频繁使用的时候 我们可以做成模板

# res1 = obj.findall('23423422342342344')

# res2 = obj.findall('asjdkasjdk32423')

# print(res1, res2)

ret = re.split('[ab]', 'abcd')  # 先按'a'分割得到''和'bcd',在对''和'bcd'分别按'b'分割

print(ret)  # ['', '', 'cd']

ret = re.sub('\d', 'H', 'eva3jason4yuan4', 1)  # 将数字替换成'H'，参数1表示只替换1个

print(ret)  # evaHjason4yuan4

ret = re.subn('\d', 'H', 'eva3jason4yuan4')  # 将数字替换成'H'，返回元组(替换的结果,替换了多少次)

print(ret)  # ('evaHjasonHyuanH', 3)

re模块补充说明

1.分组优先

	 # res = re.findall('www.(baidu|oldboy).com', 'www.oldboy.com')

    # print(res)  # ['oldboy']

    # findall分组优先展示:优先展示括号内正则表达式匹配到的内容

    # res = re.findall('www.(?:baidu|oldboy).com', 'www.oldboy.com')

    # print(res)  # ['www.oldboy.com']

    # res = re.search('www.(baidu|oldboy).com', 'www.oldboy.com')

    # print(res.group())  # www.oldboy.com

    # res = re.match('www.(baidu|oldboy).com', 'www.oldboy.com')

    # print(res.group())  # www.oldboy.com

2.分组别名

    res = re.search('www.(?P<content>baidu|oldboy)(?P<hei>.com)', 'www.oldboy.com')

    print(res.group())  # www.oldboy.com

    print(res.group('content'))  # oldboy

    print(res.group(0))  # www.oldboy.com

    print(res.group(1))  # oldboy

    print(res.group(2))  # .com

    print(res.group('hei'))  # .com

作业

"""

网络爬虫没有我们现在接触的那么简单

	有时候页面数据无法直接拷贝获取

	有时候页面还存在防爬机制 弄得不好ip会被短暂拉黑

"""

1.直接拷贝页面数据到本地文件

2.读取文件内容当做字符串处理

3.编写正则筛选内容

import re

# 1.文件操作读取文本内容

with open(r'redbull.html', 'r', encoding='utf8') as f:

    # 2.直接读取全部内容 无需优化

    data = f.read()

# 3.研究各部分数据的特征 编写相应的正则表达式

"""

思路1:

    一次性获取每个公司全部的数据

    分部分挨个获取最后统一整合

"""

# res = re.findall("<h2>(.*?)</h2><p class='mapIco'>(.*?)</p><p class='mailIco'>(.*?)</p><p class='telIco'>(.*?)</p>",

#                  data)

# print(res)  # [(),(),(),()]

comp_title_list = re.findall('<h2>(.*?)</h2>', data)

# print(comp_title_list)

comp_address_list = re.findall("<p class='mapIco'>(.*?)</p>", data)

# print(comp_address_list)

comp_email_list = re.findall("<p class='mailIco'>(.*?)</p>", data)

# print(comp_email_list)

comp_phone_list = re.findall("<p class='telIco'>(.*?)</p>", data)

# print(comp_phone_list)

res = zip(comp_title_list, comp_address_list, comp_email_list, comp_phone_list)

# print(list(res))  # [(),(),(),(),()]

with open(r'comp_info.txt', 'w', encoding='utf8') as f:

    for data_tuple in res:

        print(

            """

            公司名称:%s

            公司地址:%s

            公司邮编:%s

            公司电话:%s

            """ % data_tuple)

        f.write( """

            公司名称:%s

            公司地址:%s

            公司邮编:%s

            公司电话:%s\n

            """ % data_tuple)

正则表达式之前戏、字符组、量词、特殊符号、贪婪与非贪婪匹配等，python正则模块之re

正则表达式前戏

正则表达式之字符组

正则表达式之特殊符号

正则表达式之量词

贪婪匹配与非贪婪匹配

转义符

正则表达式实战建议

re模块

re模块补充说明

作业

正则表达式之前戏、字符组、量词、特殊符号、贪婪与非贪婪匹配等，python正则模块之re的相关教程结束。

相关推荐

js 关于 replace 取值、替换第几个匹配项（两种方式：正则、普通字符串操作）

四十七.iptables防火墙 filter表控制扩展匹配 nat表典型应用

CH1809匹配统计【KMP】

react中受控组件与非受控组件--

算法基础(一):串匹配问题(BF,KMP算法)

【DeepLearning】深入理解dropout正则化

Codeforces 1023 A.Single Wildcard Pattern Matching-匹配字符 (Codeforces Round #504 (rated, Div. 1 + Div. 2, based on VK Cup 2018 Fi)

C#7.2——编写安全高效的C#代码 c# 中模拟一个模式匹配及匹配值抽取走进 LINQ 的世界移除Excel工作表密码保护小工具含C#源代码腾讯QQ会员中心g_tk32算法【C#版】

正则表达式之前戏、字符组、量词、特殊符号、贪婪与非贪婪匹配等，python正则模块之re

正则表达式前戏

正则表达式之字符组

正则表达式之特殊符号

正则表达式之量词

贪婪匹配与非贪婪匹配

转义符

正则表达式实战建议

re模块

re模块补充说明

作业

正则表达式之前戏、字符组、量词、特殊符号、贪婪与非贪婪匹配等，python正则模块之re的相关教程结束。

相关推荐

js 关于 replace 取值、替换第几个匹配项（两种方式：正则、普通字符串操作）

四十七.iptables防火墙 filter表控制 扩展匹配 nat表典型应用

CH1809匹配统计【KMP】

react中受控组件与非受控组件--

算法基础(一):串匹配问题(BF,KMP算法)

【DeepLearning】深入理解dropout正则化

Codeforces 1023 A.Single Wildcard Pattern Matching-匹配字符 (Codeforces Round #504 (rated, Div. 1 + Div. 2, based on VK Cup 2018 Fi)

C#7.2——编写安全高效的C#代码 c# 中模拟一个模式匹配及匹配值抽取 走进 LINQ 的世界 移除Excel工作表密码保护小工具含C#源代码 腾讯QQ会员中心g_tk32算法【C#版】

四十七.iptables防火墙 filter表控制扩展匹配 nat表典型应用

C#7.2——编写安全高效的C#代码 c# 中模拟一个模式匹配及匹配值抽取走进 LINQ 的世界移除Excel工作表密码保护小工具含C#源代码腾讯QQ会员中心g_tk32算法【C#版】