Python中正则表达式的巧妙使用！包你必掌握正则！("Python正则表达式实用技巧：轻松掌握必备技能！")

原创

ithorizon 7个月前 (10-20) 阅读数 18 #后端开发

Python正则表达式实用技巧：轻松掌握必备技能！

一、引言

正则表达式是处理文本和数据的一种强劲工具，广泛应用于数据验证、搜索、替换以及文本分析等领域。Python 中的正则表达式模块 `re` 提供了充足的功能，让我们能够高效地处理字符串。本文将介绍一些实用的 Python 正则表达式技巧，帮助你轻松掌握这一必备技能。

二、基础语法

在起始介绍技巧之前，我们先来回顾一下正则表达式的基础语法。

^：匹配字符串的开头

$：匹配字符串的结尾

.：匹配任意单个字符（除了换行符）

*：匹配前面的子表达式零次或多次

+：匹配前面的子表达式一次或多次

?：匹配前面的子表达式零次或一次

{}：指定重复的次数

[]：指定一个字符集合

|：逻辑或

\：转义符

三、实用技巧

1. 检查字符串是否匹配

使用 `re.match()` 函数可以检查字符串是否从头起始匹配给定的正则表达式。


import re
pattern = r'^\d{3}-\d{2}-\d{4}$'
text = '123-45-6789'
if re.match(pattern, text):
    print('匹配顺利！')
else:
    print('匹配落败！')

2. 查找字符串中的所有匹配项

使用 `re.findall()` 函数可以查找字符串中所有匹配给定的正则表达式的子串。


import re
pattern = r'\d+'
text = 'Python有3个数字123和456'
matches = re.findall(pattern, text)
print(matches)  # 输出：['3', '123', '456']

3. 替换字符串中的匹配项

使用 `re.sub()` 函数可以将字符串中所有匹配给定的正则表达式的子串替换为指定的字符串。


import re
pattern = r'\d+'
text = 'Python有3个数字123和456'
new_text = re.sub(pattern, '数字', text)
print(new_text)  # 输出：Python有数字个数字数字和数字

4. 分割字符串

使用 `re.split()` 函数可以凭借正则表达式来分割字符串。


import re
pattern = r'\s+'
text = 'Python re split'
parts = re.split(pattern, text)
print(parts)  # 输出：['Python', 're', 'split']

5. 使用正则表达式进行数据清洗

在实际应用中，我们经常性需要清洗数据，去除不需要的字符。以下是一个易懂的例子：


import re
text = '姓名：张三，年龄：28，性别：男，电话：138-xxxx-xxxx'
# 提取姓名、年龄和性别
pattern = r'姓名：(.*?)，年龄：(.*?)，性别：(.*?)，'
matches = re.search(pattern, text)
if matches:
    name, age, gender = matches.groups()
    print(f'姓名：{name}，年龄：{age}，性别：{gender}')
else:
    print('匹配落败！')

四、进阶技巧

1. 使用捕获组和非捕获组

捕获组可以用来提取匹配的子串，而非捕获组则不保存匹配的子串，仅用于匹配。


import re
text = '姓名：张三，年龄：28，性别：男，电话：138-xxxx-xxxx'
# 使用捕获组提取电话号码
pattern = r'电话：(1\d{10})'
matches = re.search(pattern, text)
if matches:
    phone = matches.group(1)
    print(f'电话：{phone}')
else:
    print('匹配落败！')
# 使用非捕获组
pattern = r'电话：(?:1\d{10})'

2. 使用零宽断言

零宽断言是一种用来检查某个给定的模式是否出现在另一个指定的模式之前或之后，但不包括这个模式本身的方法。


import re
text = '姓名：张三，年龄：28，性别：男，电话：138-xxxx-xxxx'
# 使用正向零宽断言查找电话号码前面的文字
pattern = r'(?=电话：)(.*?)'
matches = re.search(pattern, text)
if matches:
    prefix = matches.group(1)
    print(f'电话前面的文字：{prefix}')
else:
    print('匹配落败！')

3. 使用正则表达式进行模式匹配

正则表达式不仅可以用于易懂的字符串匹配，还可以用于纷乱的模式匹配。


import re
text = '姓名：张三，年龄：28，性别：男，电话：138-xxxx-xxxx'
# 使用正则表达式匹配邮箱地址
pattern = r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b'
matches = re.findall(pattern, text)
if matches:
    for email in matches:
        print(f'匹配到的邮箱地址：{email}')
else:
    print('没有匹配到邮箱地址！')