Python实现正则表达式匹配、截取指定子串并去重的方法

最新推荐文章于 2025-04-26 09:45:00 发布

夜色恬静一人

最新推荐文章于 2025-04-26 09:45:00 发布

阅读量390

点赞数

CC 4.0 BY-SA版权

本文链接：https://blog.csdn.net/code88888/article/details/133625560

Python 专栏收录该内容

316 篇文章 ¥59.90 ¥99.00

订阅专栏

本文介绍了如何使用Python的re模块进行正则表达式匹配，从文本中提取并去重方括号内的子串。通过导入re模块，定义匹配模式，再利用集合去重，最终实现子串提取与去重的功能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

正则表达式是一种强大的字符串匹配工具，可以在文本中快速定位和提取特定模式的子串。本文将介绍如何使用Python中的正则表达式模块re来实现匹配、截取指定子串并去重的功能。

首先，我们需要导入re模块：

import re

接下来，我们假设有一个字符串，其中包含多个方括号括起来的子串，我们想要提取这些子串并去重。例如：

text = "这是一个[示例]字符串，包含[多个]方括号[子串]。这个[示例]用于演示[正则表达式]的匹配和截取功能。"

我们的目标是从上述文本中提取方括号中的子串，并去重。下面是实现这一功能的代码：

pattern = r"\[(.*?)\]"  # 定义正则表达式模式，用于匹配方括号中的子串
matches = re.findall

了解本专栏

订阅专栏解锁全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

夜色恬静一人

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

订阅专栏

Python爬虫数据抽取(三)：正则表达式

棒棒编程修炼场

04-27

2692

目录1. 为什么要使用正则表达式?2. 什么是正则表达式?3. re模块操作4. 匹配单个字符5. 匹配多个字符6. 匹配开头和结尾7. 匹配分组8. re模块的高级用法9. 贪婪和非贪婪10. r的作用11. 练习 1. 为什么要使用正则表达式? 首先，大家来看一个例子。一个文本文件里面存储了一些市场职位信息，格式如下所示： Python3 高级开发工程师上海互教教育科技有限公司上海-浦东新区...

Python正则提取

wange6906的博客

12-20

3391

参考链接：（转）用python正则提取字符串的方法_yaoct的博客-CSDN博客_python正则提取

参与评论您还未登录，请先登录后发表或查看评论

Python 使用正则提取字符串

yudiandian2014的专栏

07-10

893

Python 使用正则提取字符串

python正则匹配字符串_如何用python正则表达式匹配字符串？

weixin_39600510的博客

11-24

528

如何用python正则表达式匹配字符串？用python正则表达式匹配字符串的方法：1.单个位置的字符串匹配这种情况我们可以使用这个(.+?)正则表达式来提取. 举例,一个字符串"a123b",如果我们想提取ab之间的值123,可以使用findall配合正则表达式,这样会返回一个包含所以符合情况的list,代码如下:import restr = "a123b"print re.findall(r"a...

【Python爬虫详解】第五篇：使用正则表达式提取网页数据

热门推荐

MARST.ZHANG的博客

05-22

1万+

在使用 Python 正则表达式进行文本提取时，需要注意正则表达式的语法和规则、匹配模式和函数、字符编码和转义、贪婪和非贪婪匹配、异常情况处理、匹配结果和分组，以及性能优化等方面，以便获得准确、高效的文本提取结果。

Python 正则表达式 提取字符串

wybnmsl的博客

12-30

1481

在正则表达式中()可以表示需要匹配的结果部分，如果表达式出现多个()会以list的形式返回多个结果。

Python利用正则表达式匹配并截取指定子串及去重的方法

12-25

本文实例讲述了Python利用正则表达式匹配并截取指定子串及去重的方法。分享给大家供大家参考。具体如下： import re pattern=re.compile(r'\| (\d+) \| (\d+) \|') numset=set()\nall=''' | 29266795 | 533 | | ...

Python正则表达式

m0_64460287的博客

12-29

807

正则表达式简介概念 正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑（可以用来做检索，截取或者替换操作）。正则表述式用于搜索、替换和解析字符串。正则表达式遵循一定的语法规则，使用非常灵活，功能强大。使用正则表达式编写一些逻辑验证非常方便，例如电子邮件地址格式的验证。 正则表达式是对字符串（包括普通字符（例如，a 到 z 之间的字母）和特殊字符）操作的一种逻辑...

Python程序员必会的正则表达式

01-19

* sub(pattern, repl, string, count=0)：根据指定的正则表达式，替换源字符串中的子串。 * subn(pattern, repl, string, count=0)：作用和 sub() 相同，返回一个二元的元组。 * search(pattern, string, flags=0)：...

python正则表达式，获取字符串中的片段/正则表达式提取字符串

fucheng的博客

11-09

1993

python正则表达式，获取字符串中的片段/正则表达式提取字符串

python 截取一段内容_python正则表达式截取一段内容

weixin_42512249的博客

01-14

3087

用户提问如图所示如何截取归属地下面红框里的内容但是又不截取下面最近登陆ip的内容呢？推荐答案提问python 正则表达式如何截取字符串中间的内容请问python中正则表达式如何获取字符串中间指定内容，例如"forum/135/topic/794150"我分别想获得135 和794150，正则表达式应该怎么写？在网上找到的方法都不太对，恳请大牛指教~展开我来答7条回答____l___l__...

python截取指定位置的字符串

Python栈_基的博客

12-01

7349

切片操作是最常用的方法之一，但是在某些情况下，使用字符串方法、正则表达式、字符串切割、字符串索引和字符串格式化等方法也可以达到相同的效果。它的原理是将一个长字符串切割成多个小字符串，然后选择需要的小字符串。字符串格式化是一种常用的字符串操作方法，它可以将多个字符串组合成一个字符串，并在其中插入变量和表达式。这个例子中，我们使用字符串格式化将一个字符串和一个变量组合成一个新的字符串，并将其中的变量替换成指定的值。这个例子中，我们使用join()方法将列表中的两个子字符串合并成一个字符串，并使用逗号进行分隔。

正则表达式巧妙实现字符串去重

十九万里的博客

06-01

4424

今天上午看到新浪的一个面试题：将字符串 "adsfjjbkk"处理，就是连一起重复的字符删除，变成“adsfjbk”，写出实现代码。当然了，实现思路有很多。但是如果你用正则实现出来的话，估计会给你加分不少。下面我实现如下：对于去除简单的相邻重复的情况，我们可以用正则实现如下： <span style="font-size:14px;">var str = "adsfjjbkk"...

python的正则提取技巧

maggie2425的博客

10-20

3589

转自：http://ju.outofmemory.cn/entry/71121 用python正则提取字符串的方法在日常工作中经常遇见在文本中提取特定位置字符串的需求.python的正则性能好,很适合做这类字符串的提取,这里讲一下提取的技巧,正则表达式的基础知识就不说了,有兴趣的可以看re的教程.提取一般分两种情况,一种是提取在文本中提取单个位置的字符串,另一种是提取连续多个位置

chatgpt赋能python：Python怎么截取到指定字符

liangzijiaa的博客

06-13

522

本文由chatgpt生成，文章没有在chatgpt生成的基础上进行任何的修改。以上只是chatgpt能力的冰山一角。作为通用的Aigc大模型，只是展现它原本的实力。对于颠覆工作方式的ChatGPT，应该选择拥抱而不是抗拒，未来属于“会用”AI的人。🧡AI职场汇报智能办公文案写作效率提升教程 🧡专注于AI+职场+办公方向。下图是课程的整体大纲下图是AI职场汇报智能办公文案写作效率提升教程中用到的ai工具。

python中的字符串截取正则表达式

03-01

### 使用正则表达式进行字符串截取在 Python 中，`re` 模块提供了强大的工具用于处理正则表达式。对于字符串截取的任务，可以通过定义合适的模式并利用 `findall()` 方法实现目标子串的提取。 #### 单个位置的字符串提取当需要从固定上下文中抽取特定部分的数据时，可以采用非贪婪匹配的方式。例如，在给定字符串 `"a123456789b"` 中想要获取位于字符 `'a'` 和 `'b'` 之间的数字序列： ```python import re string = "a123456789b" pattern = r"a(.+?)b" result = re.findall(pattern, string) print(result) # 输出: ['123456789'] ``` 上述代码通过 `(.*?)` 实现了对任意长度字符（直到遇到下一个边界条件为止）的捕获[^1]。 #### 多处相同结构的内容提取如果文档中有多个相似格式的信息等待抓取，则同样适用此方法。比如针对形如 `"xyz12312_zzz"` 的字符串，希望得到介于前缀 `"xyz"` 后缀 `"_zzz"` 间的数值： ```python str_example = "xyz12312_zzz" match_result = re.findall(r"xyz(.+?)_zzz", str_example) print(match_result) # 输出: ['12312'] ``` 这里再次运用到了非贪婪量词 `.+?` 来确保尽可能少地消耗输入流中的字符完成一次成功的匹配过程[^2]。 #### 跨越多行的复杂场景面对包含换行符在内的更复杂的文本环境，可能还需要借助额外参数如 `re.DOTALL` 或者简称 `re.S` 让句点能够识别所有的字符包括新行符号；以及 `re.MULTILINE` (`re.M`) 支持每一行独立看待起始和结束标记 ^$ : ```python multi_line_str = """a23b a34b""" matches = re.findall(r"a(\d+)b.*a(\d+)b", multi_line_str, flags=re.S | re.M) for match in matches: print(f"{match}") # 输出 ('23', '34') ``` 这段脚本展示了如何设置标志位使得正则引擎可以在多行条件下工作，并成功捕捉到跨越两行的目标数据[^4]。