说明
正则比较容易忘,记一下
内容
这种写法会同时找n个「|」分割的模式,返回是一个元组
province1_str = '(云南|台湾|吉林|四川|安徽|山东|山西|广东|江苏|江西|河北|河南|浙江|海南|湖北|湖南|甘肃|福建|贵州|辽宁|陕西|青海|黑龙江)省?|(上海|北京|天津|重庆)市?|(内蒙古)自治区?|(宁夏)回族自治区?|(广西)壮族自治区?|(新疆)吾尔自治区?|(西藏)自治区?|(澳门|香港)特别行政区?'
这种写法只会返回一个匹配到的,但是会把省市区都带出来
province1_str = '(?:云南|台湾|吉林|四川|安徽|山东|山西|广东|江苏|江西|河北|河南|浙江|海南|湖北|湖南|甘肃|福建|贵州|辽宁|陕西|青海|黑龙江)省?|(?:上海|北京|天津|重庆)市?|(?:内蒙古)自治区?|(?:宁夏)回族自治区?|(?:广西)壮族自治区?|(?:新疆)吾尔自治区?|(?:西藏)自治区?|(?:澳门|香港)特别行政区?'
使用前者的正则,用这个函数可以提取
import re
def extract_province(<