文章目录
前序优势What is 正则表达式?入门1 基本匹配2 元字符2.1 锚点2.1.1 ^ 号2.2.2 $ 号2.2 运算符.2.3 字符集(字符组)2.3.1 否定字符集2.4 重复次数2.4.1 * 号2.4.2 + 号2.4.3 ? 号2.5 { } 号2.6 | 或运算符2.7 (...) 特征标群2.8 \ 转义符号进阶1 简写字符集2 标志2.1 i 忽略大小写(Case Insensitive)2.2 g 全局搜索 (Global search)2.3 m 多行查找(Multiline)3 贪婪匹配与惰性匹配 (Greedy vs lazy matching)结尾(推荐正则表达式网站)参考资料前序
“以正则表达式来思考(think regularexpression)”
——精通正则表达式(第三版)
所谓正则表达式,就是一种描述字符串结构模式的形式化表达方法
。在发展的初期,这套方法仅限于描述正则文本,故此得名“
正则表达式(regular expression)
”。
随着正则表达式研究的深入和发展,特别是
Perl
语言的实践和探索,正则表达式的能力已经大大突破了传统的、数学上的限制,成为威力巨大的实用工具
,在几乎所有主流语言中获得支持。
莫不如此,甚至
功能稍强大一些的文本编辑工具(IDEA、VS Code)
,都支持正则表达式。
尤其是在Web 兴起之后,开发任务中的一大部分甚至全部,都是对字符串的处理。相比简单的字符串比较、查找、替换,正则表达式提供了强大得多的处理能力(最重要的是,它能够处理“符合某种抽象模式”的字符串,而不是固化的、具体的字符串)。
熟练运用它们,能够节省大量的开发时间。
优势
一方面,因为正则表达式处理的对象是字符串,或者抽象地说,是一个对象序列
,而这恰恰是当今计算机体系的本质数据结构
,我们围绕计算机所做的大多数工作,都归结为在这个序列上的操作
,因此,正则表达式用途广阔。
另一方面,与大多数其他技术不同,正则表达式具有超强的结构描述能力
,而在计算机中,正是不同的结构把无差别的字节组织成千差万别的软件对象,再组合成为无所不能的软件系统,因此,描述了结构,就等于描述了系统。
在这方面,正则表达式的地位是独特的。
What is 正则表达式?
⼀个正则表达式是正则表达式是``⼀组由字⺟和符号组成的特殊⽂本`,它可以⽤来从⽂本中找出满⾜你想要的格式的句⼦。
正则表达式可以从⼀个基础字符串中根据⼀定的匹配模式
替换⽂本中的字符串
、验证表单
、提取字符串
等等。
⼀种从左到右匹配主体字符串的模式
。“
Regular expression
”这个词⽐较拗⼝,我们常使⽤缩写的术语“regex
”或“regexp
”。
假设⼀个⽤户命名的规则,让⽤户名包含字符、数字、下划线和连字符,以及限制字符的个数,好让名字看起来没那么丑。
我们使⽤以下正则表达式来验证⼀个⽤户名:
以上的正则表达式可以接受john_doe
、jo-hn_doe
、john12_as
。
但不匹配Jo
,因为它包含了⼤写的字⺟⽽且太短了。
入门
正则表达式中"/
"是表达式开始和结束的标记
。1 基本匹配
正则表达式其实就是在执⾏搜索时的格式,它由⼀些字⺟和数字组合⽽成。 例如:⼀个正则表达式the
,它表示⼀个规则:由字⺟t
开始,接着是h
,再接着是e
。正则表达式“the” => The fat cat sat onthemat.
123
匹配字符串123
。它逐个字符的与输⼊的正则表达式做⽐较。正则表达式是⼤⼩写敏感的
,所以The
不会匹配the
。“The” =>Thefat cat sat on the mat.
2 元字符
正则表达式主要依赖于元字符
。元字符不代表他们本身的字⾯意思,他们都有特殊的含义。
⼀些元字符写在⽅括号中的时候有⼀些特殊的意思。以下是⼀些元字符的介绍:2.1 锚点
2.1.1 ^ 号
^
⽤来检查匹配的字符串是否在所匹配字符串的开头
。 例如,在abc
中使⽤表达式^a
会得到结果a
。但如果使⽤^b
将匹配不到任何结果。因为在字符串abc
中并不是以b
开头。例如,^(T|t)he
匹配以The
或the
开头的字符串。“(T|t)he” =>Thecar is parked inthegarage.
“^(T|t)he” =>Thecar is parked in the garage.
2.2.2 $ 号
同理于^
号,$
号⽤来匹配字符是否是最后⼀个
。例如,(at\.)$
匹配以at.
结尾的字符串。“(at\.)” => The fat cat.sat.on the mat.
“(at\.)$” => The fat cat. sat. on the mat.
2.2 运算符.
.
是元字符中最简单的例⼦。
.
匹配任意单个字符(包括空格)
,但不匹配换⾏符
。
例如,表达式.ar
匹配⼀个任意字符
后⾯跟
着是a
和r
的字符串。
“.ar” => Thecarparked in thegarage.
2.3 字符集(字符组)
字符集
也叫做字符类
。
⽅括号[]
⽤来指定⼀个字符集
。
在[]
中使⽤连字符来指定字符集的范围。
在[]
中的字符集不关⼼顺序
。
例如,表达式[Tt]he
匹配the
和The
。
⽅括号的句号“[Tt]he” =>Thecar parked inthegarage.
[.]
就表示句号.
表达式ar[.]
匹配ar.
字符串“ar[.]” => A garage is a good place to park a car.
2.3.1 否定字符集
⼀般来说^
表示⼀个字符串的开头
但,它⽤在⼀个⽅括号的开头的时候,[^]
它表示这个字符集是否定的
。 例如,表达式[^c]ar
匹配⼀个后⾯跟着ar
的除了c
以外的任意字符,如sar、gar、par、#ar、&ar……" [^c]ar" => The carparked in thegarage.
2.4 重复次数
后⾯跟着元字符+
、*
or?
的,⽤来指定匹配⼦模式的次数
。 这些元字符在不同的情况下有着不同的意思。
*
和+
限定符都是贪婪
的,因为它们会尽可能多的匹配文字,只有在它们的后面加上一个?
就可以实现非贪婪或最小匹配。
2.4.1 * 号
*
号匹配那些在*
之前的字符出现⼤于等于0 次
的字符。例如,表达式
*
和+
限定符都是贪婪
的,因为它们会尽可能多的匹配文字,只有在它们的后面加上一个?
就可以实现非贪婪或最小匹配。
a*
匹配0或更多个以a开头的字符
。表达式[a-z]*
匹配⼀个⾏中所有以⼩写字⺟开头的字符串
。“[a-z]*” => Thecarparkedinthegarage#21.
*
字符和.
字符搭配,可以匹配所有的字符.*
。*
和\s(表示匹配空格的符号)
连起来⽤,如表达式\s*cat\s*
匹配0或更多个空格开头、0或更多个空格结尾的cat字符串
。“\s*cat\s*” => The fatcatsat on the concatenation.
2.4.2 + 号
+
号匹配那些在+
号之前出现 >=1 次
的字符。 例如,表达式c.+t
匹配以⾸字⺟ c 开头以 t 结尾,中间跟着⾄少⼀个字符的字符串
。“c.+t” => The fatcat sat on the mat.
2.4.3 ? 号
在正则表达式中,标记在元字符?
前⾯的字符为可选
,即出现 0 或 1 次
。 例如,表达式[T]?he
匹配字符串he
和The
。“[T]he” =>Thecar is parked in the garage.
“[T]?he” =>Thecar is parked in thegarage.
2.5 { } 号
在正则表达式中{}
是⼀个量词
,常⽤来限定⼀个或⼀组字符可以重复出现的次数
。 例如, 表达式[0-9]{2,3}
匹配最少 2 位最多 3 位 0~9 的数字
。“[0-9]{2,3}” => The number was 9.9997 but we rounded it off to10.0.
可以省略第⼆个参数
。 例如,[0-9]{2,}
匹配⾄少两位 0~9 的数字
。“[0-9]{2,}” => The number was 9.9997but we rounded it off to10.0.
如果逗号也省略掉则表示重复固定的次数。 例如,区别两个正则表达式,上式是
{2,}
下式是{2}
“[0-9]{2}” => The number was 9.9997but we rounded it off to10.0.
[0-9]{3}
匹配三位0~9的数字
“[0-9]{3}” => The number was 9.9997 but we rounded it off to 10.0.
2.6 | 或运算符
或运算符|
就表示或
,⽤作判断条件
。 例如(T|t)he|car
匹配(T|t)he
或car
“(T|t)he|car” =>Thecaris parked inthegarage.
2.7 (…) 特征标群
特征标群
是⼀组写在(...)
中的子模式
。(...)
中包含的内容将会被看成⼀个整体
,和数学中⼩括号()
的作⽤相同。 例如, 表达式(ab)*
匹配连续出现 0 或更多个 ab 的字符串
。如果没有使⽤(...)
,那么表达式ab*
将匹配连续出现 0 或更多个 b
。 再⽐如之前说的{}
是⽤来表示前⾯⼀个字符出现指定次数。但如果在{}
前加上特征标群(...)
则表示整个标群内的字符重复 n 次
。我们还可以在()
中⽤ 或字符|
表示或。 例如,(c|g|p)ar
匹配car
或gar
或par
“(c|g|p)ar” => Thecarisparked in thegarage.
2.8 \ 转义符号
反斜线\
在表达式中⽤于转义紧跟其后的字符。⽤于指定{ } [ ] / \ + * . $ ^ | ?
这些特殊字符。
如果想要匹配这些特殊字符则要在其前⾯加上反斜线\
。
但是!!!\
在字符组[]
内部无效!!!
例如.
是⽤来匹配除换⾏符外的所有字符的。如果想要匹配句⼦中的.
则要写成\.
以下这个例⼦的\.?
是选择性匹配.
“(f|c|m)at\.?” => Thefatcatsat on themat.
“” => mpu ting wwzz
“ega\.att\.com” => pu ting wwzz
进阶
正则表达式中"/
"是表达式开始和结束的标记
。1 简写字符集
正则表达式提供⼀些常⽤的字符集简写。如下:
2 标志
js中使用正则对象:new RegExp("模式"[,"标记"]))
pattern(模式)
表示正则表达式的文本flags(标志)
表示i
(忽略大小写)g
(全文查找出现的所有匹配字符)m
(多行查找)gi
(全文查找、忽略大小写)ig
(全文查找、忽略大小写)2.1 i 忽略大小写(Case Insensitive)
修饰语i
⽤于忽略⼤⼩写。例如,表达式/The/gi
表示在全局
搜索The
, 其中的i
将其条件修改为忽略⼤⼩写,则变成搜索the
和The
,g
表示全局搜索
。“/The/” =>Thefat cat sat on the mat.
“/The/gi” =>Thefat cat sat onthemat.
2.2 g 全局搜索 (Global search)
修饰符g
常⽤于执⾏⼀个全局搜索匹配
,即“不仅仅返回第⼀个匹配的,⽽是返回全部”
。 例如,表达式/.(at)/g
表示搜索 任意字符(除了换⾏)+ at
,并返回全部结果
。“/.(at)/” => Thefatcat sat on the mat.
“/.(at)/g” => Thefatcatsaton themat.
2.3 m 多行查找(Multiline)
多⾏修饰符m
常⽤于执⾏⼀个多⾏匹配
。像之前介绍的(^,$)
⽤于检查格式是否是在待检测字符串的开头或结尾
。但我们如果想要它在每⾏的开头和结尾⽣效,我们需要⽤到``多⾏修饰符 m` 。 例如,表达式 ``/at(.)?$/gm表示
⼩写字符 a 后跟⼩写字符 t ,末尾可选除换⾏符外任意字符`。 根据m
修饰符,以下例子表达式匹配每⾏的结尾:“/.at(.)?$/” => The fat
cat sat
on themat.
“/.at(.)?$/gm” => Thefat
catsat
on themat.
3 贪婪匹配与惰性匹配 (Greedy vs lazy matching)
正则表达式
*
和+
限定符都是贪婪
的,因为它们会尽可能多的匹配文字,只有在它们的后面加上一个?
就可以实现非贪婪或最小匹配。
默认
采⽤贪婪匹配模式
,在该模式下意味着会匹配尽可能⻓的⼦串
。我们可以使⽤?
将贪婪匹配模式转化为惰性匹配模式
。“/(.*at)/” =>The fat cat sat on the mat.
“/(.*?at)/” =>The fatcat sat on the mat.
结尾(推荐正则表达式网站)
正则表达式用在比较复杂的情况时,就会比较头疼,多试试吧。这里给出我平时使用正则表达式的3个网站:
学习正则表达式的网站:
/
测试正则表达式的平台:
/r/dmRygT/1/
参考资料
[1] 正则表达式之 贪婪与非贪婪模式详解(概述)
[2] 正则表达式-菜鸟教程