1200字范文 > 正则表达式regex（入门使用）

正则表达式regex（入门使用）

时间：2024-06-11 07:39:28

相关推荐

正则表达式regex（入门使用）

文章目录

前序优势What is 正则表达式？入门1 基本匹配2 元字符2.1 锚点2.1.1 ^ 号2.2.2 $ 号2.2 运算符.2.3 字符集(字符组)2.3.1 否定字符集2.4 重复次数2.4.1 * 号2.4.2 + 号2.4.3 ? 号2.5 { } 号2.6 | 或运算符2.7 (...) 特征标群2.8 \ 转义符号进阶1 简写字符集2 标志2.1 i 忽略大小写(Case Insensitive)2.2 g 全局搜索 (Global search)2.3 m 多行查找(Multiline)3 贪婪匹配与惰性匹配 (Greedy vs lazy matching)结尾（推荐正则表达式网站）参考资料

前序

“以正则表达式来思考（think regularexpression）”——精通正则表达式(第三版)

所谓正则表达式，就是一种描述字符串结构模式的形式化表达方法。

在发展的初期，这套方法仅限于描述正则文本，故此得名“正则表达式（regular expression）”。

随着正则表达式研究的深入和发展，特别是Perl语言的实践和探索，正则表达式的能力已经大大突破了传统的、数学上的限制，成为威力巨大的实用工具，在几乎所有主流语言中获得支持。

莫不如此，甚至功能稍强大一些的文本编辑工具(IDEA、VS Code)，都支持正则表达式。

尤其是在Web 兴起之后，开发任务中的一大部分甚至全部，都是对字符串的处理。相比简单的字符串比较、查找、替换，正则表达式提供了强大得多的处理能力（最重要的是，它能够处理“符合某种抽象模式”的字符串，而不是固化的、具体的字符串）。

熟练运用它们，能够节省大量的开发时间。

优势

一方面，因为正则表达式处理的对象是字符串，或者抽象地说，是一个对象序列，而这恰恰是当今计算机体系的本质数据结构，我们围绕计算机所做的大多数工作，都归结为在这个序列上的操作，因此，正则表达式用途广阔。

另一方面，与大多数其他技术不同，正则表达式具有超强的结构描述能力，而在计算机中，正是不同的结构把无差别的字节组织成千差万别的软件对象，再组合成为无所不能的软件系统，因此，描述了结构，就等于描述了系统。在这方面，正则表达式的地位是独特的。

What is 正则表达式？

正则表达式是``⼀组由字⺟和符号组成的特殊⽂本`，它可以⽤来从⽂本中找出满⾜你想要的格式的句⼦。
正则表达式可以从⼀个基础字符串中根据⼀定的匹配模式替换⽂本中的字符串、验证表单、提取字符串
等等。

⼀个正则表达式是⼀种从左到右匹配主体字符串的模式。

“Regular expression”这个词⽐较拗⼝，我们常使⽤缩写的术语“regex”或“regexp”。

假设⼀个⽤户命名的规则，让⽤户名包含字符、数字、下划线和连字符，以及限制字符的个数，好让名字看起来没那么丑。

我们使⽤以下正则表达式来验证⼀个⽤户名：

以上的正则表达式可以接受john_doe、jo-hn_doe、john12_as。

但不匹配Jo，因为它包含了⼤写的字⺟⽽且太短了。

入门

正则表达式中"/"是表达式开始和结束的标记。

1 基本匹配

正则表达式其实就是在执⾏搜索时的格式，它由⼀些字⺟和数字组合⽽成。例如：⼀个正则表达式the，它表示⼀个规则：由字⺟t开始，接着是h，再接着是e。

“the” => The fat cat sat onthemat.

正则表达式123匹配字符串123。它逐个字符的与输⼊的正则表达式做⽐较。正则表达式是⼤⼩写敏感的，所以The不会匹配the。

“The” =>Thefat cat sat on the mat.

2 元字符

正则表达式主要依赖于元字符。元字符不代表他们本身的字⾯意思，他们都有特殊的含义。⼀些元字符写在⽅括号中的时候有⼀些特殊的意思。以下是⼀些元字符的介绍：

2.1 锚点

2.1.1 ^ 号

^⽤来检查匹配的字符串是否在所匹配字符串的开头。例如，在abc中使⽤表达式^a会得到结果a。但如果使⽤^b将匹配不到任何结果。因为在字符串abc中并不是以b开头。例如，^(T|t)he匹配以The或the开头的字符串。

“(T|t)he” =>Thecar is parked inthegarage.

“^(T|t)he” =>Thecar is parked in the garage.

2.2.2 $ 号

同理于^号，$号⽤来匹配字符是否是最后⼀个。例如，(at\.)$匹配以at.结尾的字符串。

“(at\.)” => The fat cat.sat.on the mat.

“(at\.)$” => The fat cat. sat. on the mat.

2.2 运算符.

.是元字符中最简单的例⼦。

.匹配任意单个字符(包括空格)，但不匹配换⾏符。

例如，表达式.ar匹配⼀个任意字符后⾯跟着是a和r的字符串。

“.ar” => Thecarparked in thegarage.

2.3 字符集(字符组)

字符集也叫做字符类。

⽅括号[]⽤来指定⼀个字符集。

在[]中使⽤连字符来指定字符集的范围。

在[]中的字符集不关⼼顺序。

例如，表达式[Tt]he匹配the和The。

“[Tt]he” =>Thecar parked inthegarage.

⽅括号的句号[.]就表示句号.表达式ar[.]匹配ar.字符串

“ar[.]” => A garage is a good place to park a car.

2.3.1 否定字符集

⼀般来说^表示⼀个字符串的开头但，它⽤在⼀个⽅括号的开头的时候，[^]它表示这个字符集是否定的。例如，表达式[^c]ar匹配⼀个后⾯跟着ar的除了c以外的任意字符，如sar、gar、par、#ar、&ar……

" [^c]ar" => The carparked in thegarage.

2.4 重复次数

后⾯跟着元字符+、*or?的，⽤来指定匹配⼦模式的次数。这些元字符在不同的情况下有着不同的意思。

*和+限定符都是贪婪的，因为它们会尽可能多的匹配文字，只有在它们的后面加上一个?就可以实现非贪婪或最小匹配。

2.4.1 * 号

*号匹配那些在*之前的字符出现⼤于等于0 次的字符。

*和+限定符都是贪婪的，因为它们会尽可能多的匹配文字，只有在它们的后面加上一个?就可以实现非贪婪或最小匹配。

例如，表达式a*匹配0或更多个以a开头的字符。表达式[a-z]*匹配⼀个⾏中所有以⼩写字⺟开头的字符串。

“[a-z]*” => Thecarparkedinthegarage#21.

*字符和.字符搭配，可以匹配所有的字符.*。*和\s(表示匹配空格的符号)连起来⽤，如表达式\s*cat\s*匹配0或更多个空格开头、0或更多个空格结尾的cat字符串。

“\s*cat\s*” => The fatcatsat on the concatenation.

2.4.2 + 号

+号匹配那些在+号之前出现 >=1 次的字符。例如，表达式c.+t匹配以⾸字⺟ c 开头以 t 结尾，中间跟着⾄少⼀个字符的字符串。

“c.+t” => The fatcat sat on the mat.

2.4.3 ? 号

在正则表达式中，标记在元字符?前⾯的字符为可选，即出现 0 或 1 次。例如，表达式[T]?he匹配字符串he和The。

“[T]he” =>Thecar is parked in the garage.

“[T]?he” =>Thecar is parked in thegarage.

2.5 { } 号

在正则表达式中{}是⼀个量词，常⽤来限定⼀个或⼀组字符可以重复出现的次数。例如，表达式[0-9]{2,3}匹配最少 2 位最多 3 位 0~9 的数字。

“[0-9]{2,3}” => The number was 9.9997 but we rounded it off to10.0.

可以省略第⼆个参数。例如，[0-9]{2,}匹配⾄少两位 0~9 的数字。

“[0-9]{2,}” => The number was 9.9997but we rounded it off to10.0.

区别两个正则表达式，上式是{2,}下式是{2}
“[0-9]{2}” => The number was 9.9997but we rounded it off to10.0.

如果逗号也省略掉则表示重复固定的次数。例如，[0-9]{3}匹配三位0~9的数字

“[0-9]{3}” => The number was 9.9997 but we rounded it off to 10.0.

2.6 | 或运算符

或运算符|就表示或，⽤作判断条件。例如(T|t)he|car匹配(T|t)he或car

“(T|t)he|car” =>Thecaris parked inthegarage.

2.7 (…) 特征标群

特征标群是⼀组写在(...)中的子模式。(...)中包含的内容将会被看成⼀个整体，和数学中⼩括号()的作⽤相同。例如, 表达式(ab)*匹配连续出现 0 或更多个 ab 的字符串。如果没有使⽤(...)，那么表达式ab*将匹配连续出现 0 或更多个 b。再⽐如之前说的{}是⽤来表示前⾯⼀个字符出现指定次数。但如果在{}前加上特征标群(...)则表示整个标群内的字符重复 n 次。我们还可以在()中⽤或字符|表示或。例如，(c|g|p)ar匹配car或gar或par

“(c|g|p)ar” => Thecarisparked in thegarage.

2.8 \ 转义符号

反斜线\在表达式中⽤于转义紧跟其后的字符。⽤于指定{ } [ ] / \ + * . $ ^ | ?这些特殊字符。

如果想要匹配这些特殊字符则要在其前⾯加上反斜线\。

但是！！！\在字符组[]内部无效！！！

例如.是⽤来匹配除换⾏符外的所有字符的。如果想要匹配句⼦中的.则要写成\.

以下这个例⼦的\.?是选择性匹配.

“(f|c|m)at\.?” => Thefatcatsat on themat.

“” => mpu ting wwzz
“ega\.att\.com” => pu ting wwzz

进阶

正则表达式中"/"是表达式开始和结束的标记。

1 简写字符集

正则表达式提供⼀些常⽤的字符集简写。如下:

2 标志

js中使用正则对象：new RegExp("模式"[,"标记"]))pattern(模式)表示正则表达式的文本flags(标志)表示i(忽略大小写)g(全文查找出现的所有匹配字符)m(多行查找)gi(全文查找、忽略大小写)ig(全文查找、忽略大小写)

2.1 i 忽略大小写(Case Insensitive)

修饰语i⽤于忽略⼤⼩写。例如，表达式/The/gi表示在全局搜索The，其中的i将其条件修改为忽略⼤⼩写，则变成搜索the和The，g表示全局搜索。

“/The/” =>Thefat cat sat on the mat.

“/The/gi” =>Thefat cat sat onthemat.

2.2 g 全局搜索 (Global search)

修饰符g常⽤于执⾏⼀个全局搜索匹配，即“不仅仅返回第⼀个匹配的，⽽是返回全部”。例如，表达式/.(at)/g表示搜索任意字符（除了换⾏）+ at，并返回全部结果。

“/.(at)/” => Thefatcat sat on the mat.

“/.(at)/g” => Thefatcatsaton themat.

2.3 m 多行查找(Multiline)

多⾏修饰符m常⽤于执⾏⼀个多⾏匹配。像之前介绍的(^,$)⽤于检查格式是否是在待检测字符串的开头或结尾。但我们如果想要它在每⾏的开头和结尾⽣效，我们需要⽤到``多⾏修饰符 m` 。例如，表达式 ``/at(.)?$/gm表示⼩写字符 a 后跟⼩写字符 t ，末尾可选除换⾏符外任意字符`。根据m修饰符，以下例子表达式匹配每⾏的结尾：