正则表达式

REGEXP: Regular Expressions,由一类特殊字符及文本字符所编写的模式,其中有些字符(元字符)不表示字符字面意义,而表示控制或通配的功能,类似于增强版的通配符功能,但与通配符不同,通配符功能是用来处理文件名,而正则表达式是处理文本内容中字符。
正则表达式被很多程序和开发语言所广泛支持:vim, less,grep,sed,awk, nginx,mysql 等。

正则表达式分两类:

  • 基本正则表达式:BRE Basic Regular Expressions
  • 扩展正则表达式:ERE Extended Regular Expressions

扩展正则表达式可以认为是对基础正则的简化,直观上的表现 :
如进行分组时 基础正则使用\(root\),扩展正则直接使用(root)
grep sed 等文本处理工具,配上指定的选项,可进行扩展正则的使用

grep -E 或 egrep
sed -r

正则表达式引擎:
采用不同算法,检查处理正则表达式的软件模块,如:PCRE(Perl Compatible Regular Expressions)
正则表达式的元字符分类:字符匹配、匹配次数、位置锚定、分组
帮助:man 7 regex

1、基本正则表达式元字符

1.1、字符匹配

.          匹配任意单个字符(除了\n),可以是一个汉字或其它国家的文字
[]         匹配指定范围内的任意单个字符,示例:[linux]   [0-9]   [a-z]   [a-zA-Z]
[^]        匹配指定范围外的任意单个字符,示例:[^linux]
[:alnum:]  字母和数字
[:alpha:]  代表任何英文大小写字符,亦即 A-Z, a-z
[:lower:]  小写字母,示例:[[:lower:]],相当于[a-z]
[:upper:]  大写字母
[:blank:]  空白字符(空格和制表符)
[:space:]  包括空格、制表符(水平和垂直)、换行符、回车符等各种类型的空白,比[:blank:]包含的范围广
[:cntrl:]  不可打印的控制字符(退格、删除、警铃...)
[:digit:]  十进制数字
[:xdigit:] 十六进制数字
[:graph:]  可打印的非空白字符
[:print:]  可打印字符
[:punct:]  标点符号
-----------------
\s         #匹配任何空白字符,包括空格、制表符、换页符等等。等价于 [\f\r\t\v]。注意Unicode 正则表达式会匹配全角空格符
\S         #匹配任何非空白字符。等价于 [^\f\r\t\v]
\w         #匹配一个字母,数字,下划线,汉字,其它国家文字的字符,等价于[_[:alnum:]字]
\W         #匹配一个非字母,数字,下划线,汉字,其它国家文字的字符,等价于[^_[:alnum:]字]

1.2、匹配次数

*           #匹配前面的字符任意次,包括0次,贪婪模式:尽可能长的匹配
.*          #任意长度的任意字符
\?          #匹配其前面的字符出现0次或1次,即:可有可无
\+          #匹配其前面的字符出现最少1次,即:肯定有且 >=1 次
\{n\}       #匹配前面的字符n次
\{m,n\}     #匹配前面的字符至少m次,至多n次
\{,n\}      #匹配前面的字符至多n次,<=n
\{n,\}      #匹配前面的字符至少n次

1.3、位置锚定

#位置锚定可以用于定位出现的位置
#单词是由字母,数字,下划线组成

^                #行首锚定, 用于模式的最左侧
$                #行尾锚定,用于模式的最右侧
^PATTERN$        #用于模式匹配整行
^$               #空行
^[[:space:]]*$   #空白行
\< 或 \b         #词首锚定,用于单词模式的左侧
\> 或 \b         #词尾锚定,用于单词模式的右侧
\<PATTERN\>      #匹配整个单词
#范例
#排除空行和#号注释行
[root@centos79_test test]# grep -v '^$\|#' fstab
[root@centos79_test test]# grep '^[^#]' fstab
[root@centos79_test test]# grep -v '^$' fstab | grep -v '^#'

1.4、分组、或者

分组:() 将多个字符捆绑在一起,当作一个整体处理,如:\(root\)+
后向引用:分组括号中的模式匹配到的内容会被正则表达式引擎记录于内部的变量中,这些变量的命名方式为: \1, \2, \3, …
\1 表示从左侧起第一个左括号以及与之匹配右括号之间的模式所匹配到的字符
\0 表示正则表达式匹配的所有字符

\(string1\(string2\)\)
\1 :string1\(string2\)
\2 :string2

后向引用引用前面的分组括号中的模式所匹配字符,而非模式本身

或者:\|

a\|b              #a或b
C\|cat            #C或cat
\(C\|c\)at        #Cat或cat

2、扩展正则表达式元字符

2.1、字符匹配

.             任意单个字符
[linux]       指定范围的字符
[^linux]      不在指定范围的字符
[:alnum:]     字母和数字
[:alpha:]     代表任何英文大小写字符,亦即 A-Z, a-z
[:lower:]     小写字母,示例:[[:lower:]],相当于[a-z]
[:upper:]     大写字母
[:blank:]     空白字符(空格和制表符)
[:space:]     水平和垂直的空白字符(比[:blank:]包含的范围广)
[:cntrl:]     不可打印的控制字符(退格、删除、警铃...)
[:digit:]     十进制数字
[:xdigit:]    十六进制数字
[:graph:]     可打印的非空白字符
[:print:]     可打印字符
[:punct:]     标点符号

2.2、次数匹配

*        匹配前面字符任意次
?        0或1次
+        1次或多次
{n}      匹配n次
{m,n}    至少m,至多n次

2.3、位置锚定

^      行首
$      行尾
\<, \b 语首
\>, \b 语尾

2.4、分组、或者

() 分组
后向引用:\1, \2, ...
\0 表示正则表达式匹配的所有字符

| 或者
a|b #a或b
C|cat #C或cat
(C|c)at #Cat或cat

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享