1、正则表达式正则表达式 正则表达式正则表达式n正则表达式的概念正则表达式的概念n正则表达式的作用正则表达式的作用n正则表达式的组成正则表达式的组成正则表达式的概念n正则表达式到底是什么?正则表达式,就是用某种模式去从左向右地去匹配一类字符串的一个公式,换句话说,正则表达式就是记录文本规则的代码。正则表达式的作用n 正则表达式用于字符串处理、表单验证等场合,实正则表达式用于字符串处理、表单验证等场合,实用高效。用高效。Windows/Dos下用于文件查找的通配符,是*和?。如果你想查找某个目录下的所有的Word文档的话,你会搜索*.doc。在这里,*会被解释成任意的字符串。n 和通配符类似,正则表
2、达式也是用来进行文本匹正则表达式也是用来进行文本匹配的工具,配的工具,只不过比起通配符,它能更精确地描述你的需求当然,代价就是更复杂。n 某个字符串匹配某个正则表达式,通常是指这个字符串里有一部分(或几部分分别)能满足表达式给出的条件。正则表达式的组成n正则表达式由一些普通字符和一些元字符组成。正则表达式由一些普通字符和一些元字符组成。n普通字符包括大小写的字母和数字,而元字符则具有特殊的含义。在最简单的情况下,一个正则表达式看上去就是一个普通的字符串。例如,正则表达式“Hello中没有包含任何元字符,它可以匹配“Hello和123Hello等字符串,但是不能匹配“hello。元字符n元字符是
3、正则表达式规定的特殊代码。正则表达式中有很多元字符,例如:d 匹配一位数字,b代表是字符串的开头和结尾。下面列出一些元字符:常用的一些元字符正则表达式基本书写符号字符转义n当查找元字符本身时,比如查找.,或者*,无法指定它们,因为它们会被解释成别的意思。这时你就得使用来取消这些字符的特殊意义。因此,你应该使用.和*。当然,要查找本身,你也得用.n例如:A匹配A,C:Windows匹配C:Windows。限定符n正则表达式中所有的限定符是指定数量的代码。正则表达式限定符符号正则表达式限定符符号限定符n下面是一些使用重复的例子:nWindowsd+匹配Windows后面跟1个或更多数字nw+匹配一
4、行的第一个单词(或整个字符串的第一个单词,具体匹配哪个意思得看选项设置)字符类n问题:n要想查找数字,字母或数字,空白是很简单的,因为已经有了对应这些字符集合的元字符,但是如果你想匹配没有预定义元字符的字符集合(比如元音字母a,e,i,o,u),应该怎么办?字符类n很简单,你只需要在方括号里列出它们就行了,像aeiou就匹配任何一个英文元音字母,.?!匹配标点符号(.或?或!)。n可以指定一个字符范围范围,像0-9代表的含意与d就是完全一致的:一位数字;同理a-z0-9A-Z_也完全等同于w(如果只考虑英文的话)。字符类n下面是一个更复杂的表达式:n(?0d2)-?d8n这个表达式可以匹配几种
5、格式的电话号码,像(010)88886666,或022-22334455,或02912345678等。我们对它进行一些分析吧:首先是一个转义字符(,它能出现0次或1次(?),然后是一个0,后面跟着2个数字(d2),然后是)或-或空格中的一个,它出现1次或不出现(?),最后是8个数字(d8)。n这个表达式是个不好的表达式,因为它会匹配几种不正确的格式。分枝条件n刚才那个表达式也能匹配010)12345678或(022-87654321这样的“不正确”的格式。要解决这个问题,我们需要用到分枝条件分枝条件。n正则表达式里的分枝条件分枝条件指的是有几种规则,如果满足其中任意一种规则都应该当成匹配,具体
6、方法是用|把不同的规则分隔开。n例如:0d2-d8|0d3-d7这个表达式能匹配两种以连字号分隔的电话号码:一种是三位区号,8位本地号(如010-12345678),一种是4位区号,7位本地号(0376-2233445)。分枝条件n(0d2)-?d8|0d2-?d8这个表达式匹配3位区号的电话号码,其中区号可以用小括号括起来,也可以不用,区号与本地号间可以用连字号或空格间隔,也可以没有间隔。你可以试试用分枝条件把这个表达式扩展成也支持4位区号的。nd5-d4|d5这个表达式用于匹配美国的邮政编码。美国邮编的规则是5位数字,或者用连字号间隔的9位数字。分枝条件n之所以要给出这个例子是因为它能说明
7、一个问题:使用分枝条件时,要注意各个条件的顺序。如果你把它改成d5|d5-d4的话,那么就只会匹配5位的邮编(以及9位邮编的前5位)。原因是匹配分枝条件时,将会从左到右地测试每个条件,如果满足了某个分枝的话,就不会去再管其它的条件了。分组n我们已经提到了怎么重复单个字符(直接在字符后面加上限定符就行了);但如果想要重复多个字符又该怎么办?你可以用小括号来指定子表达式(也叫做分组),然后你就可以指定这个子表达式的重复次数了,你也可以对子表达式进行其它一些操作(后面会有介绍)。n(d1,3.)3d1,3是一个简单的IP地址匹配表达式。要理解这个表达式,请按下列顺序分析它:d1,3匹配1到3位的数字
8、d1,3.)3匹配三位数字加上一个英文句号(这个整体也就是这个分组)重复3次,最后再加上一个一到三位的数字(d1,3)。分组n不幸的是,它也将匹配256.300.888.999这种不可能存在的IP地址。如果能使用算术比较的话,或许能简单地解决这个问题,但是正则表达式中并不提供关于数学的任何功能,所以只能使用冗长的分组,选择,字符类来描述一个正确的IP地址:(20-4d|250-5|01?dd?).)3(20-4d|250-5|01?dd?)。n理解这个表达式的关键是理解20-4d|250-5|01?dd?反义反义n有时需要查找不属于某个能简单定义的字符类的字符。比如想查找除了数字以外,其它
9、任意字符都行的情况,这时需要用到反义反义:反义n例子:nS+匹配不包含空白符的字符串。n+匹配用尖括号括起来的以a开头的字符串。后向引用n使用小括号指定一个子表达式后,匹配这个子表达式的文本(也就是此分组捕获的内容)可以在表达式或其它程序中作进一步的处理。默认情况下,每个分组会自动拥有一个组号,规则是:从左向右,以分组的左括号为标志,第一个出现的分组的组号为1,第二个为2,以此类推。n后向引用后向引用用于重复搜索前面某个分组匹配的文本。例如,1代表分组1匹配的文本。后向引用nb(w+)bs+1b可以用来匹配重复的单词,像go go,或者kitty kitty。这个表达式首先是一个单词,也就是单
10、词开始处和结束处之间的多于一个的字母或数字(b(w+)b),这个单词会被捕获到编号为1的分组中,然后是1个或几个空白符(s+),最后是分组1中捕获的内容(也就是前面匹配的那个单词)(1)。后向引用n也可以自己指定子表达式的组名。要指定一个子表达式的组名,语法为:(?w+)(或者把尖括号换成也行:(?Wordw+),这样就把w+的组名指定为Word了。要反向引用这个分组捕获的内容,你可以使用k,所以上一个例子也可以写成这样:b(?w+)bs+kb。零宽断言n接下来的四个用于查找在某些内容(但并不包括这些内容)之前或之后的东西,也就是说它们像b,$那样用于指定一个位置,这个位置应该满足一定的条件(
11、即断言),因此它们也被称为零宽断言零宽断言。n断言用来声明一个应该为真的事实。正则表达式中只有当断言为真时才会继续进行匹配。零宽断言n(?=exp)也叫零宽度正预测先行断言,它断言自身出现的位置的后面能匹配表达式exp。比如bw+(?=ingb),匹配以ing结尾的单词的前面部分(除了ing以外的部分),如查找Im singing while youre dancing.时,它会匹配sing和danc。n(?=exp)也叫零宽度正回顾后发断言,它断言自身出现的位置的前面能匹配表达式exp。比如(?=bre)w+b会匹配以re开头的单词的后半部分(除了re以外的部分),例如在查找reading
12、a book时,它匹配ading。零宽断言n假如你想要给一个很长的数字中每三位间加一个逗号(当然是从右边加起了),你可以这样查找需要在前面和里面添加逗号的部分:(?=d)d3)+b,用它对1234567890进行查找时结果是234567890。n下面这个例子同时使用了这两种断言:(?=s)d+(?=s)匹配以空白符间隔的数字(再次强调,不包括这些空白符)。测试正则表达式测试正则表达式nWindows下的正则表达式工具,这里推荐的是:RegexBuddy。在编写正则式时,它提供可视化的支持、提示、调试方面的便利;在使用正则表达式时,它将正则式转换为多种语言的字串,还提供了代码输出功能。RegexBuddyRegexBuddy的界面的界面RegexBuddyRegexBuddy的测试界面的测试界面