ES6——正则的扩展详解

张开发
2026/4/12 15:33:56 15 分钟阅读

分享文章

ES6——正则的扩展详解
正则的扩展详解1、RegExp构造函数2、字符串的正则方法3、u修饰符4、y修饰符5、sticky属性6、flags属性7、RegExp.escape()1、RegExp构造函数在ES5中RegExp构造函数只能接受字符串作为参数。varregexnewRegExp(xyz,i);//等价于varregex/xyz/i;S6允许RegExp构造函数接受正则表达式作为参数这时会返回一个原有正则表达式的拷贝。letregexnewRegExp(/xyz/i);如果使用RegExp构造函数的第2个参数指定修饰符则返回的正则表达式会忽略原有的正则表达式的修饰符只使用新指定的修饰符。console.log(newRegExp(/abc/ig,i).flags);//i2、字符串的正则方法字符串对象共有4个方法可以使用正则表达式match()、replace()、search()和split()。ES6将这4个方法在语言内部全部调用RegExp的实例方法从而做到所有与正则相关的方法都定义在RegExp对象上。String.prototype.match调用RegExp.prototype[Symbol.match]String.prototype.replace调用RegExp.prototype[Symbol.replace]String.prototype.search调用RegExp.prototype[Symbol.search]String.prototype.split调用RegExp.prototype[Symbol.split]3、u修饰符ES6对正则表达式添加了u修饰符含义为“Unicode模式”​用来正确处理大于\uFFFF的Unicode字符。也就是说可以正确处理4个字节的UTF-16编码。console.log(/^\uD83D/u.test(\uD83D\uDC2A));//falseconsole.log(/^\uD83D/.test(\uD83D\uDC2A));//true上面的代码中​“83D2A”是一个4字节的UTF-16编码代表一个字符。但是ES5不支持4字节的UTF-16编码会将其识别为2个字符导致第二行代码结果为true。加了u修饰符以后ES6就会识别其为一个字符所以第一行代码结果为false。一旦加上u修饰符就会修改下面这些正则表达式的行为。1. 点字符点(.)字符在正则表达式中含义是除换行符以外的任意单个字符。对于码点大于0xFFFF的Unicode字符点字符不能识别必须加上u修饰符。lets;console.log(/^.$/.test(s));//falseconsole.log(/^.$/u.test(s));//true上面的代码表示如果不添加u修饰符正则表达式就会认为字符串为2个字符从而匹配失败。2. Unicode字符表示法ES6新增了使用大括号表示Unicode字符的表示法这种表示法在正则表达式中必须加上u修饰符才能识别。console.log(/\u{61}/.test(a));//falseconsole.log(/\u{61}/u.test(a));//trueconsole.log(/\u{20BB7}/u.test())//true上面的代码表示如果不加u修饰符正则表达式无法识别\u{61}这种表示法只会认为其匹配61个连续的u。3. 量词使用u修饰符后所有量词都会正确识别码点大于0xFFFF的Unicode字符。console.log(/a{2}/.test(aa));//trueconsole.log(/a{2}/u.test(aa));//trueconsole.log(/{2}/.test());//falseconsole.log(/{2}/u.test());//true另外只有在使用u修饰符的情况下Unicode表达式当中的大括号才会被正确解读否则会被解读为量词。console.log(/^\u{3}$/.test(uuu));//true上面的代码中由于正则表达式没有u修饰符所以大括号被解读为量词。加上u修饰符就会被解读为Unicode表达式。4. 预定义模式u修饰符也影响到预定义模式能否正确识别码点大于0xFFFF的Unicode字符。console.log(/^\S$/.test());//falseconsole.log(/^\S$/u.test());//true上面的代码中的\S是预定义模式匹配所有不是空格的字符。只有加了u修饰符它才能正确匹配码点大于0xFFFF的Unicode字符。利用这一点可以写出一个正确返回字符串长度的函数。functioncodePointLength(text){letresulttext.match(/[\s\S]/gu);returnresult?result.length:0;}lets;console.log(s.length);//4console.log(codePointLength(s));//25. i修饰符有些Unicode字符的编码不同但是字型很相近比如\u004B与\u212A都是大写的K。console.log(/[a-z]/i.test(\u212A));//falseconsole.log(/[a-z]/iu.test(\u212A));//true上面的代码中不加u修饰符就无法识别非规范的K字符。4、y修饰符除了u修饰符ES6还为正则表达式添加了y修饰符叫作“粘连”(sticky)修饰符。y修饰符的作用与g修饰符类似也是全局匹配后一次匹配都从上一次匹配成功的下一个位置开始。不同之处在于g修饰符只要剩余位置中存在匹配就行而y修饰符会确保匹配必须从剩余的第一个位置开始这也就是“粘连”的涵义。letsaaa_aa_a;letr1/a/g;letr2/a/y;console.log(r1.exec(s));//[ aaa, index: 0, input: aaa_aa_a, groups: undefined ]console.log(r2.exec(s));//[ aaa, index: 0, input: aaa_aa_a, groups: undefined ]console.log(r1.exec(s));//[ aa, index: 4, input: aaa_aa_a, groups: undefined ]console.log(r2.exec(s));//null上面的代码有两个正则表达式一个使用g修饰符另一个使用y修饰符。这两个正则表达式各执行了两次第一次执行时两者行为相同剩余字符串都是_aa_a。由于g修饰符没有位置要求所以第二次执行会返回结果而y修饰符要求匹配必须从头部开始所以返回null。如果改一下正则表达式保证每次都能头部匹配y修饰符就会返回结果了。letsaaa_aa_a;letr/a_/y;console.log(r.exec(s));//[ aaa_, index: 0, input: aaa_aa_a, groups: undefined ]console.log(r.exec(s));//[ aa_, index: 4, input: aaa_aa_a, groups: undefined ]上面的代码每次匹配都是从剩余字符串的头部开始。使用lastIndex属性可以更好地说明y修饰符。constREGEX/a/g;//指定从2号位置(y)开始匹配REGEX.lastIndex2;//匹配成功constmatchREGEX.exec(xaya);//在3号位置匹配成功console.log(match.index);//3//下一次匹配从4号位置开始console.log(REGEX.lastIndex);//4//4号位置开始匹配失败console.log(REGEX.exec(xaxa));//null上面的代码中lastIndex属性指定每次搜索的开始位置g修饰符从这个位置开始向后搜索直到发现匹配为止。y修饰符同样遵守lastIndex属性但是要求必须在lastIndex指定的位置发现匹配。constREGEX/a/y;//指定从2号位置(y)开始匹配REGEX.lastIndex2;//不是粘连匹配失败console.log(REGEX.exec(xaya));//null//指定从3号位置开始匹配REGEX.lastIndex3;//3号位置是粘连匹配成功constmatchREGEX.exec(xaxa);console.log(match.index)//3console.log(REGEX.lastIndex);//4进一步说y修饰符隐含了头部匹配的标志(^)。/b/y.exec(aba)//null上面的代码由于不能保证头部匹配所以返回null。y修饰符的设计本意就是让头部匹配的标志(^)在全局匹配中都有效。在split方法中使用y修饰符原字符串必须以分隔符开头。这也意味着只要匹配成功数组的第一个成员肯定是空字符串。//没有找到匹配x##.split(/#/y)//[x##]//找到两个匹配##x.split(/#/y)//[, , x]后续的分隔符只有紧跟前面的分隔符才会被识别。#x#.split(/#/y)//[, x#]##.split(/x/y)//[, , ]下面是字符串对象的replace方法的例子。constREGEX/a/gy;aaxa.replace(REGEX,-)//--xa上面的代码中最后一个a因为不是出现下一次匹配的头部所以不会被替换。y修饰符的一个应用是从字符串提取token词元​y修饰符确保了匹配之间不会有漏掉的字符。constTOKEN_Y/\s*(\|[0-9])\s*/y;constTOKEN_G/\s*(\|[0-9])\s*/g;functiontokenize(TOKEN_REGEX,str){letresult[];letmatch;while(matchTOKEN_REGEX.exec(str)){result.push(match[1]);}returnresult;}console.log(tokenize(TOKEN_Y,3 4));//[ 3, , 4 ]console.log(tokenize(TOKEN_G,3 4));//[ 3, , 4 ]上面的代码中如果字符串里面没有非法字符y修饰符与g修饰符的提取结果是一样的。但是一旦出现非法字符两者的行为就不一样了。console.log(tokenize(TOKEN_Y,3x 4));//[ 3 ]console.log(tokenize(TOKEN_G,3x 4));//[ 3, , 4 ]上面的代码中g修饰符会忽略非法字符而y修饰符不会这样就很容易发现错误。5、sticky属性与y修饰符相匹配ES6的正则对象多了sticky属性表示是否设置了y修饰符。letr/hello\d/y;r.sticky//true6、flags属性ES6为正则表达式新增了flags属性会返回正则表达式的修饰符。//ES5的source属性//返回正则表达式的正文console.log(/abc/ig.source);//abc//ES6的flags属性//返回正则表达式的修饰符console.log(/abc/ig.flags);//gi7、RegExp.escape()字符串必须转义才能作为正则模式。functionescapeRegExp(str){returnstr.replace(/[\-\[\]\/\{\}\(\)\*\\?\.|||^\$\|]/g,\\$);}letstr/path/to/resource.html?searchquery;console.log(escapeRegExp(str));//\/path\/to\/resource\.html\?searchquery上面的代码中str是一个正常字符串必须使用反斜杠对其中的特殊字符转义才能用作正则匹配的模式。

更多文章