Entonces, su problema es validar una expresión regular, eligió una expresión regular para resolverla. Me pregunto si la propiedad de aumento de número de problemas de expresiones regulares es aditiva o multiplicativa. Se siente como 4 problemas en lugar de 2 :)
abesto
15
Hay muchas anotaciones para las expresiones regulares: algunas características y su ortografía son comunes para la mayoría, algunas están escritas de manera diferente o solo están disponibles en una notación particular. La mayoría de esas anotaciones no son "regulares" en el sentido de la gramática regular: necesitaría un analizador sin contexto para manejar la anidación ilimitada de subexpresiones, aunque muchas notaciones modernas de "expresión regular" tienen extensiones que van más allá de la definición formal original y podría permitir que se reconozcan sus propias anotaciones. En cualquier caso, ¿por qué no simplemente preguntar a su biblioteca de expresiones regulares si cada expresión regular es válida?
Steve314
1
@bevacqua necesito validar regexp en el esquema XML. ¿Cómo puedo hacerlo sin otra expresión regular?
zenden2k
3
Realmente compila / ejecuta la expresión regular (patrón) que se va a verificar, bajo un mecanismo de manejo de excepciones que tiene tu idioma. Entonces, el motor / compilador de expresiones regulares del lenguaje lo comprobará. (Esto supone la sintaxis básica correcta para que el programa se ejecute, pero eso puede incluirse en la verificación utilizando las instalaciones de sus idiomas para evaluar la cadena para la expresión regular como código (posiblemente sintácticamente incorrecto) o
/^# start of string(# first group start(?:(?:[^?+*{}()[\]\\|]+# literals and ^, $| \\.# escaped characters| \[ (?: \^?\\.| \^[^\\]|[^\\^])# character classes(?:[^\]\\]+| \\.)* \]
| \( (?:\?[:=!]|\?<[=!]|\?>)?(?1)?? \) # parenthesis, with recursive content| \(\? (?:R|[+-]?\d+) \) # recursive matching)(?:(?:[?+*]|\{\d+(?:,\d*)?\})[?+]?)?# quantifiers| \| # alternative)*# repeat content)# end first group
$ # end of string/
Esta es una expresión regular recursiva, y no es compatible con muchos motores de expresión regular. Los basados en PCRE deberían ser compatibles.
Validará solo la parte regex de las sustituciones y traducciones. s/<this part>/.../
No es teóricamente posible hacer coincidir todas las gramáticas de expresiones regulares válidas con una expresión regular.
Es posible si el motor regex admite la recursión, como PCRE, pero eso ya no se puede llamar expresiones regulares.
De hecho, una "expresión regular recursiva" no es una expresión regular. Pero esta es una extensión a menudo aceptada para motores de expresiones regulares ... Irónicamente, esta expresión regular extendida no coincide con las expresiones regulares extendidas.
"En teoría, la teoría y la práctica son lo mismo. En la práctica, no lo son". Casi todos los que conocen las expresiones regulares saben que las expresiones regulares no admiten la recursividad. Pero PCRE y la mayoría de las otras implementaciones admiten mucho más que las expresiones regulares básicas.
usando esto con el script de shell en el comando grep, me muestra un error ... grep: Contenido no válido de {}. Estoy creando un script que podría codificar una base de código para encontrar todos los archivos que contienen expresiones regulares
Este patrón explota una extensión llamada expresiones regulares recursivas. Esto no es compatible con el sabor POSIX de regex. Puede probar con el interruptor -P para habilitar el sabor de expresión regular PCRE.
Regex en sí mismo "no es un lenguaje regular y, por lo tanto, no se puede analizar mediante una expresión regular ..."
Esto es cierto para las expresiones regulares clásicas. Algunas implementaciones modernas permiten la recursividad, lo que lo convierte en un lenguaje sin contexto, aunque es algo detallado para esta tarea.
Veo dónde estás haciendo juego []()/\. y otros caracteres especiales de expresiones regulares. ¿Dónde estás permitiendo personajes no especiales? Parece que esto coincidirá ^(?:[\.]+)$, pero no ^abcdefg$. Esa es una expresión regular válida.
[^?+*{}()[\]\\|]coincidirá con cualquier carácter individual, no parte de ninguna de las otras construcciones. Esto incluye tanto literal ( a- z), y algunos caracteres especiales ( ^, $, .).
Esta respuesta envía a las personas en la dirección completamente equivocada. Nunca deben usar regEx para localizar expresiones regulares, porque no puede funcionar correctamente en todos los casos. Ver mi respuesta agregada.
vitaly-t
1
.{,1}es inigualable Cambiar a ^((?:(?:[^?+*{}()[\]\\|]+|\\.|\[(?:\^?\\.|\^[^\\]|[^\\^])(?:[^\]\\]+|\\.)*\]|\((?:\?[:=!]|\?<[=!]|\?>)?(?1)??\)|\(\?(?:R|[+-]?\d+)\))(?:(?:[?+*]|\{\d*(?:,\d*)?\})[?+]?)?|\|)*)$partidos. CaMBio \d+a\d*
yunzen
44
regex by def no debería tener recursividad, al menos diga algo así en su respuesta, su motor de regex es probablemente "demasiado potente" y no es realmente un motor de regex.
Charlie Parker
Solo una nota que olvidó la bandera x
RedClover
Este validador parece estar hecho para expresiones PCRE, pero pasará muchos ERE POSIX inválidos. En particular, son un poco más selectivos en rangos de clase de caracteres, por ejemplo, esto es válido en PCRE pero no en ERE: [a-b-c].
No, si habla estrictamente de expresiones regulares y no incluye algunas implementaciones de expresiones regulares que en realidad son gramáticas libres de contexto.
Hay una limitación de las expresiones regulares que hace que sea imposible escribir una expresión regular que coincida con todas y solo expresiones regulares. No puede hacer coincidir implementaciones como llaves que están emparejadas. Las expresiones regulares usan muchas de estas construcciones, tomemos []como ejemplo. Siempre que haya un [debe haber una coincidencia ], que es lo suficientemente simple para una expresión regular "\[.*\]".
Lo que hace que sea imposible para las expresiones regulares es que se pueden anidar. ¿Cómo puedes escribir una expresión regular que coincida con paréntesis anidados? La respuesta es que no puedes sin una expresión regular infinitamente larga. Puede hacer coincidir cualquier número de paréntesis anidados a través de la fuerza bruta, pero nunca puede hacer coincidir un conjunto arbitrariamente largo de paréntesis anidados.
Esta capacidad a menudo se conoce como contar, porque estás contando la profundidad de la anidación. Una expresión regular, por definición, no tiene la capacidad de contar.
Los lenguajes regulares verdaderos no pueden decidir paréntesis bien formados, arbitrariamente anidados Si su alfabeto contiene '('y ')'el objetivo es decidir si una cadena de estos tiene paréntesis coincidentes bien formados. Como este es un requisito necesario para las expresiones regulares, la respuesta es no.
Sin embargo, si afloja el requisito y agrega recursividad, probablemente pueda hacerlo. La razón es que la recursión puede actuar como una pila que le permite "contar" la profundidad de anidamiento actual presionando sobre esta pila.
La razón es que no puede satisfacer el lema de bombeo para los idiomas normales. Los estados de bombeo lemma que una cadena pertenece al lenguaje "L" es regular si existe un número "N" de tal manera que, después de dividir la cadena en tres subseries x, y, z, de tal manera que |x|>=1 && |xy|<=N, se puede repetir ytantas veces como se desee y el toda la cadena seguirá perteneciendo L.
Una consecuencia del lema de bombeo es que no puede tener cadenas regulares en el formulario a^Nb^Mc^N, es decir, dos subcadenas que tienen la misma longitud separadas por otra cadena. En cualquier forma que dividir dichas cadenas en x, yy z, no se puede "bomba" ysin obtener una cadena con un número diferente de "a" y "c", dejando así el idioma original. Ese es el caso, por ejemplo, con paréntesis en expresiones regulares.
Esa no es una descripción muy precisa del lema de bombeo. Primero, es todo el lenguaje que puede ser regular o no, no una sola cadena. En segundo lugar, es una condición necesaria, no suficiente, para la regularidad. Finalmente, solo se pueden bombear cuerdas suficientemente largas.
darij grinberg
13
Aunque es perfectamente posible usar una expresión regular recursiva como MizardX ha publicado, para este tipo de cosas es mucho más útil un analizador. Originalmente, las expresiones regulares estaban destinadas a ser utilizadas con lenguajes regulares, ser recursivo o tener grupos de equilibrio es solo un parche.
El lenguaje que define expresiones regulares válidas es en realidad una gramática libre de contexto, y debe usar un analizador apropiado para manejarlo. Aquí hay un ejemplo para un proyecto universitario para analizar expresiones regulares simples (sin la mayoría de las construcciones). Utiliza JavaCC. Y sí, los comentarios están en español, aunque los nombres de los métodos se explican por sí mismos.
Puede enviar la expresión regular a la preg_matchque devolverá falso si la expresión regular no es válida. No olvide usar el @para suprimir mensajes de error:
El siguiente ejemplo de Paul McGuire, originalmente del wiki de pyparsing, pero ahora disponible solo a través de Wayback Machine , ofrece una gramática para el análisis algunas expresiones regulares, con el fin de devolver el conjunto de cadenas coincidentes. Como tal, rechaza aquellos re que incluyen términos de repetición ilimitados, como '+' y '*'. Pero debería darle una idea sobre cómo estructurar un analizador que procese los re.
# # invRegex.py## Copyright 2008, Paul McGuire## pyparsing script to expand a regular expression into all possible matching strings# Supports:# - {n} and {m,n} repetition, but not unbounded + or * repetition# - ? optional elements# - [] character ranges# - () grouping# - | alternation#
__all__ =["count","invert"]from pyparsing import(Literal, oneOf, printables,ParserElement,Combine,SkipTo, operatorPrecedence,ParseFatalException,Word, nums, opAssoc,Suppress,ParseResults, srange)classCharacterRangeEmitter(object):def __init__(self,chars):# remove duplicate chars in character range, but preserve original order
seen =set()self.charset ="".join( seen.add(c)or c for c in chars if c notin seen )def __str__(self):return'['+self.charset+']'def __repr__(self):return'['+self.charset+']'def makeGenerator(self):def genChars():for s inself.charset:yield s
return genChars
classOptionalEmitter(object):def __init__(self,expr):self.expr = expr
def makeGenerator(self):def optionalGen():yield""for s inself.expr.makeGenerator()():yield s
return optionalGen
classDotEmitter(object):def makeGenerator(self):def dotGen():for c in printables:yield c
return dotGen
classGroupEmitter(object):def __init__(self,exprs):self.exprs =ParseResults(exprs)def makeGenerator(self):def groupGen():def recurseList(elist):if len(elist)==1:for s in elist[0].makeGenerator()():yield s
else:for s in elist[0].makeGenerator()():for s2 in recurseList(elist[1:]):yield s + s2
ifself.exprs:for s in recurseList(self.exprs):yield s
return groupGen
classAlternativeEmitter(object):def __init__(self,exprs):self.exprs = exprs
def makeGenerator(self):def altGen():for e inself.exprs:for s in e.makeGenerator()():yield s
return altGen
classLiteralEmitter(object):def __init__(self,lit):self.lit = lit
def __str__(self):return"Lit:"+self.lit
def __repr__(self):return"Lit:"+self.lit
def makeGenerator(self):def litGen():yieldself.lit
return litGen
def handleRange(toks):returnCharacterRangeEmitter(srange(toks[0]))def handleRepetition(toks):
toks=toks[0]if toks[1]in"*+":raiseParseFatalException("",0,"unbounded repetition operators not supported")if toks[1]=="?":returnOptionalEmitter(toks[0])if"count"in toks:returnGroupEmitter([toks[0]]*int(toks.count))if"minCount"in toks:
mincount =int(toks.minCount)
maxcount =int(toks.maxCount)
optcount = maxcount - mincount
if optcount:
opt =OptionalEmitter(toks[0])for i in range(1,optcount):
opt =OptionalEmitter(GroupEmitter([toks[0],opt]))returnGroupEmitter([toks[0]]* mincount +[opt])else:return[toks[0]]* mincount
def handleLiteral(toks):
lit =""for t in toks:if t[0]=="\\":if t[1]=="t":
lit +='\t'else:
lit += t[1]else:
lit += t
returnLiteralEmitter(lit)def handleMacro(toks):
macroChar = toks[0][1]if macroChar =="d":returnCharacterRangeEmitter("0123456789")elif macroChar =="w":returnCharacterRangeEmitter(srange("[A-Za-z0-9_]"))elif macroChar =="s":returnLiteralEmitter(" ")else:raiseParseFatalException("",0,"unsupported macro character ("+ macroChar +")")def handleSequence(toks):returnGroupEmitter(toks[0])def handleDot():returnCharacterRangeEmitter(printables)def handleAlternative(toks):returnAlternativeEmitter(toks[0])
_parser =Nonedef parser():global _parser
if _parser isNone:ParserElement.setDefaultWhitespaceChars("")
lbrack,rbrack,lbrace,rbrace,lparen,rparen = map(Literal,"[]{}()")
reMacro =Combine("\\"+ oneOf(list("dws")))
escapedChar =~reMacro +Combine("\\"+ oneOf(list(printables)))
reLiteralChar ="".join(c for c in printables if c notin r"\[]{}().*?+|")+" \t"
reRange =Combine(lbrack +SkipTo(rbrack,ignore=escapedChar)+ rbrack)
reLiteral =( escapedChar | oneOf(list(reLiteralChar)))
reDot =Literal(".")
repetition =(( lbrace +Word(nums).setResultsName("count")+ rbrace )|( lbrace +Word(nums).setResultsName("minCount")+","+Word(nums).setResultsName("maxCount")+ rbrace )|
oneOf(list("*+?")))
reRange.setParseAction(handleRange)
reLiteral.setParseAction(handleLiteral)
reMacro.setParseAction(handleMacro)
reDot.setParseAction(handleDot)
reTerm =( reLiteral | reRange | reMacro | reDot )
reExpr = operatorPrecedence( reTerm,[(repetition,1, opAssoc.LEFT, handleRepetition),(None,2, opAssoc.LEFT, handleSequence),(Suppress('|'),2, opAssoc.LEFT, handleAlternative),])
_parser = reExpr
return _parser
def count(gen):"""Simple function to count the number of elements returned by a generator."""
i =0for s in gen:
i +=1return i
def invert(regex):"""Call this routine as a generator to return all the strings that
match the input regular expression.
for s in invert("[A-Z]{3}\d{3}"):
print s
"""
invReGenerator =GroupEmitter(parser().parseString(regex)).makeGenerator()return invReGenerator()def main():
tests = r"""
[A-EA]
[A-D]*
[A-D]{3}
X[A-C]{3}Y
X[A-C]{3}\(
X\d
foobar\d\d
foobar{2}
foobar{2,9}
fooba[rz]{2}
(foobar){2}
([01]\d)|(2[0-5])
([01]\d\d)|(2[0-4]\d)|(25[0-5])
[A-C]{1,2}
[A-C]{0,3}
[A-C]\s[A-C]\s[A-C]
[A-C]\s?[A-C][A-C]
[A-C]\s([A-C][A-C])
[A-C]\s([A-C][A-C])?
[A-C]{2}\d{2}
@|TH[12]
@(@|TH[12])?
@(@|TH[12]|AL[12]|SP[123]|TB(1[0-9]?|20?|[3-9]))?
@(@|TH[12]|AL[12]|SP[123]|TB(1[0-9]?|20?|[3-9])|OH(1[0-9]?|2[0-9]?|30?|[4-9]))?
(([ECMP]|HA|AK)[SD]|HS)T
[A-CV]{2}
A[cglmrstu]|B[aehikr]?|C[adeflmorsu]?|D[bsy]|E[rsu]|F[emr]?|G[ade]|H[efgos]?|I[nr]?|Kr?|L[airu]|M[dgnot]|N[abdeiop]?|Os?|P[abdmortu]?|R[abefghnu]|S[bcegimnr]?|T[abcehilm]|Uu[bhopqst]|U|V|W|Xe|Yb?|Z[nr]
(a|b)|(x|y)
(a|b) (x|y)
""".split('\n')for t in tests:
t = t.strip()ifnot t:continueprint'-'*50print t
try:print count(invert(t))for s in invert(t):print s
exceptParseFatalException,pfe:print pfe.msg
printcontinueprintif __name__ =="__main__":
main()
Respuestas:
Esta es una expresión regular recursiva, y no es compatible con muchos motores de expresión regular. Los basados en PCRE deberían ser compatibles.
Sin espacios en blanco y sin comentarios:
.NET no admite la recursión directamente. (Las construcciones
(?1)
y(?R)
.) La recursión tendría que convertirse a contar grupos equilibrados:Comprimido:
De los comentarios:
Validará solo la parte regex de las sustituciones y traducciones.
s/<this part>/.../
Es posible si el motor regex admite la recursión, como PCRE, pero eso ya no se puede llamar expresiones regulares.
"En teoría, la teoría y la práctica son lo mismo. En la práctica, no lo son". Casi todos los que conocen las expresiones regulares saben que las expresiones regulares no admiten la recursividad. Pero PCRE y la mayoría de las otras implementaciones admiten mucho más que las expresiones regulares básicas.
Este patrón explota una extensión llamada expresiones regulares recursivas. Esto no es compatible con el sabor POSIX de regex. Puede probar con el interruptor -P para habilitar el sabor de expresión regular PCRE.
Esto es cierto para las expresiones regulares clásicas. Algunas implementaciones modernas permiten la recursividad, lo que lo convierte en un lenguaje sin contexto, aunque es algo detallado para esta tarea.
[^?+*{}()[\]\\|]
coincidirá con cualquier carácter individual, no parte de ninguna de las otras construcciones. Esto incluye tanto literal (a
-z
), y algunos caracteres especiales (^
,$
,.
).fuente
.{,1}
es inigualable Cambiar a^((?:(?:[^?+*{}()[\]\\|]+|\\.|\[(?:\^?\\.|\^[^\\]|[^\\^])(?:[^\]\\]+|\\.)*\]|\((?:\?[:=!]|\?<[=!]|\?>)?(?1)??\)|\(\?(?:R|[+-]?\d+)\))(?:(?:[?+*]|\{\d*(?:,\d*)?\})[?+]?)?|\|)*)$
partidos. CaMBio\d+
a\d*
[a-b-c]
.Improbable.
Evaluarlo en uno
try..catch
o en cualquier idiomafuente
No, si habla estrictamente de expresiones regulares y no incluye algunas implementaciones de expresiones regulares que en realidad son gramáticas libres de contexto.
Hay una limitación de las expresiones regulares que hace que sea imposible escribir una expresión regular que coincida con todas y solo expresiones regulares. No puede hacer coincidir implementaciones como llaves que están emparejadas. Las expresiones regulares usan muchas de estas construcciones, tomemos
[]
como ejemplo. Siempre que haya un[
debe haber una coincidencia]
, que es lo suficientemente simple para una expresión regular"\[.*\]"
.Lo que hace que sea imposible para las expresiones regulares es que se pueden anidar. ¿Cómo puedes escribir una expresión regular que coincida con paréntesis anidados? La respuesta es que no puedes sin una expresión regular infinitamente larga. Puede hacer coincidir cualquier número de paréntesis anidados a través de la fuerza bruta, pero nunca puede hacer coincidir un conjunto arbitrariamente largo de paréntesis anidados.
Esta capacidad a menudo se conoce como contar, porque estás contando la profundidad de la anidación. Una expresión regular, por definición, no tiene la capacidad de contar.
Terminé escribiendo " Limitaciones de expresión regular " sobre esto.
fuente
Buena pregunta.
Los lenguajes regulares verdaderos no pueden decidir paréntesis bien formados, arbitrariamente anidados Si su alfabeto contiene
'('
y')'
el objetivo es decidir si una cadena de estos tiene paréntesis coincidentes bien formados. Como este es un requisito necesario para las expresiones regulares, la respuesta es no.Sin embargo, si afloja el requisito y agrega recursividad, probablemente pueda hacerlo. La razón es que la recursión puede actuar como una pila que le permite "contar" la profundidad de anidamiento actual presionando sobre esta pila.
Russ Cox escribió " La coincidencia de expresiones regulares puede ser simple y rápida ", que es un maravilloso tratado sobre la implementación del motor de expresiones regulares .
fuente
No, si usa expresiones regulares estándar.
La razón es que no puede satisfacer el lema de bombeo para los idiomas normales. Los estados de bombeo lemma que una cadena pertenece al lenguaje "L" es regular si existe un número "N" de tal manera que, después de dividir la cadena en tres subseries
x
,y
,z
, de tal manera que|x|>=1 && |xy|<=N
, se puede repetiry
tantas veces como se desee y el toda la cadena seguirá perteneciendoL
.Una consecuencia del lema de bombeo es que no puede tener cadenas regulares en el formulario
a^Nb^Mc^N
, es decir, dos subcadenas que tienen la misma longitud separadas por otra cadena. En cualquier forma que dividir dichas cadenas enx
,y
yz
, no se puede "bomba"y
sin obtener una cadena con un número diferente de "a" y "c", dejando así el idioma original. Ese es el caso, por ejemplo, con paréntesis en expresiones regulares.fuente
Aunque es perfectamente posible usar una expresión regular recursiva como MizardX ha publicado, para este tipo de cosas es mucho más útil un analizador. Originalmente, las expresiones regulares estaban destinadas a ser utilizadas con lenguajes regulares, ser recursivo o tener grupos de equilibrio es solo un parche.
El lenguaje que define expresiones regulares válidas es en realidad una gramática libre de contexto, y debe usar un analizador apropiado para manejarlo. Aquí hay un ejemplo para un proyecto universitario para analizar expresiones regulares simples (sin la mayoría de las construcciones). Utiliza JavaCC. Y sí, los comentarios están en español, aunque los nombres de los métodos se explican por sí mismos.
fuente
Puede enviar la expresión regular a la
preg_match
que devolverá falso si la expresión regular no es válida. No olvide usar el@
para suprimir mensajes de error://
.fuente
El siguiente ejemplo de Paul McGuire, originalmente del wiki de pyparsing, pero ahora disponible solo a través de Wayback Machine , ofrece una gramática para el análisis algunas expresiones regulares, con el fin de devolver el conjunto de cadenas coincidentes. Como tal, rechaza aquellos re que incluyen términos de repetición ilimitados, como '+' y '*'. Pero debería darle una idea sobre cómo estructurar un analizador que procese los re.
fuente