¡El caso de Carmel! ¡Así se llamaba! ¡Me encanta! ¡Muchas gracias!
Matias Nino
19
En realidad, camelCase tiene una letra minúscula inicial. A lo que te refieres aquí es PascalCase.
Drew Noakes
12
... y cuando te refieres a algo que puede ser "caso de camello" o "caso de pascal" se llama "intercalado"
Chris
No divide "Take5", lo que fallaría en mi caso de uso
PandaWood
1
@PandaWood Digits no estaba en la pregunta, por lo que mi respuesta no los tuvo en cuenta. Agregué una variante de los patrones que representa los dígitos.
Esta es la mejor solución hasta ahora, pero necesita usar \\ B para compilar. De lo contrario, el compilador intenta tratar \ B como una secuencia de escape.
Ferruccio
Buena solucion. ¿Alguien puede pensar en una razón por la que esta no debería ser la respuesta aceptada? ¿Es menos capaz o menos eficaz?
Drew Noakes
8
Este trata las mayúsculas consecutivas como palabras separadas (por ejemplo, ANZAC es de 5 palabras) mientras que la respuesta de MizardX lo trata (correctamente en mi humilde opinión) como una palabra.
Ray
2
@ Ray, yo diría que "ANZAC" debería escribirse como "Anzac" para que se considere una palabra en pascal, ya que no es en inglés.
Sam
1
@Neaox, en inglés debería estar, pero esto no es acrónimo-case o normal-english-case; está delimitado por mayúsculas. Si el texto de origen debe escribirse en mayúscula de la misma manera que en inglés normal, las otras letras tampoco deben escribirse en mayúscula. Por ejemplo, ¿por qué la "i" en "es" debe estar en mayúscula para ajustarse al formato delimitado por mayúsculas pero no el "NZAC" en "ANZAC"? Estrictamente hablando, si interpreta "ANZAC" como delimitado por mayúsculas, entonces son 5 palabras, una por cada letra.
Sam
19
¡Gran respuesta, MizardX! Lo modifiqué ligeramente para tratar los números como palabras separadas, de modo que "AddressLine1" se convertiría en "Address Line 1" en lugar de "Address Line1":
¡Gran adición! Sospecho que no pocas personas se sorprenderán por el manejo de números en cadenas de la respuesta aceptada. :)
Jordan Grey
Sé que han pasado casi 8 años desde que publicaste esto, pero también funcionó perfectamente para mí. :) Los números me hicieron tropezar al principio.
Michael Armes
La única respuesta que pasa mis 2 pruebas de valores atípicos: "Take5" -> "Take 5", "PublisherID" -> "ID de editor". Quiero
votar a favor de
18
Solo para un poco de variedad ... Aquí hay un método de extensión que no usa una expresión regular.
publicstaticclassCamelSpaceExtensions{publicstaticstringSpaceCamelCase(thisString input){returnnewstring(Enumerable.Concat(
input.Take(1),// No space before initial capInsertSpacesBeforeCaps(input.Skip(1))).ToArray());}privatestaticIEnumerable<char>InsertSpacesBeforeCaps(IEnumerable<char> input){foreach(char c in input){if(char.IsUpper(c)){yieldreturn' ';}yieldreturn c;}}}
Para evitar usar Trim (), antes del foreach pongo: int contador = -1. adentro, agregue el contador ++. cambie el cheque a: if (char.IsUpper (c) && counter> 0)
Outside the Box Developer
Esto inserta un espacio antes del primer carácter.
Zar Shardan
Me he tomado la libertad de solucionar el problema señalado por @ZarShardan. Siéntase libre de revertir o editar su propia corrección si no le gusta el cambio.
jpmc26
¿Se puede mejorar esto para manejar abreviaturas, por ejemplo, agregando un espacio antes de la última mayúscula en una serie de letras mayúsculas, por ejemplo, BOEForecast => BOE Forecast
Nepaluz
11
Aparte del excelente comentario de Grant Wagner:
Dim s AsString=RegularExpressions.Regex.Replace("ThisIsMyCapsDelimitedString","([A-Z])"," $1")
Buen punto ... No dude en insertar la .substring (), .trimstart (), .trim (), .remove (), etc. de su elección. :)
Pseudo Masoquista
9
Necesitaba una solución que admita acrónimos y números. Esta solución basada en Regex trata los siguientes patrones como "palabras" individuales:
Una letra mayúscula seguida de letras minúsculas
Una secuencia de números consecutivos
Letras mayúsculas consecutivas (interpretadas como acrónimos): una palabra nueva puede comenzar con la última mayúscula, por ejemplo, HTMLGuide => "HTML Guide", "TheATeam" => "The A Team"
usingSystem.Text.RegularExpressions;namespaceDemo{publicclassIntercappedStringHelper{privatestaticreadonlyRegexSeparatorRegex;staticIntercappedStringHelper(){conststring pattern =@"
(?<!^) # Not start
(
# Digit, not preceded by another digit
(?<!\d)\d
|
# Upper-case letter, followed by lower-case letter if
# preceded by another upper-case letter, e.g. 'G' in HTMLGuide
(?(?<=[A-Z])[A-Z](?=[a-z])|[A-Z])
)";var options =RegexOptions.IgnorePatternWhitespace|RegexOptions.Compiled;SeparatorRegex=newRegex(pattern, options);}publicstaticstringSeparateWords(stringvalue,string separator =" "){returnSeparatorRegex.Replace(value, separator +"$1");}}}
+ 1 para explicar la expresión regular y hacerla legible. Y aprendí algo nuevo. Hay un modo de espacio libre y comentarios en .NET Regex. ¡Gracias!
Felix Keil
4
Para mayor variedad, usando objetos antiguos simples de C #, lo siguiente produce el mismo resultado que la excelente expresión regular de @ MizardX.
publicstringFromCamelCase(string camel){// omitted checking camel for nullStringBuilder sb =newStringBuilder();int upperCaseRun =0;foreach(char c in camel){// append a space only if we're not at the start// and we're not already in an all caps string.if(char.IsUpper(c)){if(upperCaseRun ==0&& sb.Length!=0){
sb.Append(' ');}
upperCaseRun++;}elseif(char.IsLower(c)){if(upperCaseRun >1)//The first new word will also be capitalized.{
sb.Insert(sb.Length-1,' ');}
upperCaseRun =0;}else{
upperCaseRun =0;}
sb.Append(c);}return sb.ToString();}
Sabía que habría una forma sencilla de RegEx ... Tengo que empezar a usarla más.
Max Schmeling
1
No soy un gurú de las expresiones regulares, pero ¿qué sucede con "HeresAWTFString"?
Nick
1
Obtienes "Heres AWTF String" pero eso es exactamente lo que Matias Nino pidió en la pregunta.
Max Schmeling
Sí, necesita agregar que "varias capitales adyacentes se quedan solas". Lo cual es bastante obviamente requerido en muchos casos, por ejemplo, "PublisherID" aquí va a "Publisher I D", lo cual es terrible
PandaWood
2
Regex es aproximadamente 10-12 veces más lento que un bucle simple:
publicstaticstringCamelCaseToSpaceSeparated(thisstring str){if(string.IsNullOrEmpty(str)){return str;}var res =newStringBuilder();
res.Append(str[0]);for(var i =1; i < str.Length; i++){if(char.IsUpper(str[i])){
res.Append(' ');}
res.Append(str[i]);}return res.ToString();}
Te modifiqué, pero la gente generalmente toma un golpe mejor si no comienza con "ingenuo".
MusiGenesis
No creo que haya sido un golpe. En este contexto, ingenuo generalmente significa obvio o simple (es decir, no necesariamente la mejor solución). No hay intención de insultar.
Ferruccio
0
Probablemente haya una solución más elegante, pero esto es lo que se me ocurre:
string myString ="ThisIsMyCapsDelimitedString";for(int i =1; i < myString.Length; i++){if(myString[i].ToString().ToUpper()== myString[i].ToString()){
myString = myString.Insert(i," ");
i++;}}
privatestaticStringBuilder camelCaseToRegular(string i_String){StringBuilder output =newStringBuilder();int i =0;foreach(char character in i_String){if(character <='Z'&& character >='A'&& i >0){
output.Append(" ");}
output.Append(character);
i++;}return output;}
/// <summary>/// Get the words in a code <paramref name="identifier"/>./// </summary>/// <param name="identifier">The code <paramref name="identifier"/></param> to extract words from.publicstaticstring[]GetWords(thisstring identifier){Contract.Ensures(Contract.Result<string[]>()!=null,"returned array of string is not null but can be empty");if(identifier ==null){returnnewstring[0];}if(identifier.Length==0){returnnewstring[0];}constint MIN_WORD_LENGTH =2;// Ignore one letter or one digit wordsvar length = identifier.Length;var list =newList<string>(1+ length/2);// Set capacity, not possible more words since we discard one char wordsvar sb =newStringBuilder();CharKind cKindCurrent =GetCharKind(identifier[0]);// length is not zero hereCharKind cKindNext = length ==1?CharKind.End:GetCharKind(identifier[1]);for(var i =0; i < length; i++){var c = identifier[i];CharKind cKindNextNext =(i >= length -2)?CharKind.End:GetCharKind(identifier[i +2]);// Process cKindCurrentswitch(cKindCurrent){caseCharKind.Digit:caseCharKind.LowerCaseLetter:
sb.Append(c);// Append digit or lowerCaseLetter to sbif(cKindNext ==CharKind.UpperCaseLetter){goto TURN_SB_INTO_WORD;// Finish word if next char is upper}goto CHAR_PROCESSED;caseCharKind.Other:goto TURN_SB_INTO_WORD;default:// charCurrent is never Start or EndDebug.Assert(cKindCurrent ==CharKind.UpperCaseLetter);break;}// Here cKindCurrent is UpperCaseLetter// Append UpperCaseLetter to sb anyway
sb.Append(c);switch(cKindNext){default:goto CHAR_PROCESSED;caseCharKind.UpperCaseLetter:// "SimpleHTTPServer" when we are at 'P' we need to see that NextNext is 'e' to get the word!if(cKindNextNext ==CharKind.LowerCaseLetter){goto TURN_SB_INTO_WORD;}goto CHAR_PROCESSED;caseCharKind.End:caseCharKind.Other:break;// goto TURN_SB_INTO_WORD;}//------------------------------------------------
TURN_SB_INTO_WORD:string word = sb.ToString();
sb.Length=0;if(word.Length>= MIN_WORD_LENGTH){
list.Add(word);}
CHAR_PROCESSED:// Shift left for next iteration!
cKindCurrent = cKindNext;
cKindNext = cKindNextNext;}string lastWord = sb.ToString();if(lastWord.Length>= MIN_WORD_LENGTH){
list.Add(lastWord);}return list.ToArray();}privatestaticCharKindGetCharKind(char c){if(char.IsDigit(c)){returnCharKind.Digit;}if(char.IsLetter(c)){if(char.IsUpper(c)){returnCharKind.UpperCaseLetter;}Debug.Assert(char.IsLower(c));returnCharKind.LowerCaseLetter;}returnCharKind.Other;}enumCharKind{End,// For end of stringDigit,UpperCaseLetter,LowerCaseLetter,Other}
Pruebas:
[TestCase((string)null,"")][TestCase("","")]// Ignore one letter or one digit words[TestCase("A","")][TestCase("4","")][TestCase("_","")][TestCase("Word_m_Field","Word Field")][TestCase("Word_4_Field","Word Field")][TestCase("a4","a4")][TestCase("ABC","ABC")][TestCase("abc","abc")][TestCase("AbCd","Ab Cd")][TestCase("AbcCde","Abc Cde")][TestCase("ABCCde","ABC Cde")][TestCase("Abc42Cde","Abc42 Cde")][TestCase("Abc42cde","Abc42cde")][TestCase("ABC42Cde","ABC42 Cde")][TestCase("42ABC","42 ABC")][TestCase("42abc","42abc")][TestCase("abc_cde","abc cde")][TestCase("Abc_Cde","Abc Cde")][TestCase("_Abc__Cde_","Abc Cde")][TestCase("ABC_CDE_FGH","ABC CDE FGH")][TestCase("ABC CDE FGH","ABC CDE FGH")]// Should not happend (white char) anything that is not a letter/digit/'_' is considered as a separator[TestCase("ABC,CDE;FGH","ABC CDE FGH")]// Should not happend (,;) anything that is not a letter/digit/'_' is considered as a separator[TestCase("abc<cde","abc cde")][TestCase("abc<>cde","abc cde")][TestCase("abc<D>cde","abc cde")]// Ignore one letter or one digit words[TestCase("abc<Da>cde","abc Da cde")][TestCase("abc<cde>","abc cde")][TestCase("SimpleHTTPServer","Simple HTTP Server")][TestCase("SimpleHTTPS2erver","Simple HTTPS2erver")][TestCase("camelCase","camel Case")][TestCase("m_Field","Field")][TestCase("mm_Field","mm Field")]publicvoidTest_GetWords(string identifier,string expectedWordsStr){var expectedWords = expectedWordsStr.Split(' ');if(identifier ==null|| identifier.Length<=1){
expectedWords =newstring[0];}var words = identifier.GetWords();Assert.IsTrue(words.SequenceEqual(expectedWords));}
Una solución simple, que debería ser un orden de magnitud más rápido que una solución de expresiones regulares (según las pruebas que ejecuté contra las soluciones principales en este hilo), especialmente a medida que crece el tamaño de la cadena de entrada:
string s1 ="ThisIsATestStringAbcDefGhiJklMnoPqrStuVwxYz";string s2;StringBuilder sb =newStringBuilder();foreach(char c in s1)
sb.Append(char.IsUpper(c)?" "+ c.ToString(): c.ToString());
s2 = sb.ToString();
Regex.Replace(s, "([A-Z0-9]+)", " $1").Trim()
. Y si desea dividir en cada letra mayúscula, simplemente elimine el signo más.Respuestas:
Hice esto hace un tiempo. Coincide con cada componente de un nombre CamelCase.
Por ejemplo:
Para convertir eso para simplemente insertar espacios entre las palabras:
Si necesita manejar dígitos:
fuente
fuente
¡Gran respuesta, MizardX! Lo modifiqué ligeramente para tratar los números como palabras separadas, de modo que "AddressLine1" se convertiría en "Address Line 1" en lugar de "Address Line1":
fuente
Solo para un poco de variedad ... Aquí hay un método de extensión que no usa una expresión regular.
fuente
Aparte del excelente comentario de Grant Wagner:
fuente
Necesitaba una solución que admita acrónimos y números. Esta solución basada en Regex trata los siguientes patrones como "palabras" individuales:
Usted podría hacerlo como una sola línea:
Un enfoque más legible podría ser mejor:
Aquí hay un extracto de las pruebas (XUnit):
fuente
Para mayor variedad, usando objetos antiguos simples de C #, lo siguiente produce el mismo resultado que la excelente expresión regular de @ MizardX.
fuente
A continuación se muestra un prototipo que convierte lo siguiente en caso de título:
Obviamente, solo necesitaría el método "ToTitleCase" usted mismo.
La salida de la consola sería la siguiente:
Publicación de blog referenciada
fuente
fuente
Regex es aproximadamente 10-12 veces más lento que un bucle simple:
fuente
Solución ingenua de expresiones regulares. No manejará a O'Conner y también agrega un espacio al comienzo de la cadena.
fuente
Probablemente haya una solución más elegante, pero esto es lo que se me ocurre:
fuente
Tratar de usar
El resultado se ajustará a la mezcla alfabética con números.
fuente
Implementando el código psudo desde: https://stackoverflow.com/a/5796394/4279201
fuente
Para hacer coincidir entre la categoría Unicode de letras mayúsculas y no mayúsculas :
(?<=\P{Lu})(?=\p{Lu})
fuente
Implicación procedimental y rápida:
Pruebas:
fuente
Una solución simple, que debería ser un orden de magnitud más rápido que una solución de expresiones regulares (según las pruebas que ejecuté contra las soluciones principales en este hilo), especialmente a medida que crece el tamaño de la cadena de entrada:
fuente