Las respuestas a esta pregunta en SO devolvieron un conjunto de aproximadamente 125 nombres de una a dos letras: /programming/6979630/what-1-2-letter-object-names-conflict-with-existing -r-objetos
[1] "Ad" "am" "ar" "as" "bc" "bd" "bp" "br" "BR" "bs" "by" "c" "C"
[14] "cc" "cd" "ch" "ci" "CJ" "ck" "Cl" "cm" "cn" "cq" "cs" "Cs" "cv"
[27] "d" "D" "dc" "dd" "de" "df" "dg" "dn" "do" "ds" "dt" "e" "E"
[40] "el" "ES" "F" "FF" "fn" "gc" "gl" "go" "H" "Hi" "hm" "I" "ic"
[53] "id" "ID" "if" "IJ" "Im" "In" "ip" "is" "J" "lh" "ll" "lm" "lo"
[66] "Lo" "ls" "lu" "m" "MH" "mn" "ms" "N" "nc" "nd" "nn" "ns" "on"
[79] "Op" "P" "pa" "pf" "pi" "Pi" "pm" "pp" "ps" "pt" "q" "qf" "qq"
[92] "qr" "qt" "r" "Re" "rf" "rk" "rl" "rm" "rt" "s" "sc" "sd" "SJ"
[105] "sn" "sp" "ss" "t" "T" "te" "tr" "ts" "tt" "tz" "ug" "UG" "UN"
[118] "V" "VA" "Vd" "vi" "Vo" "w" "W" "y"
Y código de importación R:
nms <- c("Ad","am","ar","as","bc","bd","bp","br","BR","bs","by","c","C","cc","cd","ch","ci","CJ","ck","Cl","cm","cn","cq","cs","Cs","cv","d","D","dc","dd","de","df","dg","dn","do","ds","dt","e","E","el","ES","F","FF","fn","gc","gl","go","H","Hi","hm","I","ic","id","ID","if","IJ","Im","In","ip","is","J","lh","ll","lm","lo","Lo","ls","lu","m","MH","mn","ms","N","nc","nd","nn","ns","on","Op","P","pa","pf","pi","Pi","pm","pp","ps","pt","q","qf","qq","qr","qt","r","Re","rf","rk","rl","rm","rt","s","sc","sd","SJ","sn","sp","ss","t","T","te","tr","ts","tt","tz","ug","UG","UN","V","VA","Vd","vi","Vo","w","W","y")
Dado que el punto de la pregunta era crear una lista memorable de nombres de objetos para evitar, y la mayoría de los humanos no son tan buenos para dar sentido a un bloque sólido de texto, me gustaría visualizar esto.
Lamentablemente, no estoy exactamente seguro de la mejor manera de hacer esto. Había pensado en algo así como un diagrama de tallo y hojas, solo porque no hay valores repetidos, cada "hoja" se colocó en la columna correspondiente en lugar de dejarse justificada. O una adaptación de estilo wordcloud donde las letras se dimensionan de acuerdo con su prevalencia.
¿Cómo se puede visualizar de manera más clara y eficiente?
Las visualizaciones que se ajustan a lo siguiente en el espíritu de esta pregunta:
Objetivo principal: mejorar la capacidad de memorización del conjunto de nombres al revelar patrones en los datos
Objetivo alternativo: resaltar características interesantes del conjunto de nombres (por ejemplo, que ayudan a visualizar la distribución, las letras más comunes, etc.)
Se prefieren las respuestas en R, pero todas las ideas interesantes son bienvenidas.
Se permite ignorar los nombres de una sola letra, ya que son más fáciles de dar como una lista separada.
fuente
Ok, aquí está mi opinión muy rápida sobre una visualización tipo "tabla periódica", basada en la pregunta SO y los comentarios de los demás. El principal problema es la gran diferencia en el número de variables entre paquetes, lo que dificulta la visualización ... Me doy cuenta de que esto es muy difícil, así que no dude en cambiarlo como lo desee.
Aquí está la salida actual (de mi lista de paquetes)
Y el código
Ahora, tenemos un marco de datos como este:
Ahora podemos dividir los datos por paquete
Podemos ver que la mayoría de las variables provienen de la base y el paquete de estadísticas
Finalmente, la rutina de dibujo.
fuente
Aquí hay un histograma basado en letras. Consideró dimensionar las primeras letras por número, pero decidió no hacerlo, ya que eso ya está codificado en el componente vertical.
fuente
Tabla periódica para 100, Alex. Sin embargo, no tengo código para ello. :(
Uno podría pensar que un paquete de "tabla periódica" ya podría existir en CRAN. La idea de un esquema de coloración y diseño de dichos datos podría ser interesante y útil.
Estos pueden ser coloreados por paquete y ordenados verticalmente por frecuencia, por ejemplo, en una muestra de código en CRAN o como aparecen en la base de código local.
fuente
Las primeras dos páginas del capítulo 2 de ITILA de MacKay tienen diagramas agradables que muestran las probabilidades condicionales de todos los pares de caracteres en el idioma inglés. Puede encontrarlo útil.
Me da vergüenza decir que no recuerdo qué programa se utilizó para producirlos.
fuente