Aquí hay un ejemplo de un enlace que encontré en YouTube en la sección de comentarios de un video.
gnu.org/distros/free-distros.html
Esta es la forma en que aparece en el comentario.
Si destaco este enlace y copio al portapapeles (ctrl + c), luego vaya a una nueva pestaña del navegador y péguelo (ctrl + v) en la barra de direcciones, así es como se muestra.
gnu.org/distros/free-distros.html
Se ve igual, ¿verdad? Pero si presiono Enter, aparece un error.
404 Pagina no encontrada
La página que estaba buscando no se pudo encontrar en el servidor web GNU.
Si siguió un enlace que resultó estar roto, y la página con el enlace roto menciona una dirección explícita a la cual reportar errores, utilice esa dirección.
La URL también cambia a lo siguiente.
http://www.gnu.org/distros/free-distros.h%C2%ADtml%EF%BB%BF
Si elimino %C2%ADtml%EF%BB%BF
y escribo tml
para recuperar la dirección http://www.gnu.org/distros/free-distros.html
y luego presiono Enter, bueno, ahora funciona y la página se carga.
Pensé para mí mismo que esto es muy extraño, así que intenté pegar el mismo texto del portapapeles en un editor de texto sin formato (bloc de notas) y esto es lo que obtuve.
gnu.org/distros/free-distros.h-tml
¿Cómo se introdujo el guión entre h y tml ? Es por eso que recibí el error 404. Pero la URL aparece correctamente cuando se pega en la barra de direcciones. ¿Es este algún tipo de personaje oculto quizás?
Además, si vuelvo a YouTube y resalto el enlace, puedo ver que hay un aumento en las últimas tres letras. El resaltado es más alto alrededor de "tml". Puedes ver eso en la captura de pantalla a continuación.
¿Por qué está pasando esto? ¿Que esta pasando? ¿Podría ser que Google de alguna manera está salando intencionalmente el enlace?
Actualizar
Si pego en Notepad ++ (versión 6.3) me sigue.
gnu.org/distros/free-distros.html?
Si trato de pegar en la barra de direcciones del navegador Google Chrome, parece que hay algún tipo de carácter oculto al final de la URL. Ver captura de pantalla a continuación.
Eso no es un espacio en blanco. Es algo más ... ¡algo extraño! ¿Algo del planeta X?
Nota: La línea vertical al final no es la que quiero decir, es solo el cursor de entrada de texto que parpadea.
Actualización 2
Inspeccionar el código html en Firefox usando la herramienta de inspección de elementos.
¿Por qué hay un cuadrado dentro de la etiqueta wbr de apertura?
Actualización 3
El "cuadrado" parece ser la entidad de caracteres de guión suave. Aquí sigue el código fuente real de esta línea en particular.
<p>gnu.org/distros/free-distros.h<wbr>­tml</p>
El guión suave es el ­
que ves aquí. Las etiquetas HTML, como o es decir, para texto en negrita, no se pueden seleccionar. Cuando resalta un texto de una página web en un navegador, no está seleccionando las etiquetas HTML. No <>
se muestra nada dentro .
Parece que el guión suave es la causa raíz del problema de copiar y pegar. No se muestra en la página web, pero se selecciona cuando resalta el texto.
Actualización 4
Esto es lo que parece cuando pego la URL en Microsoft Word 2010 y veo los caracteres ocultos.
Para mover el cursor de texto de .|html
a .ht|ml
requiere presionar la tecla de flecha tres veces. Puedes ver por la imagen de arriba por qué es eso. Es por este personaje oculto. Con el cursor delante de ese personaje de aspecto extraño, presionar Alt + X muestra 0068. Con el cursor detrás de ese personaje, y delante de la letra T no revela nada en absoluto. El 0068 es solo la página de códigos Unicode para la letra H.
Respuestas:
Sí, es una molestia.
Hay dos guiones: el normal \ u2D y el divertido. El divertido se usa a veces en los comentarios de YouTube. \ u00AD y aparece como oculto.
Pegue en el bloc de notas (para eliminar el formato) y también, el bloc de notas lo muestra, y luego en MS Word (o solo en Ms Word pegue especial ... unicode sin formato), coloque el cursor a la derecha del guión, o cualquier carácter, y presione ALT-x y verá el código ASCII o Unicode para ello.
Esto puede parecer extraño. Tenga en cuenta que hay algunos caracteres con dos tipos diferentes. Un tipo que usas generalmente que está dentro del rango de 0-7F, y un tipo que las personas tienden a no usar mucho o nada, que es> 7F. Los dos tipos de espacios (uno normal y otro llamado espacio sin ruptura, código ascii 160 \ uA0 que puede ser útil). Hay dos tipos de tuberías 7C y A6. La A6 solo está pidiendo problemas, ya que causa fallas en la línea de comando. Y dos tipos de guiones, el segundo que ves, también se comporta de manera extraña, ya que los comentarios de YouTube a veces lo usan y lo ocultan y no lo muestran como un guión.
Otro personaje divertido que veo que usa YouTube en los comentarios es \ uFEFF. Puede ejecutar el bloc de notas2 (descargarlo), elegir el archivo ... codificación..UTF-8, pegar el texto y buscar \ uFEFF reemplazando por nada, ( marque la casilla que dice transformar barras invertidas).
De manera similar, puede abrir notepad2, buscar \ u00AD (ese gracioso guión) y reemplazarlo con un guión normal. Editpad free podría hacerlo, aunque utilizo la versión pro para su soporte de expresiones regulares.
Notaría que charmap no copia el guión divertido correctamente. (Entonces, si quieres experimentar y eliges copiarlo y pegarlo en una pieza de software y se muestra divertido, culpa a charmap), pero se copia bien (como con el personaje) desde tu enlace en mi navegador (Chrome). Sin embargo, si el personaje no estaba allí, ¡es una molestia! Pero puede ver su código ascii en Ms Word, y puede buscarlo y eliminarlo en notepad2
Usted ve en Charmap que (\ u00AD) se llama el "Hiphen suave" (¡me alegra que no hayan separado ese título!)
En la foto usé Ms Word e hice ALT-x
fuente
<p>gnu.org/distros/free-distros.h<wbr>­tml</p>
. Entonces, ¿por qué tenemos este problema es por el guión suave y no tanto por la etiqueta wbr?.|html
a.ht|ml
. Debería ser suficiente presionarlo dos veces para mover el cursor dos pasos. Esto se debe a que hay un personaje oculto allí.Mirando el código fuente de esta parte de la página, veo esto:
Parece que Youtube insertó automáticamente una
<wbr>
etiqueta. Es una oportunidad para romper palabras , le dice al navegador que si es necesario, la palabra puede romperse para insertar una nueva línea.En las páginas codificadas UTF-8, esto se muestra como un
ZERO-WIDTH SPACE
, sin mostrar nada, pero permitiendo una nueva línea. Eso es lo que causa tu problema de codificación.Parece que Youtube tiene un algoritmo para insertarse automáticamente
<wbr>
en palabras largas en buenos lugares (sin cortar una sílaba en dos), pero comohttp://
faltaba al comienzo de la URL, el algoritmo no lo reconoció como tal, y por lo tanto asumí que era una palabra que podía romperse.fuente
UTF-8
a la utilizada por Windows, mientras que la URL se traduce a codificación de URL, con resultados pobres también. Y me perdí algo,<wbr>
no se supone que inserte un-
. Lo corregiréhttp://
algoritmo de Youtube actuara de manera extraña.