¿Copiar texto de YouTube al Portapapeles introduce guiones?

3

Aquí hay un ejemplo de un enlace que encontré en YouTube en la sección de comentarios de un video.

gnu.org/distros/free-distros.h­tml

Esta es la forma en que aparece en el comentario.

Si destaco este enlace y copio al portapapeles (ctrl + c), luego vaya a una nueva pestaña del navegador y péguelo (ctrl + v) en la barra de direcciones, así es como se muestra.

gnu.org/distros/free-distros.h­tml

Se ve igual, ¿verdad? Pero si presiono Enter, aparece un error.

404 Pagina no encontrada

La página que estaba buscando no se pudo encontrar en el servidor web GNU.

Si siguió un enlace que resultó estar roto, y la página con el enlace roto menciona una dirección explícita a la cual reportar errores, utilice esa dirección.

La URL también cambia a lo siguiente.

http://www.gnu.org/distros/free-distros.h%C2%ADtml%EF%BB%BF

Si elimino %C2%ADtml%EF%BB%BFy escribo tmlpara recuperar la dirección http://www.gnu.org/distros/free-distros.htmly luego presiono Enter, bueno, ahora funciona y la página se carga.

Pensé para mí mismo que esto es muy extraño, así que intenté pegar el mismo texto del portapapeles en un editor de texto sin formato (bloc de notas) y esto es lo que obtuve.

gnu.org/distros/free-distros.h­-tml

¿Cómo se introdujo el guión entre h y tml ? Es por eso que recibí el error 404. Pero la URL aparece correctamente cuando se pega en la barra de direcciones. ¿Es este algún tipo de personaje oculto quizás?

Además, si vuelvo a YouTube y resalto el enlace, puedo ver que hay un aumento en las últimas tres letras. El resaltado es más alto alrededor de "tml". Puedes ver eso en la captura de pantalla a continuación.

pantalla1

pantalla2

¿Por qué está pasando esto? ¿Que esta pasando? ¿Podría ser que Google de alguna manera está salando intencionalmente el enlace?

Actualizar

Si pego en Notepad ++ (versión 6.3) me sigue.

gnu.org/distros/free-distros.h­tml?

Si trato de pegar en la barra de direcciones del navegador Google Chrome, parece que hay algún tipo de carácter oculto al final de la URL. Ver captura de pantalla a continuación.

pantalla3

Eso no es un espacio en blanco. Es algo más ... ¡algo extraño! ¿Algo del planeta X?

Nota: La línea vertical al final no es la que quiero decir, es solo el cursor de entrada de texto que parpadea.

Actualización 2

Inspeccionar el código html en Firefox usando la herramienta de inspección de elementos.

pantalla4

¿Por qué hay un cuadrado dentro de la etiqueta wbr de apertura?

Actualización 3

El "cuadrado" parece ser la entidad de caracteres de guión suave. Aquí sigue el código fuente real de esta línea en particular.

<p>gnu.org/distros/free-distros.h<wbr>&shy;tml</p>

El guión suave es el &shy;que ves aquí. Las etiquetas HTML, como o es decir, para texto en negrita, no se pueden seleccionar. Cuando resalta un texto de una página web en un navegador, no está seleccionando las etiquetas HTML. No <>se muestra nada dentro .

Parece que el guión suave es la causa raíz del problema de copiar y pegar. No se muestra en la página web, pero se selecciona cuando resalta el texto.

Actualización 4

Esto es lo que parece cuando pego la URL en Microsoft Word 2010 y veo los caracteres ocultos.

pantalla5

Para mover el cursor de texto de .|htmla .ht|mlrequiere presionar la tecla de flecha tres veces. Puedes ver por la imagen de arriba por qué es eso. Es por este personaje oculto. Con el cursor delante de ese personaje de aspecto extraño, presionar Alt + X muestra 0068. Con el cursor detrás de ese personaje, y delante de la letra T no revela nada en absoluto. El 0068 es solo la página de códigos Unicode para la letra H.

Samir
fuente
¿Es posible tener un enlace a esta página de Youtube?
Levans
Estoy usando Firefox 22 en Windows Vista 64-bit SP2. Pero acabo de intentar pegar en Google Chrome y todavía recibo el error 404.
Samir
@Levans Es "Richard Stallman habla sobre Ubuntu" por Muktware.
Samir
@Levans youtu.be/CP8CNp-vksc
Samir
Lección aprendida: ¡los guiones suaves son desagradables! =)
Samir

Respuestas:

2

Sí, es una molestia.

Hay dos guiones: el normal \ u2D y el divertido. El divertido se usa a veces en los comentarios de YouTube. \ u00AD y aparece como oculto.

Pegue en el bloc de notas (para eliminar el formato) y también, el bloc de notas lo muestra, y luego en MS Word (o solo en Ms Word pegue especial ... unicode sin formato), coloque el cursor a la derecha del guión, o cualquier carácter, y presione ALT-x y verá el código ASCII o Unicode para ello.

Esto puede parecer extraño. Tenga en cuenta que hay algunos caracteres con dos tipos diferentes. Un tipo que usas generalmente que está dentro del rango de 0-7F, y un tipo que las personas tienden a no usar mucho o nada, que es> 7F. Los dos tipos de espacios (uno normal y otro llamado espacio sin ruptura, código ascii 160 \ uA0 que puede ser útil). Hay dos tipos de tuberías 7C y A6. La A6 solo está pidiendo problemas, ya que causa fallas en la línea de comando. Y dos tipos de guiones, el segundo que ves, también se comporta de manera extraña, ya que los comentarios de YouTube a veces lo usan y lo ocultan y no lo muestran como un guión.

Otro personaje divertido que veo que usa YouTube en los comentarios es \ uFEFF. Puede ejecutar el bloc de notas2 (descargarlo), elegir el archivo ... codificación..UTF-8, pegar el texto y buscar \ uFEFF reemplazando por nada, ( marque la casilla que dice transformar barras invertidas).

De manera similar, puede abrir notepad2, buscar \ u00AD (ese gracioso guión) y reemplazarlo con un guión normal. Editpad free podría hacerlo, aunque utilizo la versión pro para su soporte de expresiones regulares.

Notaría que charmap no copia el guión divertido correctamente. (Entonces, si quieres experimentar y eliges copiarlo y pegarlo en una pieza de software y se muestra divertido, culpa a charmap), pero se copia bien (como con el personaje) desde tu enlace en mi navegador (Chrome). Sin embargo, si el personaje no estaba allí, ¡es una molestia! Pero puede ver su código ascii en Ms Word, y puede buscarlo y eliminarlo en notepad2

Usted ve en Charmap que (\ u00AD) se llama el "Hiphen suave" (¡me alegra que no hayan separado ese título!)

En la foto usé Ms Word e hice ALT-x

ingrese la descripción de la imagen aquí

barlop
fuente
Miro el código fuente ahora y veo <p>gnu.org/distros/free-distros.h<wbr>&shy;tml</p>. Entonces, ¿por qué tenemos este problema es por el guión suave y no tanto por la etiqueta wbr?
Samir
ascii.cl/htmlcodes.htm Hex AD, & shy Es el & shy; ese es el guión suave (¡el guión extraño!), que es el problema. Y timido; está justo en el html que citó allí
barlop
Si mira la fuente en Chrome para su pregunta, donde incluyó un enlace que falla, hay más que un & shy; literalmente tiene el guión suave allí dentro de las letras html, pero no muestra nada, por ejemplo, pégalo en la barra de URL, así que en modo de edición, y mueve el cursor a través de él. Y si mueve el cursor a través de él (con las teclas de flecha) verá que hay un carácter divertido entre h y t de html. Experimenté con estas cosas una vez, puedes colocar toneladas de estos personajes allí consecutivamente, que aparecen en un programa pero en otro no ocupan espacio.
barlop
Me has perdido. Definir "modo de edición de tipo". Intenté pegar en MS Word 2010 y veo que tengo que presionar la tecla de flecha tres veces para mover el cursor de texto de .|htmla .ht|ml. Debería ser suficiente presionarlo dos veces para mover el cursor dos pasos. Esto se debe a que hay un personaje oculto allí.
Samir
Además, cuando el cursor está delante de t (.h | tml), Alt + X no muestra ningún código ASCII en MS Word. Pero puedo verlo viendo caracteres ocultos en Word (ver captura de pantalla arriba).
Samir
2

Mirando el código fuente de esta parte de la página, veo esto:

<p>gnu.org/distros/free-distros.h<wbr>­tml</p>

Parece que Youtube insertó automáticamente una <wbr>etiqueta. Es una oportunidad para romper palabras , le dice al navegador que si es necesario, la palabra puede romperse para insertar una nueva línea.

En las páginas codificadas UTF-8, esto se muestra como un ZERO-WIDTH SPACE, sin mostrar nada, pero permitiendo una nueva línea. Eso es lo que causa tu problema de codificación.

Parece que Youtube tiene un algoritmo para insertarse automáticamente <wbr>en palabras largas en buenos lugares (sin cortar una sílaba en dos), pero como http://faltaba al comienzo de la URL, el algoritmo no lo reconoció como tal, y por lo tanto asumí que era una palabra que podía romperse.

Levans
fuente
Pero no hay salto de línea? ¿El guión no se ve en YouTube? ¿Solo cuando se copia y se pega?
Samir
No hay salto de línea porque no es necesario mostrar el contenido, pero el carácter invisible todavía está aquí. El guión en copiar y pegar es probablemente el resultado de una traducción de codificación deficiente UTF-8a la utilizada por Windows, mientras que la URL se traduce a codificación de URL, con resultados pobres también. Y me perdí algo, <wbr>no se supone que inserte un -. Lo corregiré
Levans
¿Por qué hay un cuadrado punteado dentro de la etiqueta wbr de apertura? Vea la captura de pantalla arriba. ¿No debería simplemente decir "<wbr>" y nada más? Describiría lo anterior como "<wbr?>" Donde el? marca la posición de este personaje de aspecto extraño y cuadrado. Eso es lo que veo cuando inspecciono el elemento dentro de Firefox. Quiero decir, wbr solo no debería causar este problema, ¿verdad?
Samir
Correcto, "el elemento <wbr> no introduce un guión en el punto de salto de línea".
Samir
@Sammy De hecho, busqué un poco más, y parece que la codificación de esta URL está bastante jodida, y eso es probablemente lo que causó que Youtube inserte un <wbr>. Probablemente, el que lo publicó tuvo un problema de codificación con su propia computadora, y omitió que el http://algoritmo de Youtube actuara de manera extraña.
Levans