¿Cómo podemos copiar texto de Wikipedia sin las partes de citas "[1]", "[2]", "[3]"?

9

Si copiamos texto de una página de Wikipedia , esto es aproximadamente lo que obtenemos:

El espaciado de oraciones es el espacio horizontal entre oraciones en texto compuesto. Es una cuestión de convención tipográfica. [1] Desde la introducción de la impresión de tipo móvil en Europa, se han utilizado varias convenciones de espaciado de oraciones en idiomas con un alfabeto derivado del latín. [2] Estos incluyen un espacio de palabras normal (como entre las palabras en una oración), un solo espacio ampliado, dos espacios completos y, más recientemente en medios digitales, sin espacio. [3] Aunque las fuentes digitales modernas pueden ajustar automáticamente el espacio de una sola palabra para crear un espaciado visualmente agradable y consistente después de la puntuación de la terminal, [4] la mayor parte del debate se trata de presionar la barra espaciadora de un teclado una o dos veces entre oraciones. [5]

No deseo copiar las partes [1]y [2]etc. Esto es en realidad lo que quería copiar:

El espaciado de oraciones es el espacio horizontal entre oraciones en texto compuesto. Es una cuestión de convención tipográfica. Desde la introducción de la impresión de tipo móvil en Europa, se han utilizado varias convenciones de espaciado de oraciones en idiomas con un alfabeto derivado del latín. Estos incluyen un espacio de palabras normal (como entre las palabras en una oración), un solo espacio ampliado, dos espacios completos y, más recientemente en medios digitales, sin espacio. Aunque las fuentes digitales modernas pueden ajustar automáticamente el espacio de una sola palabra para crear un espaciado visualmente agradable y consistente después de la puntuación de la terminal, la mayor parte del debate es si se debe presionar la barra espaciadora de un teclado una o dos veces entre oraciones.

La respuesta seleccionada a continuación usa expresiones regulares pero no funciona todo el tiempo . (Si el texto en sí contiene [y ]la expresión regular no debería eliminarlos).

¿Hay mejores soluciones?

Pacerier
fuente
Esas son referencias que probablemente son importantes porque a menudo respaldan la credibilidad de la información que se presenta. Incluir referencias es útil, particularmente para los investigadores.
Randolf Richardson
@Randolf Incluir referencias puede ser útil, especialmente para los investigadores. no para seres normales que solo quieren la información
Pacerier
La función de búsqueda y reemplazo de su procesador de textos, posiblemente llamada desde una macro, podría ser útil aquí.
Keith
Por cierto, voté tu pregunta porque creo que es buena. Con respecto a las referencias, muchas personas esperan verlas, especialmente profesores en la universidad (si planeas asistir a uno, seguramente encontrarás que la mayoría de los profesores esperarán que se incluyan referencias en cualquier trabajo de investigación que escribas, y probablemente escuche a otros estudiantes hablar sobre referencias de vez en cuando).
Randolf Richardson
@Randolf quiero decir que solo quiero almacenar la información para su lectura y uso personal en el futuro.
Pacerier

Respuestas:

9

Un bookmarklet es tu amigo ...

Cree un nuevo marcador de navegador y copie el código de JavaScript a continuación: cuando desee copiar texto de wikipedia, simplemente haga clic de antemano y eliminará todas las instancias de [n] para cumplir con su requisito en la pregunta.

javascript:function a (){document.body.innerHTML=document.body.innerHTML.replace(/<sup\b[^>]*>(.*?)<\/sup>/gi, "" );return;}; a();

Detrás de escena, solo hace una búsqueda de expresiones regulares y reemplaza todas las <sup>...</sup>etiquetas HTML en la página.

Acabo de probar esto en IE7 y funciona bien, así que espero que también esté bien en otros navegadores.

Le daré crédito a este hilo SO por señalarme en la dirección correcta: sabía que un bookmarklet era el camino a seguir, pero nunca había escrito uno antes.

Stuart McLaughlin
fuente
1
+1, esta es la única forma en que puedo pensar en hacer esto. Incluso las extensiones adicionales del navegador tendrían que usar algún tipo de análisis Javascript para hacer esto (y de hecho la mayoría lo hace).
Avance el