Me gustaría negar el archive.is
acceso a mi sitio web. (No quiero que este sitio web almacene el mío en caché sin mi consentimiento).
¿Sabes si es posible?
fuente
Me gustaría negar el archive.is
acceso a mi sitio web. (No quiero que este sitio web almacene el mío en caché sin mi consentimiento).
¿Sabes si es posible?
Bueno. Este es nuevo (al menos para mí) y bastante interesante hasta ahora. No voy a entrar en la maleza en esto.
Cuando escribí esto, estaba trabajando en dormir poco o nada. Eché de menos algunas cosas que @unor ha señalado amablemente y, por lo tanto, debo moderar mi respuesta y dar crédito donde se debe. Gracias @unor!
Archive.is está registrado en Denis Petrov, que utiliza una cuenta de Google webhost en la dirección IP 104.196.7.222 [AS15169 GOOGLE - Google Inc.] de acuerdo con las Herramientas de dominio, aunque lo tengo en 46.17.100.191 [AS57043 HOSTKEY-AS HOSTKEY BV]. Es probable que la compañía anfitriona haya cambiado recientemente.
Archive.today también es propiedad de Denis Petrov y es similar a Archive.is si no es idéntico. A los efectos de esta respuesta, abordaré Archive.is y puede suponer que se aplica a Archive.today. Archive.today existe en otra dirección IP 78.108.190.21 [AS62160 GM-AS Sí Networks Unlimited Ltd]. Por favor, comprenda que Denis Petrov posee 70 dominios. Sin profundizar, es posible que haya más sitios de los que preocuparse. Proporcionaré un código de bloqueo para las tres direcciones IP.
Archive.is está dirigido por el usuario. Se supone que está archivando su propia página. Aparte de este escenario, Archive.is puede considerarse como un sitio de spam de contenido rascador.
Archive.is está caminando por una línea peligrosa. Está utilizando el contenido de otros sitios a través del raspado de una sola página. En última instancia, el potencial de búsqueda del contenido original está al menos diluido y potencialmente usurpado por completo. Peor aún, el sitio original no se cita como el creador del contenido. Archive.is usa una etiqueta canónica, pero está en su propio sitio / página.
Ejemplo: <link rel="canonical" href="http://archive.is/Eo267"/>
Esto, junto con la falta de controles sobre quién está enviando un sitio y si tienen derecho al sitio, la falta de información clara de eliminación y el mecanismo de contacto algo confuso y potencialmente débil, Archive.is tiene el potencial real. problema.
Puede encontrar más información sobre la dirección IP aquí: https://www.robtex.com/#!dns=archive.is
Usando Cisco Firewall.
access-list block-78-108-190-21-32 deny ip 78.108.190.21 0.0.0.0 any
permit ip any any
** Nota: Puede reemplazar el [nombre de acl proporcionado] con el nombre de ACL de su elección.
Usando Nginx.
Edite nginx.conf e inserte include blockips.conf; si no existe Edite blockips.conf y agregue lo siguiente:
deny 78.108.190.21/32;
Usando Linux IPTables Firewall. ** Nota: Usar con precaución.
/sbin/iptables -A INPUT -s 78.108.190.21/32 -j DROP
Uso del servidor web Microsoft IIS
<rule name="abort ip address block 78.108.190.21/32" stopProcessing="true">
<match url=".*" />
<conditions>
<add input="{REMOTE_ADDR}" pattern="^78\.108\.190\.21$" />
</conditions>
<action type="AbortRequest" />
</rule>
Usando Apache .htaccess.
RewriteCond %{REMOTE_ADDR} ^78\.108\.190\.21$ [NC]
RewriteRule .* - [F,L]
Usando Cisco Firewall.
access-list block-46-17-100-191-32 deny ip 46.17.100.191 0.0.0.0 any
permit ip any any
** Nota: Puede reemplazar el [nombre de acl proporcionado] con el nombre de ACL de su elección.
Usando Nginx.
Edite nginx.conf e inserte include blockips.conf; si no existe Edite blockips.conf y agregue lo siguiente:
deny 46.17.100.191/32;
Usando Linux IPTables Firewall. ** Nota: Usar con precaución.
/sbin/iptables -A INPUT -s 46.17.100.191/32 -j DROP
Uso del servidor web Microsoft IIS
<rule name="abort ip address block 46.17.100.191/32" stopProcessing="true">
<match url=".*" />
<conditions>
<add input="{REMOTE_ADDR}" pattern="^46\.17\.100\.191$" />
</conditions>
<action type="AbortRequest" />
</rule>
Usando Apache .htaccess.
RewriteCond %{REMOTE_ADDR} ^46\.17\.100\.191$ [NC]
RewriteRule .* - [F,L]
Usando Cisco Firewall.
access-list block-104-196-7-222-32 deny ip 104.196.7.222 0.0.0.0 any
permit ip any any
** Nota: Puede reemplazar el [nombre de acl proporcionado] con el nombre de ACL de su elección.
Usando Nginx.
Edite nginx.conf e inserte include blockips.conf; si no existe Edite blockips.conf y agregue lo siguiente:
deny 104.196.7.222/32;
Usando Linux IPTables Firewall. ** Nota: Usar con precaución.
/sbin/iptables -A INPUT -s 104.196.7.222/32 -j DROP
Uso del servidor web Microsoft IIS
<rule name="abort ip address block 104.196.7.222/32" stopProcessing="true">
<match url=".*" />
<conditions>
<add input="{REMOTE_ADDR}" pattern="^104\.196\.7\.222$" />
</conditions>
<action type="AbortRequest" />
</rule>
Usando Apache .htaccess.
RewriteCond %{REMOTE_ADDR} ^104\.196\.7\.222$ [NC]
RewriteRule .* - [F,L]
Es posible que deba bloquear más de una dirección IP de cualquier conjunto de código. Eso no está claro.
archive.org loses copyright lawsuit
no pareció mostrar artículos relevantes sobre fallos.robots.txt
Archive.is no utiliza un bot que rastree las páginas de forma autónoma (por ejemplo, siguiendo hipervínculos), por lo
robots.txt
que no se aplica, porque siempre es un usuario el que le da el comando de archivar una página determinada.Por la misma razón, servicios como Feedfetcher de Google ( ¿Por qué Feedfetcher no obedece mi archivo robots.txt? ) Y el Validador de W3C ( detalles ) no obedecen
robots.txt
.Consulte las preguntas frecuentes de archive.is: ¿Por qué archive.is no obedece a robots.txt?
meta
-robots
/X-Robots-Tag
No estoy seguro si archive.is debería (idealmente) honrar el valor
noindex
onoarchive
enmeta
-robots
/X-Robots-Tag
, o si estas tecnologías también se aplican solo a bots autónomos. Pero como archive.is no lo documenta, no parecen admitirlo actualmente.(FWIW, cada página archivada parece tener un
<meta name="robots" content="index,noarchive"/>
.)User-Agent
archive.is no documenta que
User-Agent
se use un determinado (probablemente no se identifiquen para obtener las páginas como si fueran vistas por un navegador habitual), por lo que no puede usarlo para bloquear su acceso en el nivel del servidor .Bloqueando sus direcciones IP
Por lo tanto, ya que ni
robots.txt
nimeta
-robots
/X-Robots-Tag
trabajo aquí, y no se puede bloquear ellos a través de suUser-Agent
, usted tendría que bloquear accesos desde archive.is IPs. Vea la respuesta de closetnoc sobre el bloqueo de IP , pero tenga en cuenta que esto podría bloquear más de lo previsto, y es posible que nunca capture todas sus IP (y / o se mantenga actualizado).Nota al margen: función de informe
Cada versión archivada se vincula a un formulario en el que puede informar sobre posibles abusos (anexar
/abuse
), por ejemplo, con los motivos "Problema SEO" o "Copyright". Pero no sé si o cómo manejan estos casos.fuente
Para bloquear las desagradables prácticas de robo de archive.is (ignorando el archivo robots.txt, anulando el enlace canónico, agente de usuario falso, no hay forma de realizar una eliminación en todo el sitio), quiero agregar lo siguiente a las soluciones anteriores.
Encuentra sus direcciones IP
Para encontrar sus direcciones IP, envíeles una url que esté bajo su control para que pueda monitorear los registros de su servidor web para ver quién accedió a esa url. La url ni siquiera tiene que existir, siempre que el servidor web reciba la solicitud. (Por lo tanto, es mejor usar una página / url vacía no existente). Por ejemplo, use una url como: http://example.com/fuck-you-archive.is
Luego revise sus registros para ver quién accedió a la URL. Puede usar grep para verificarlo:
Una vez que tenga la dirección IP, puede bloquearla utilizando las soluciones de las otras respuestas. Y luego repita el proceso nuevamente para encontrar otras direcciones IP que usan. Debe especificar una URL diferente, para que vuelvan a realizar una solicitud HTTP, por ejemplo, simplemente cambie http://example.com/fuck-you-archive.is a http://example.com/fuck-you- archive.is?2 etc.
En caso de que no desee exponer su sitio web cuando intente encontrar sus direcciones IP, puede utilizar este práctico sitio web de solicitud HTTP: https://requestb.in Los pasos a seguir son: crear un RequestBin> envíe el "BinURL" a Archive.is con "? SomeRandomNumber" adjunto a BinURL> use el "? inspeccionar" de RequestBin para monitorear la solicitud entrante de Archive.is y ver su dirección IP en el "Cf-Connecting-Ip "Encabezado HTTP. (Asegúrese de no enviar la url "? Inspeccionar" a Archive.is). Luego repita para buscar otras direcciones IP cambiando "? SomeRandomNumber" a otro número.
Bloquear sus direcciones ip
Tenga en cuenta que con las tablas IP puede bloquear usando
pero a menudo la cadena 'ENTRADA' se establece en una política 'DROP' con aceptación del tráfico HTTP. En ese caso, es posible que necesite usar una operación de anteponer (insertar) en lugar de la operación de agregar, de lo contrario no está bloqueado en absoluto:
Sin embargo, tienen muchas direcciones IP, por lo que puede ser más fácil bloquear rangos completos de IP. Puede hacerlo convenientemente con IPTables (sin la necesidad de especificar máscaras de subred) usando:
Este rango (46.166.139.110-46.166.139.180) es en gran parte propiedad de ellos, porque he visto múltiples direcciones entre 46.166.139.110 y 46.166.139.173.
Enviar una queja de abuso a su proveedor de alojamiento web
Actualmente están utilizando NFOrce como servidor web. Consulte https://www.nforce.com/abuse para saber cómo presentar una queja sobre Archive.is. Mencione: 1) la url de su página web que archive.is ha robado, 2) mencione la url en archive.is que contiene el contenido robado, y 3) mencione las direcciones IP que usaron.
También es posible que desee quejarse en Cloudflare, su CDN, que almacena en caché sus páginas e imágenes robadas por razones de rendimiento. https://www.cloudflare.com/abuse/
fuente
Como podemos ver, archive.is está utilizando DNS anycasting.
Si usa diferentes servidores de nombres (por ejemplo, de https://www.lifewire.com/free-and-public-dns-servers-2626062 ) actualmente (2018-09-10) obtiene diferentes direcciones IP para "archive.is" ( dig @NAMESERVER archive.is A)
Utilicé abuse-contacts.abusix.org ( https://www.abusix.com/contactdb ) para obtener los contactos de abuso para estas direcciones IP:
Como informó Cloudflare, archive.is está abusando de sus "servicios" al usar un registro A de DNS que no tiene funcionalidad.
fuente
También considere ponerse en contacto con los registradores en www.isnic.is, el registro de dominio de Islandia. isnic en isnic dot is
Islandia tiene derecho de autor y el Registro lo reconoce. El Registro existe desde fines de la década de 1980 y no está bajo ICANN.
fuente