Estaba rastreando mi carpeta de spam (lo cual rara vez hago, porque Gmail rara vez tiene falsos positivos) y noté algo interesante:
Algo así como más de la mitad de los mensajes tienen al menos un emoji animado en el asunto.
Ninguno de mis amigos usaría esa basura. Ninguna compañía válida con la que haría negocios lo haría nunca.
¿Cómo puedo crear un filtro para, quizás, eliminar automáticamente los mensajes con emoji animado en el asunto?
Utilizando la pista de jamesmstone a continuación, probé una búsqueda con subject:=?UTF-8?
y con subject:"=?UTF-8?"
varias otras permutaciones, pero ninguna funcionó.
Aquí hay un conjunto de encabezados de muestra de una de estas pilas de vapor:
Delivered-To: [redacted]@gmail.com
Received: by 10.107.28.200 with SMTP id c191csp1104992ioc;
Sun, 24 Jan 2016 19:07:16 -0800 (PST)
X-Received: by 10.107.38.5 with SMTP id m5mr15068933iom.15.1453691236564;
Sun, 24 Jan 2016 19:07:16 -0800 (PST)
Return-Path: <[email protected]>
Received: from mythirdxyz.xyz ([2a04:5b00:a2d0:3d74:37fd:ee71:efe6:6e11])
by mx.google.com with ESMTP id o10si8722554igw.41.2016.01.24.19.07.15
for <[redacted]@gmail.com>;
Sun, 24 Jan 2016 19:07:16 -0800 (PST)
Received-SPF: pass (google.com: domain of [email protected] designates 2a04:5b00:a2d0:3d74:37fd:ee71:efe6:6e11 as permitted sender) client-ip=2a04:5b00:a2d0:3d74:37fd:ee71:efe6:6e11;
Authentication-Results: mx.google.com;
spf=pass (google.com: domain of [email protected] designates 2a04:5b00:a2d0:3d74:37fd:ee71:efe6:6e11 as permitted sender) [email protected];
dkim=pass [email protected];
dmarc=pass (p=REJECT dis=NONE) header.from=mythirdxyz.xyz
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=mythirdxyz.xyz;
[email protected]; q=dns/txt; s=default; t=1453691229;
bh=GuM9JCP4yh7WfVbRBortR7UAr6DAtlgy0oTCna0iWQk=; h=MIME-Version :
Content-Type : Content-Transfer-Encoding : To : From : Subject : Date :
Message-ID : From : Subject : Date;
b=e/zS14UB4o5MhYlfbpsy0h2G/oZyoC5H3ouyhNh13zcSHSNXzI6uvJpIy9a+za2ng26Xe2
NfAI7nenAMCdHJSGF4yfmtTi3+XrR2MqQPHQ1fzTXGhRy/ktCj4tEqt7DhSxnRCqkYFUNaLA
wh3FMLr6IxPi2Z7xUXm3JBffhDcSU=
MIME-Version: 1.0
Content-Type: text/html; charset="utf-8"
Content-Transfer-Encoding: base64
To: [redacted]@gmail.com
From: "APPROVAL DEPARTMENT" <[email protected]>
Subject: =?utf-8?q?=F3=BE=93=A0_Personal_loan_as_soon_as_tomorrow_=F3=BE=93=A0?=
Date: Sun, 24 Jan 2016 19:07:09 -0800
Message-ID: <[email protected]>
gmail
gmail-filters
emoji
cerveza inglesa
fuente
fuente
goomoji
...Respuestas:
Respuesta corta
En lugar de usar los filtros de Gmail que dependen de la función de búsqueda de Gmail para buscar los emojis codificados en los mensajes originales, cree un script usando el método GmailMessage :: getRawContent () de Google Apps Script para procesar los mensajes.
Preguntas relacionadas
Los siguientes son enlaces a respuestas a preguntas similares en este sitio, incluidos los scripts que utilizan el método mencionado.
fuente
He creado un script de Google Apps para tales fines.
Está en Github: https://github.com/spamzero/spamzero
Le permite crear todo tipo de reglas avanzadas que puede comparar con su carpeta de mensajes de spam, por lo que los mensajes que definitivamente son spam se eliminarán automáticamente.
fuente
Esto no es exactamente lo que está pidiendo (filtrar los emojis en sí mismos en lugar de los mensajes con emojis), pero puede encontrar parte del contenido útil para crear un mejor filtro de mensajes.
Ahora hay un código de usuario de código abierto Greasemonkey / Tampermonkey / Violentmonkey para deshacerse de esas irritantes cucarachas visuales (solo los caracteres, no los mensajes en sí):
Asunto de Gmail Emoji Roach Motel
Mirando la fuente de ese script , verá que hay dos tipos generales de cucarachas emoji que encontrará en correos electrónicos de vendedores abusivos (lamentablemente, hoy en día, incluidos eBay y Amazon):
Cucarachas basadas en imágenes HTML (incluidas las horribles animadas), también conocido como goomoji
Cucarachas Unicode: Todavía hay muchos emoji (y otras secuencias Unicode que generan imágenes) que los spammers y otros vendedores antiguos comienzan a usar en las líneas de asunto del correo electrónico y que Gmail no convierte a imágenes HTML. En algunos navegadores, estos aparecen en negrita y color, lo cual es casi tan malo como la animación. Los navegadores también podrían elegir animarlos, pero no sé si alguno lo hace. El navegador muestra estas secuencias Unicode como texto Unicode, por lo que el aspecto exacto (color o no, animado o no, ...) depende del sistema de representación de texto que utilice el navegador. La apariencia de un emoji Unicode dado también depende de cualquier selector de variación Unicode y modificadores emojique aparecen cerca de él en la secuencia de puntos de código Unicode. A diferencia del spam emoji basado en imágenes, estas secuencias se pueden copiar y pegar fuera del navegador y en otras aplicaciones como texto Unicode.
Para este último tipo, el script de usuario incluye una expresión regular diseñada para capturar las secuencias Unicode que probablemente sean abusadas por los vendedores. La expresión regular se ve así en ES6 Javascript (el script de usuario traduce esto a una expresión regular previa a ES6 ampliamente compatible con el increíble ES6 Regex Transpiler ):
fuente