¿Alguien sabe de un buen software de anonimato de datos? ¿O tal vez un paquete para R que hace anonimato de datos? Obviamente, no esperamos una anonimización indescifrable, solo quiero que sea difícil.
Advertencia: tenga en cuenta que puede ser muy difícil anonimizar los datos de una manera que impida la reidentificación (anonimización), sin perder gran parte del valor de los datos. Esta no es una situación en la que simplemente puedes lanzar un software sin pensarlo. Proteger el anonimato de las personas requiere una cuidadosa reflexión. Vea, por ejemplo, este documento para una exposición más cuidadosa de por qué esto no es trivial.
Un ejemplo de una historia de advertencia es el desafío de Netflix, donde un conjunto de datos aparentemente anonimizado en realidad estaba vinculado a la identidad de los usuarios de Netflix, o el lanzamiento de registros de búsqueda anónimos de AOL, muchos de los cuales (según descubrieron los investigadores) aún podrían vincularse individuos a través de análisis más sofisticados. Otro ejemplo es de Massachusetts, donde una comisión de seguros de salud divulgó datos sobre todos los empleados estatales, luego de anonimizarlos al eliminar nombres, direcciones, números de seguro social, etc. Sin embargo, un investigador de privacidad descubrió que aún era posible volver a identificar a las personas.y, como demostración, mostró cómo identificar los registros de salud del gobernador. Más tarde demostró, por ejemplo, que la mayoría de las personas pueden ser identificadas únicamente por su código postal (o censo), fecha de nacimiento y género. Estas fueron historias de personas que anonimizan diligentemente datos; pensaron que habían hecho un buen trabajo de anonimato, y simplemente no se dieron cuenta de lo difícil que es este problema. Estas historias de advertencia deberían darle pausa.
Por estas razones, te desaliento de que intentes anonimizar tu conjunto de datos por tu cuenta, si no tienes experiencia previa en esta área.
Importante: las técnicas necesarias para anonimizar los datos probablemente dependerán mucho del tipo de datos que tenga y del dominio de la aplicación en la que esté trabajando. Desafortunadamente, no proporcionó esta información. Como resultado, es casi imposible brindarle buenos consejos sobre cómo anonimizar su conjunto de datos.
Me imagino que puede ser tentador ver esta respuesta como inútil, porque en lugar de decir "sé feliz, no te preocupes, simplemente lanza esta pieza mágica de software a tus datos y no tienes que pensar", estoy diciendo " espera, esto es más complicado de lo que parece a primera vista, ten cuidado ". Me doy cuenta de que este mensaje puede no ser muy popular, pero creo que este es un mensaje que la gente necesita escuchar.
Un enfoque sería usar filtros Bloom. Visite el sitio web del proyecto SAFELINK para ver programas en Java y Python. El método de explicación en papel está aquí .
También hay un enfoque interesante para la anaonimización de cadenas en el contexto de la vinculación de registros utilizando n-gramos desarrollados por ANU Data Mining Group . El documento con la descripción y el código de Python de muestra está disponible aquí .
Respuestas:
El token de anonimización de Cornell es de código abierto. Su página de investigación tiene enlaces a publicaciones asociadas.
fuente
Advertencia: tenga en cuenta que puede ser muy difícil anonimizar los datos de una manera que impida la reidentificación (anonimización), sin perder gran parte del valor de los datos. Esta no es una situación en la que simplemente puedes lanzar un software sin pensarlo. Proteger el anonimato de las personas requiere una cuidadosa reflexión. Vea, por ejemplo, este documento para una exposición más cuidadosa de por qué esto no es trivial.
Un ejemplo de una historia de advertencia es el desafío de Netflix, donde un conjunto de datos aparentemente anonimizado en realidad estaba vinculado a la identidad de los usuarios de Netflix, o el lanzamiento de registros de búsqueda anónimos de AOL, muchos de los cuales (según descubrieron los investigadores) aún podrían vincularse individuos a través de análisis más sofisticados. Otro ejemplo es de Massachusetts, donde una comisión de seguros de salud divulgó datos sobre todos los empleados estatales, luego de anonimizarlos al eliminar nombres, direcciones, números de seguro social, etc. Sin embargo, un investigador de privacidad descubrió que aún era posible volver a identificar a las personas.y, como demostración, mostró cómo identificar los registros de salud del gobernador. Más tarde demostró, por ejemplo, que la mayoría de las personas pueden ser identificadas únicamente por su código postal (o censo), fecha de nacimiento y género. Estas fueron historias de personas que anonimizan diligentemente datos; pensaron que habían hecho un buen trabajo de anonimato, y simplemente no se dieron cuenta de lo difícil que es este problema. Estas historias de advertencia deberían darle pausa.
Por estas razones, te desaliento de que intentes anonimizar tu conjunto de datos por tu cuenta, si no tienes experiencia previa en esta área.
Importante: las técnicas necesarias para anonimizar los datos probablemente dependerán mucho del tipo de datos que tenga y del dominio de la aplicación en la que esté trabajando. Desafortunadamente, no proporcionó esta información. Como resultado, es casi imposible brindarle buenos consejos sobre cómo anonimizar su conjunto de datos.
Me imagino que puede ser tentador ver esta respuesta como inútil, porque en lugar de decir "sé feliz, no te preocupes, simplemente lanza esta pieza mágica de software a tus datos y no tienes que pensar", estoy diciendo " espera, esto es más complicado de lo que parece a primera vista, ten cuidado ". Me doy cuenta de que este mensaje puede no ser muy popular, pero creo que este es un mensaje que la gente necesita escuchar.
fuente
Eche un vistazo al paquete sdcMicro en CRAN. Uno de los autores también escribió un artículo describiendo más allá de la viñeta incluida.
fuente
Un enfoque sería usar filtros Bloom. Visite el sitio web del proyecto SAFELINK para ver programas en Java y Python. El método de explicación en papel está aquí .
También hay un enfoque interesante para la anaonimización de cadenas en el contexto de la vinculación de registros utilizando n-gramos desarrollados por ANU Data Mining Group . El documento con la descripción y el código de Python de muestra está disponible aquí .
fuente