Me sorprendería mucho si hubiera una herramienta genérica para esto: ¿cómo podría "saber" qué es información confidencial y qué no? Por ejemplo, necesitaría examinar todos sus datos y reconocer todos los formatos posibles de número de tarjeta de crédito, número de teléfono, código postal, dirección de correo electrónico y cualquier otro dato que se considere confidencial. También debería ser inteligente acerca de su esquema, por ejemplo, si reescribe todas las direcciones de correo electrónico de los clientes a "[email protected]", o cualquier parte de su base de datos, aplicaciones u otras herramientas asume que la dirección de correo electrónico de un cliente (o SSN o lo que sea) es único? ¿O tiene alguna parte de la aplicación que suma números de tarjeta de crédito, que se rompería si los restablece a 0000 0000 0000 0000? ¿O su sistema de telefonía supone que un cliente '
Básicamente, configurar cualquier herramienta para hacerlo será mucho o más trabajo que simplemente escribir su propio script, utilizando su conocimiento de la aplicación. En mi sitio, simplemente establecimos la política de que cualquier persona que agregue una columna con dichos datos actualiza el script para anonimizarlo al mismo tiempo, después de una auditoría inicial para encontrar todas esas columnas y escribir la versión 1.
Si su base de datos es pequeña, tiene un modelo de datos simple y es bien entendido por los DBA actuales, la secuencia de comandos "podría" ser la respuesta. Sin embargo, el esfuerzo (y el costo) para analizar y enmascarar manualmente las bases de datos típicas puede salirse de control con bastante rapidez a medida que cambian los requisitos, se agrega funcionalidad y los desarrolladores / DBA van y vienen.
Si bien no conozco ningún producto de enmascaramiento de datos de código abierto, hay ofertas comerciales disponibles que son razonablemente completas, relativamente fáciles de usar y pueden ser sorprendentemente razonables en cuanto a costos. Muchos de ellos incluyen la capacidad de descubrimiento lista para usar para identificar y clasificar datos confidenciales (SSN, tarjetas de crédito, números de teléfono), así como la funcionalidad para mantener las sumas de verificación, el formato de la dirección de correo electrónico, la agrupación de datos, etc. para que los datos enmascarados se ve y se siente real.
Pero no tienes que tomar mi palabra (ciertamente sesgada) por eso. Pregunte a los analistas de la industria, como Gartner o Forrester, que tienen una serie de informes imparciales sobre el enmascaramiento que pueden ayudar.
Esperemos que estos comentarios lo animen a considerar la exploración de productos comerciales, así como el desarrollo interno de scripts. Al final del día, lo más importante es proteger los datos confidenciales que muchos de nosotros vemos día a día y que realmente no necesitamos ver para hacer nuestro trabajo: ponernos a nosotros y a las personas cuyo personal datos que tenemos en riesgo.
Kevin Hillier, Especialista Senior de Integración, Camouflage Software Inc.
fuente
Nunca he visto un elemento así, pero después de haber trabajado con algunos conjuntos de datos confidenciales en mi tiempo, lo principal que debe codificarse es la identidad de las personas o la información de identificación personal. Esto solo debería aparecer en algunos lugares de la base de datos.
Su operación de enmascaramiento debe conservar las propiedades estadísticas y las relaciones de los datos, y probablemente necesite conservar los códigos de referencia reales (o al menos algún tipo de mecanismo de traducción controlado) para que pueda conciliarlos con los datos reales.
Este tipo de cosas se pueden lograr obteniendo una lista distinta de los nombres en los campos y reemplazándola con algo como FirstNameXXXX (donde XXXX es un número de secuencia, uno para cada valor distinto). Es muy probable que los números de tarjetas de crédito e información similar que podrían usarse para el robo de identidad sean un no-no en un entorno de desarrollo, pero solo necesita números reales si está probando sistemas de procesamiento de pagos; por lo general, el proveedor le dará códigos especiales para cuentas ficticias.
No es particularmente difícil escribir procedimientos de anonimato de este tipo, pero deberá acordar exactamente qué debe anonimizarse con el negocio. Si es necesario, revise la base de datos campo por campo. Preguntar sí / no te dará falsos positivos que no quieres. Pídale al representante de negocios que le explique por qué, o las consecuencias o implicaciones regulatorias de no anonimizar datos particulares.
fuente
Tuve la misma tarea hace unas semanas. evaluamos algunos sistemas de software, pero la mayoría de ellos son solo para exactamente un tipo de base de datos, por ejemplo, Oracle y a menudo son muy complicados de usar ... así que no es la mejor cosa para evaluar esto. Nos llevó semanas.
Decidimos comprar la versión profesional de la suite de enmascaramiento de datos, ya que era la más fácil de usar. También tiene buenas posibilidades para enmascarar datos, por ejemplo, puede cambiar las direcciones de correo electrónico a otras de aspecto real, por ejemplo ... @ siemens.com a [email protected].
Puede probarlo gratis para aproximadamente 500 (?) Registros, por lo que recuerdo.
Aquí está el enlace http://www.data-masking-tool.com/
fuente
Mi forma de hacer esto:
column to be masked
))fuente
Decidí por primera vez este camino hace varios años y desde entonces he creado una consultoría basada en esta práctica.
Supongo que el propósito es acumular datos de prueba para su uso en entornos de prueba donde las personas que acceden a los datos no tienen derechos para ver la información de producción.
Lo primero que debe establecer es exactamente qué elementos de datos necesita enmascarar y para hacer eso es mejor comenzar con una herramienta de descubrimiento de datos como Schema Spy (código abierto) y necesitará el controlador jdbc relevante para esta tarea, pero Es un paso muy útil en el proceso.
Talend Open Studio es una de las mejores herramientas que he utilizado en los últimos años para realizar algunas de las funciones de ETL y también podrá realizar algunas prácticas básicas de enmascaramiento reemplazando valores aleatorios o. Buscar / reemplazar, para mantener la coherencia, utilizando el componente de mapa.
Pero si está buscando una herramienta de enmascaramiento de datos real, no he encontrado una herramienta de código abierto adecuada. Si tiene un presupuesto muy moderado para herramientas, sugeriría Data Masker, pero deberá importar y exportar a través de MS SQL u Oracle, ya que solo se conecta a través de esos protocolos.
Consulte http://www.datakitchen.com.au/2012-08-14-15-04-20/data-masking/data-masker-toolset para obtener información sobre el enmascaramiento de datos, la metodología de enmascaramiento de datos, el descubrimiento de datos y los datos de prueba administración. También hay un blog útil en http://www.dataobfuscation.com.au
fuente
Hay una herramienta disponible en el mercado de Informatica que se llama Informatica ILM (TDM). Esto usa PowerCenter como un backone para ETL y datos de máscara con diferentes opciones de enmascaramiento disponibles. Aunque necesita un analista de datos o una PYME que pueda entender cómo se deben enmascarar los datos. La herramienta en sí no proporciona información sobre qué campos deben enmascararse, sin embargo, existe un algoritmo interno o procedimiento o proceso para identificar campos de datos sensibles, como Nombre, columnas de identificación con número, tarjeta de crédito, número de SSN, número de cuenta, etc.
fuente
Este año tengo la oportunidad de trabajar con IBM Optim que dice hacer lo que se le pide. No es gratis, pero funciona bien.
fuente
El que más me gusta es IRI FieldShield ( https://www.iri.com/products/fieldshield ) en términos de versatilidad (la mayoría de las funciones de enmascaramiento de datos), velocidad (motor CoSort para el movimiento de datos en el interior) y ergonomía (trabajos simples de 4GL compatible en su Eclipse GUI con toneladas de DB y conexiones de archivos). En cuanto al precio, es aproximadamente la mitad de IBM e Informatica, aunque también está disponible en un conjunto de integración de datos más grande para la transformación, migración y BI de datos 'grandes'. Por lo tanto, tampoco es gratuito, pero usa algo de código abierto (el IDE, y puede usar OpenSSL y GPG) y los scripts se ejecutan en Windows, Linux y otros sabores de Unix.
fuente