La AEPD ha publicado un documento destinado a entidades que realicen procesos de anonimización de datos.

En ese documento se establecen los límites en la eficacia de esos procesos de anonimización, si realmente esa información está anonimizada y de qué manera puede gestionarse el riesgo de reidentificación.

Actualmente se usan técnicas basadas en el Big data o la Inteligencia artificial para tratar datos de forma masiva. Y esto obliga a establecer unas garantías para proteger la privacidad de los titulares de esos datos. Una de esas garantías es la anonimización de los datos. Sin embargo, esos datos agrupados adecuadamente y cruzados con otras fuentes de información, puedan usarse para identificar a las personas. Es decir, existe un riesgo de que la anonimización pueda revertirse para reidentificar a una persona.

Para evitar ese riesgo la AEPD analiza una técnica llamada K-anonimidad, que permite analizar el riesgo de reidentificación que pueda existir sobre un conjunto de datos anonimizados.

Vamos a analizar esta técnica.

K-anonimidad como medida para garantizar la privacidad

Debido a que existe una interconexión entre fuentes de datos independientes y que estos pueden tener atributos comunes, puede crearse un rastro electrónico de las personas. Y, aunque esos datos estén anonimizados, podría llegar a identificarse a su titular, lo que supondría una amenaza para la privacidad.

El RGPD establece el principio de Responsabilidad proactiva, según el cuál el responsable del tratamiento debe analizar el riesgo que pueda existir de reidentificación de los interesados y adoptar las medidas necesarias para evitarlo.

Diferencia entre seudonimización y anonimización

Para saber si una persona es identificable deben tenerse en cuenta una serie de medios que el responsable del tratamiento pueda usar razonablemente para identificar a esa persona. En el caso de que ya no pueda identificarse a esa persona porque sus datos fueran anónimos, no se aplicarán los principios de protección de datos.

En el RGPD se indica que los datos personales seudonimizados suponen información sobre una determinada persona con la que es posible identificarla a través de medios y factores objetivos. Es decir, con la seudonimización puede identificarse a una persona pero con la anonimización la identidad de esa persona no debería poder averiguarse.

Actualmente es muy difícil lograr una anonimización total que garantice que esa persona no va a poder identificarse.

Los datos personales son aquellos que se vinculan inequívocamente a una persona, como el DNI, pasaporte, nombre completo o número de Seguridad Social. Estos datos se conocen como identificadores y, a través de la anonimización, se disocian del resto de datos genéricos vinculados a esa persona, como su domicilio, género o fecha de nacimiento.

Con ese proceso de anonimización se mantendría el anonimato de la persona pero, si esos datos se agrupan o se cruzan con otras fuentes de información, podría llegarse a identificar a la persona titular de los mismos. Es decir, podría revertirse esa anonimización.

Para evitar esa reversión del proceso de anonimización se ha desarrollado una técnica llamada Control de Revelación Estadística o técnicas SDC. El fin de esta técnica es analizar la forma en la que puede realizarse un tratamiento adicional de los datos personales garantizando la privacidad a la vez que se tratan dichos datos para la finalidad prevista.

¿Qué es la K-anonimidad?

La K-anonimidad es una cualidad que tienen los datos anonimizados por la que es posible determinar hasta dónde se va a garantizar el anonimato de los sujetos sobre los que se han eliminado sus datos identificadores. A través de ella podemos analizar el riesgos existente de que terceros puedan acceder a información personal a través de datos anonimizados.

Existen los siguientes tipos de datos según la información que contienen:

  • Identificadores: los que identifican inequívocamente a una persona (DNI, nombre, pasaporte, etc.). Estos datos deben suprimirse de los registros anonimizados.
  • Cuasi-identificadores: son aquellos que aisladamente no identifican a una persona pero agrupados con otros pueden llegar a identificarla. Con las técnicas de anonimización deben eliminarse este tipo de datos que no sean necesarios para el tratamiento.
  • Atributos sensibles: son los datos que tienen un mayor impacto para la privacidad de la persona como los datos especialmente protegidos (datos de salud, bancarios, etc.). Esta información puede ser importante para el tratamiento pero se mantendrá disociada de la persona concreta, salvo que exista legitimación para asociarlo.

La K-anonimidad está centrada en los datos cuasi-identificadores que pueden posibilitar la vinculación.

Sobre los valores de K en un conjunto de datos anonimizados podemos extraer las siguientes conclusiones:

  • Es importante que los valores de K sean altos porque así, una vez localizado un sujeto incluido en varias fuentes de información y que tiene asociados determinados datos, sea imposible vincular esos datos para averiguar otro dato sensible asociado a ese sujeto.
  • Si existe 1-anonimidad supone que esa persona es perfectamente identificable dentro de su grupo.

Por tanto, ¿qué valor de K es el adecuado?

Cuanto mayor sea el valor de K mayor garantía de privacidad existirá para los sujetos ya que se necesitarán más sujetos dentro de un grupo que cumplan la misma combinación de rasgos identificativos.

Métodos de K-anonimización

Existen principalmente dos métodos usados en la K-anonimización: la generalización y la eliminación.

Estos métodos no producen perturbación en los datos ya que sustituyen los valores originales de los datos por otros valores generales pero sin incluir información errónea.

Veamos cada uno de ellos.

Generalización

Con este método el valor de los datos cuasi-identificadores se hace menos preciso, se generalizan en un conjunto que comparte los mismos valores. De esta forma el número de registros que tienen los mismos valores para un conjunto de datos cuasi-identificadores se incrementa para garantizar la privacidad cumpliendo la finalidad del tratamiento.

Por ejemplo, el dato de la edad puede indicarse dentro de un rango numérico o el código postal dentro de una jerarquía.

La generalización puede ser global, si dado un mismo valor para un mismo tipo de dato siempre se realiza la transformación de la misma manera, o local si se utilizan criterios de generalización diferentes para cada registro.

La generalización global hace más sencillo el análisis de los datos y la local lo hace más complicado.

Eliminación

Este método consiste en eliminar aquellos registros que pueden contaminar el conjunto de datos y distorsionar los resultados. Los registros que tengan valores poco comunes deben también suprimirse puesto que incrementan considerablemente la posibilidad de reidentificar a una persona.

Limitaciones de la K-anonimización

Realizar un proceso de anonimización basándonos en técnicas de eliminación supone la supresión de un importante número de registros del conjunto de datos, lo que puede provocar una distorsión del resultado de los análisis.

Por otra parte, si utilizamos la técnica de la generalización podemos desaprovechar el potencial informativo de los datos y con ello se perderá capacidad para extraer las conclusiones sobre el valor de esos datos en el conjunto.

Lo que hay detrás de esos procesos de anonimización son problemas matemáticos. Existen diferentes algoritmos para alcanzar una solución y sobre ellos se crean diferentes soluciones software, tanto abiertas como comerciales, que permiten K-anonimizar el conjunto de datos que se les introduce como entrada.

Algunas de las principales herramientas que permiten implementar las técnicas de K-anonimidad son:

  • ARX Data Anonymization Tool: se trata de una herramienta de código abierto con la que puede transformarse un conjunto estructurado de datos personales usando distintos sistemas de anonimización. Con esta herramienta es posible suprimir datos identificadores directos y aplicar reglas a los datos cuasi-identificadores para reducir las posibilidades de vinculación. Puede manejar enormes cantidades de datos.
  • UTD: es una herramienta de código abierto creada en el UT Dallas Data Security y Privacy Lab a través de la que pueden aplicarse varios métodos de anonimización. Los algoritmos pueden utilizarse directamente sobre un conjunto de datos o a través de librerías de funciones incluidas en otras aplicaciones.
  • Amnesia: con esta herramienta puede eliminarse información asociada a identificadores directos y transformar datos cuasi-identificadores para reducir los riesgos de reidentificación de las personas.

Conclusión

El responsable del tratamiento tiene la obligación de garantizar la privacidad de los sujetos de los que trata datos. Disfrazar o eliminar los datos identificativos es considerado por algunas entidades como suficiente para garantizar el anonimato de los sujetos. Sin embargo, es posible que datos comunes presentes en diferentes fuentes de datos, convenientemente agrupados y cruzados, se conviertan en un atributo cuasi-identificador que llegue a poner en riesgo la privacidad de las personas.

Por lo tanto, la anonimización no puede limitarse a la simple aplicación rutinaria y pasiva de determinadas reglas de uso común si no que, en aplicación del principio de accountability, el responsable del tratamiento debe analizar los riesgos de reidentificación en sus procesos de anonimización. Y debe escoger adecuadamente el tipo de atributos cuasi-identificadores utilizados con el objetivo de reducir la probabilidad de que el cruce de dichos campos con otros contenidos en fuentes de datos externas pueda representar un riesgo para los derechos y libertades de los individuos sujetos de su tratamiento.

Para ello, durante las fases de concepción y diseño de un tratamiento de datos de carácter personal, se ha de realizar un análisis del grado de fidelidad necesario en el resultado del tratamiento para determinar, de forma precisa, los márgenes adecuados de generalización y eliminación, dentro de límites razonables que impidan la distorsión de la realidad.

Igualmente, hay que hacer un análisis y correcto balance entre los riesgos para los derechos y libertades de los ciudadanos y los beneficios legítimos y para la sociedad que conlleva la realización de dicho tratamiento con un determinado grado de precisión.

A partir de ambos análisis, debe lograrse un equilibrio entre el beneficio que obtenido para la sociedad por la realización de un tratamiento con un grado de fidelidad determinado y el coste que supone dicho tratamiento para los derechos y libertades de los titulares de los datos.

Escribe aquí tu comentario

Deja un comentario

Las siguientes reglas del RGPD deben leerse y aceptarse:
Este formulario recopila tu nombre, correo electrónico y contenido para que podamos realizar un seguimiento de los comentarios dejados en la web. Para más información revisa nuestra política de privacidad, donde encontrarás más información sobre dónde, cómo y por qué almacenamos tus datos.