Los datos como el nuevo petróleo

EstebanConcia
21 min readMar 24, 2024

Pero la energía la ponen los usuarios con sus me gusta mientras lo aprovechan las BigTech.

Traducción de la primera parte del libro “Redes de control: informe sobre vigilancia corporativa, seguimiento digital, big data y privacidad”

“Sentimos que todos los datos son datos crediticios, pero aún no sabemos cómo utilizarlos

Douglas Merrill, ex director de información de Google

“El big data es el nuevo plutonio. En su estado natural se filtra, contamina,
daños. Contenido y aprovechado de forma segura, puede impulsar una ciudad”

Robert Kirkpatrick, Director Pulso Global de las Naciones Unidas

Big Data y predicción de comportamiento con estadística y minería de datos

En el curso de la digitalización, la capacidad de almacenamiento y de computación se ha multiplicado enormemente.
Desde el cambio de milenio, los datos se almacenan, procesan y analizan a un nivel mucho más alto como nunca antes. En el debate público, el término Big Data a menudo se refiere al procesamiento de estas grandes cantidades de datos, a veces también se refiere a métodos de análisis y
predicción y, a veces, incluso a áreas de aplicación.

No existe una definición establecida, se ha calificado de término de manera vaga, que a menudo se utiliza como palabra de moda.

Según una definición que se remonta a un informe del Instituto META (2001), que se ha popularizado durante los últimos años, el término “Grande” se refiere a las tres dimensiones
volumen (el tamaño creciente de los datos), velocidad (la tasa creciente a la que se producen y son transmitidos) y la variedad (la creciente gama de formatos y representaciones empleados).

La empresa consultora McKinsey utiliza un término “intencionalmente subjetivo” definición, afirmando que Big Data “se refiere a conjuntos de datos cuyo tamaño está más allá de la capacidad de herramientas típicas de software de bases de datos para capturar, almacenar, gestionar y analizar”.

La talla de los conjuntos de datos que podrían denominarse Big Data podrían “variar según el sector, dependiendo de qué tipos de herramientas de software están comúnmente disponibles y qué tamaños de conjuntos de datos son comunes en una industria particular”
El procesamiento de grandes cantidades de datos digitales se ha vuelto común en muchos campos, desde campos científicos como la meteorología, la genómica, la física y la astronomía a muchos sectores de la empresas, mercados financieros, industria y gobierno. Se generan datos masivos y procesados ​​en informes financieros, telecomunicaciones, búsquedas web, redes sociales y vigilancia gubernamental, así como por redes de sensores en plantas de fabricación o aviones.

Cada segundo, todos los dispositivos, desde teléfonos inteligentes hasta máquinas industriales, al generar datos de sensores, las aplicaciones de software generan archivos de registro y los usuarios de Internet
están generando flujos de clics (ver Krishnan 2013).

Pero Big Data no se trata sólo de volumen, velocidad y variedad.

Según Mayer Schönberger y Cukier (2013, p. 2 y ss.) se trata de “aplicar las matemáticas a enormes cantidades de datos para inferir probabilidades”, convierte los números exactos en “algo más probabilístico que preciso”, y provoca tres cambios importantes:

x Hoy en día es posible “analizar grandes cantidades de datos sobre un tema en lugar de verse obligado a hacerlo”.
conformarse con conjuntos más pequeños”
x La “voluntad de aceptar el desorden de los datos en el mundo real en lugar de los privilegios”
exactitud”
x Un “creciente respeto por las correlaciones en lugar de una búsqueda continua de causalidades esquivas”

Las correlaciones estadísticas describen la “relación que existe entre fenómenos o cosas o entre variables matemáticas o estadísticas que tienden a variar, asociarse o ocurrir, juntos de una manera que no se esperaba basándose únicamente en el azar”.

Pero “la correlación no implican causalidad”. Si se encuentra una correlación estadística entre dos variables y se supone que es una relación causal por error, se denomina correlación espuria.
La sociedad puede beneficiarse de las tecnologías y prácticas conocidas como Big Data en muchos campos, a menudo sin el uso de datos personales. Sin embargo, también se ha vuelto común
empresas a utilizar métodos estadísticos para analizar grandes cantidades de datos muy personales.

Información: reconocer patrones y relaciones, perfilar, calificar y juzgar a las personas y predecir su comportamiento futuro.

Las tecnologías utilizadas se resumen en el término “minería de datos”. Sus resultados y resultados no tienen que ser completamente precisos en
todos los casos. Se acepta cierta confusión. Se trata de probabilidades.
En el contexto de la vigilancia corporativa, la minería de datos es, según estudios de vigilancia académico Oscar H. Gandy (2006, p. 364), un proceso para transformar “datos en bruto en información
que puede utilizarse como inteligencia estratégica” para los objetivos de una organización.

Está “dirigido hacia la identificación de marcadores de comportamiento y estatus que sirvan como indicadores confiables de un futuro probable”. Las empresas que analizan los datos de los clientes se centran en identificar los más clientes valiosos, las mejores perspectivas y minimizar el riesgo.

Del mismo modo, desde una empresa desde esta perspectiva, la minería de datos se ha definido como el “proceso de analizar datos de diferentes
perspectivas y resumirlas en información útil, información que se puede utilizar en para aumentar los ingresos, reducir los costos, o ambas cosas”.

En un sentido técnico, la minería de datos es la tarea de “descubrir patrones interesantes a partir de grandes cantidades de datos”, basado en métodos de estadística, reconocimiento de patrones y aprendizaje — por ejemplo, análisis de conglomerados, clasificación, análisis de asociación y análisis social, análisis de red (ver Han et al 2011).

Aunque los términos minería de datos y predicción se utilizan a menudo como sinónimos en los medios y en los debates públicos, una estructura estructurada.
Koh Hian y Chan Kin Leong han sugerido la clasificación de los métodos de extracción de datos (2011, pág. 4). Según ellos, los métodos de minería de datos se clasifican según el propósito al que sirven:

x Métodos de descripción y visualización.
x Métodos de asociación y agrupamiento.
x Métodos de clasificación y estimación (predicción)

Análisis predictivo basado en datos personales: ejemplos seleccionados
La siguiente sección explorará las posibilidades de derivar información confidencial sobre la vida de las personas a partir de registros digitales que en la superficie no parecen contener mucha información
información y arrojar luz sobre la información que se puede inferir de los datos transaccionales como compras, llamadas, mensajes, me gusta y búsquedas.

La selección de métodos de análisis resumidos en los siguientes capítulos muestra que la situación actual
Los datos rastreados digitalmente permiten a las empresas predecir muchos aspectos de la vida de una persona.
personalidad, así como atributos personales sensibles.

Aunque estos métodos se basan sobre correlaciones estadísticas y probabilidades, sus resultados y conclusiones son considerado lo suficientemente bueno como para ordenar, calificar y categorizar automáticamente a las personas.
Después de un breve resumen del análisis predictivo frecuentemente citado realizado por los EE.UU. cadena de supermercados Target se están realizando varios estudios académicos sobre análisis predictivo.
revisado.

Algunos de estos estudios se realizaron en parte en colaboración con empresas. como Nokia, Microsoft y Facebook. Sin embargo, la mayoría de estos análisis y las aplicaciones prácticas las realizan empresas que no publican detalles sobre sus aplicación práctica de la analítica predictiva.

El ejemplo de “Target”: predecir el embarazo a partir del comportamiento de compra
Uno de los ejemplos más citados sobre la predicción de información sensible basada en análisis de datos digitales cotidianos es el caso de la cadena de supermercados estadounidense Target y sus
Intentar identificar a las clientas embarazadas en función de su comportamiento de compra. Como carlos Duhigg informó en el New York Times12 y en su libro “The Power of Habit” (Duhigg
2012), Target asigna un código único a todos sus clientes. Todas las compras e interacciones se registran, independientemente de si las personas pagan con tarjeta de crédito, mediante un cupón, completar una encuesta, enviar un reembolso por correo, llamar a la línea de atención al cliente, abrir un correo electrónico de ellos o visitando su sitio web. Además, Target compra información adicional sobre clientes de corredores de datos.
Duhigg habló extensamente con un estadístico de Target, cuyo análisis de marketing tenía la tarea de analizar el comportamiento de los clientes y encontrar formas de aumentar los ingresos. El estadístico informó que una de las tareas más sencillas era identificar padres con hijos y enviarles catálogos con juguetes antes de Navidad. Otro ejemplo que dio fue la identificación de clientes que compraron trajes de baño en abril y para
envíeles cupones para protector solar en julio y libros para bajar de peso en diciembre.

Pero el principal desafío fue identificar aquellos momentos importantes en la vida de los consumidores cuando sus compras, y el comportamiento se vuelve “flexible” y el anuncio o cupón correcto sería efectivo en
haciendo que comiencen a comprar de nuevas maneras por ejemplo, graduación universitaria, matrimonio, divorcio o cambio de casa. Según un investigador citado por Duhigg, específicos anuncios enviados exactamente en el momento adecuado podrían cambiar la forma de comprar de un cliente, comportamiento durante años.

Uno de los momentos más lucrativos sería el nacimiento de un niño. Los hábitos de compra, los nuevos padres serían más flexibles que en cualquier otro momento de sus vidas.
Según el estadístico de Target, identificaron 25 productos que eran importantes para crear una puntuación denominada de “predicción de embarazo” e incluso podría estimar la fecha de nacimiento.
Es importante entender que no se limitaron a mirar las compras de ropa de bebé o buggies, lo cual sería obvio. En cambio, analizaron patrones estadísticos sobre personas que compran ciertas cantidades de lociones, jabones, desinfectantes para manos, algodón pelotas, toallitas o suplementos nutricionales en momentos precisos.
Cuando se identificaba a las mujeres embarazadas recibían distintos tipos de atención personalizada, anuncios, cupones u otros incentivos en etapas específicas de su embarazo.

Duhigg también informó que un padre se acercó a Target y los acusó de alentar a su hija quedara embarazada, porque le enviaron cupones para ropa de bebé.
Para sorpresa del padre resultó que la niña efectivamente estaba embarazada y no le contó nada.

Independientemente de si esta anécdota es cierta, la investigación de Duhigg sobre Target se convirtió en una de los ejemplos más destacados de cómo las empresas actuales recopilan y analizan datos personales para influir en el comportamiento de sus clientes a nivel individual.

Predicción de atributos personales sensibles a partir de los Me gusta de Facebook

Un estudio realizado en la Universidad de Cambridge demostró que es posible determinar con precisión predecir el origen étnico, las opiniones religiosas y políticas, el estado civil, el género, la sexualidad
orientación, así como el consumo de alcohol, cigarrillos y drogas de una persona en función de análisis de los Me gusta de Facebook (ver Kosinski et al 2013).
El análisis se basó en datos de 58,466 usuarios de Estados Unidos, que participaron en encuestas y proporcionaron voluntariamente información demográfica a través de una aplicación específica de Facebook llamada myPersonality

Esta aplicación también analizó lo que les “gustaba” en Facebook, es decir, sus asociaciones positivas con temas populares.
sitios web u otro contenido en áreas como productos, deportes, músicos y libros.
Los investigadores pudieron predecir automáticamente atributos personales sensibles de manera efectiva, con bastante precisión, basándose únicamente en un promedio de 170 Me gusta por usuario de Facebook:

Esto muestra que, por ejemplo, el 88% de los participantes que se declararon homosexuales cuando proporcionaron sus datos demográficos fueron correctamente clasificados como homosexuales por el análisis basado en Solo me gusta en Facebook.

Los investigadores utilizaron el método estadístico de regresión logística para predecir estas variables dicotómicas (por ejemplo, sí/no) anteriores. Además, también utilizaron lineal regresión para predecir variables numéricas como la edad, que se predijo correctamente para
75% de los participantes. Como explican los investigadores, sólo “unos pocos usuarios estaban asociados con Le gusta revelar explícitamente sus atributos”. Por ejemplo, “menos del 5% de los usuarios etiquetados como
Los homosexuales estaban conectados con grupos explícitamente homosexuales” como “Being Gay”, “Gay Marriage” o “I
Me encanta ser gay”.

Las predicciones se basan en Me gusta menos obvios, pero más populares, como “Britney Spears” o “Mujeres desesperadas”, que resultaron ser indicadores débiles de ser gay. Es notable que incluso la pregunta de si los padres del usuario se han quedado juntos después de que este usuario cumpliera 21 años se predijo correctamente con una precisión del 60%.
Este estudio muestra que los atributos personales sensibles, que generalmente se consideran más bien
privado, puede inferirse de forma automática y precisa a partir de información bastante básica sobre
comportamiento en línea. Según Kosinski et al, los Me gusta de Facebook representan un tipo muy genérico de registros digitales sobre los usuarios, similares a búsquedas web, historiales de navegación y crédito
transacciones con tarjeta. Por ejemplo, los Me gusta de Facebook relacionados con música y artistas son muy similar a los datos sobre canciones escuchadas o artistas buscados en línea. Sin embargo, en comparación con las búsquedas web y las compras, los Me gusta de los usuarios de Facebook son accesibles públicamente de forma predeterminada.

El modelo de personalidad de cinco factores, también conocido como modelo de los Cinco Grandes, es uno de los principales modelos de psicología de la personalidad. Ha sido objeto de casi 2.000
publicaciones solo entre 1999 y 2006.1 Muchos estudios han demostrado su
reproducibilidad y consistencia entre diferentes grupos de edad y cultura.1 El modelo se utiliza regularmente en el contexto de la predicción de las características del usuario basándose en datos digitales.
Según el modelo de los “Cinco Grandes”, cada persona puede ser calificada según cinco dimensiones:

Un estudio suizo en colaboración con Nokia Research demostró que estos “Cinco Grandes”
Los rasgos de personalidad se pueden predecir basándose en los metadatos de los teléfonos inteligentes con una precisión de hasta
al 75,9% (ver Chittaranjan et al 2011). Al principio se pidió a 83 personas que evaluaran ellos mismos mediante un cuestionario. En segundo lugar, se realizó un seguimiento de su comportamiento comunicativo.
utilizando un software especial instalado en sus teléfonos durante 8 meses. Por ejemplo, el siguiente
Se registraron datos:

Chittaranjan et al. registrados “datos que proporcionan información sobre otros datos”, también conocidos como metadatos, no como contenidos de la comunicación.

Aplicación de regresión múltiple

Las siguientes correlaciones estadísticas significativas entre los metadatos de los teléfonos inteligentes
y se detectaron rasgos de personalidad (en lugar de “neuroticismo”, se detectó la variante invertida
Se utilizó “estabilidad emocional”):

la probabilidad de ciertos rasgos de personalidad basándose en datos sobre
uso de teléfonos inteligentes. Por ejemplo, los participantes que recibieron un mayor número de llamadas fueron
más propensos a ser agradables (r = 0,20) y emocionalmente estables (r = 0,15). A diferencia de, los participantes que usaron más la aplicación de Office tenían menos probabilidades de estar abiertos a nuevas experiencias.
(r=-0,26). Las relaciones con un coeficiente de correlación < 0,5 son débiles pero aún existen. Además, un modo de aprendizaje automático con la metada de los teléfonos

Aunque se utilizó un esquema de clasificación binaria, que sólo permite clasificar a los individuos calificado como bajo o alto en una de las cinco dimensiones, esto muestra que es posible
inferir el tipo de personalidad de los usuarios basándose en el uso del teléfono con hasta un 75,9% de precisión,
lo cual está significativamente por encima del azar.
Los investigadores del MIT, Harvard y ENS Lyon se limitaron aún más y sólo utilizaron
los llamados registros de datos de llamadas (CDR),24 que todos los operadores mantienen sobre sus clientes:
los mismos registros a los que acceden los gobiernos para “retener datos”25. Su estudio (ver
Montjoye et al 2013) se basó tanto en cuestionarios como en registros de teléfonos móviles de 69
participantes en Estados Unidos. Los datos se registraron durante 14 meses con software.

Un estudio más reciente de 2015 sugiere que los juicios de personalidad basados ​​en computadora podrían
ser incluso más precisos que los fabricados por humanos (ver Youyou et al 2015). De nuevo,
El análisis se basó en datos obtenidos a través de la aplicación de Facebook “myPersonality”. Y,
Nuevamente participaron los investigadores Michal Kosinski y David Stillwell. Ellos compararon
la “precisión de los juicios de personalidad humanos y basados ​​​​en computadoras” utilizando los resultados de
cuestionarios de 17.622 participantes y datos sobre Me gusta en Facebook de 86.220
Participantes. Sus predicciones automatizadas sobre la personalidad basadas en los Me gusta de Facebook (r =
0,56) fueron más precisos que los de las personas que son amigos de Facebook del participante.
y rellenó un cuestionario (r = 0,49). Si bien los juicios de los individuos considerados
como “cónyuge” (r = 0,58) fueron más exactos que los modelos informáticos, las respuestas de
Los participantes considerados “familiares” (r = 0,50) también fueron menos precisos que las predicciones.
de las máquinas.
Además de los rasgos de personalidad de los “Cinco Grandes”, Montjoye et al examinaron más a fondo “13 rasgos de vida
resultados y rasgos que previamente se ha demostrado que están relacionados con la personalidad”, como la vida
satisfacción, impulsividad, depresión, interés sensacionalista, orientación política,
consumo de sustancias y salud física. Como resultado, la “validez de los juicios informáticos”
volvió a ser “superior a la de los jueces humanos en 12 de los 13 criterios”. Afirman que
Los Me gusta de Facebook “representan uno de los tipos más genéricos de huella digital” y que sus
Los resultados presentan “importantes oportunidades y desafíos en las áreas de psicología
evaluación, marketing y privacidad”.

Varios estudios se centran en cómo inferir la personalidad de usuarios anónimos que navegan por la web.
búsquedas o visitas a sitios web.
En la Universidad de Cambridge, un estudio en cooperación con Microsoft Research sobre
Se realizó el estudio “Personalidad y elección del sitio web”, que determinó correlaciones entre
sitios web visitados y, nuevamente, los “Cinco Grandes” (ver Kosinski et al 2012). Más de 160.000
Los usuarios fueron evaluados, los datos fueron proporcionados por la aplicación de Facebook mencionada anteriormente.
“mi personalidad”. Los resultados incluyeron perfiles de los “Cinco Grandes” de miles de sitios web, basados ​​en
la personalidad de sus visitantes promedio. La siguiente tabla muestra tres sitios web en el
contexto de las artes y “hazlo tú mismo”. Los rasgos de personalidad previstos para los visitantes promedio.
de esos sitios web son bastante similares:

Perfiles de los “Cinco Grandes” de visitantes promedio de tres sitios web. Fuente: Kosinski et al, 2012
Cuando los perfiles de los sitios web de los “Cinco Grandes” son conocidos por muchos sitios web, se pueden utilizar para
estimar el carácter de usuarios desconocidos y anónimos que también visitaron esos sitios web — sin necesidad de información adicional.
Otro estudio de Microsoft Research, también basado en datos de la aplicación myPersonality, analizó 133 millones de consultas de búsqueda de 3,3 millones de usuarios únicos del motor de búsqueda
Bing (ver Bi et al 2013). A partir de consultas de búsqueda anónimas fue posible predecir el edad de los usuarios y el sexo con 74% y 80% de precisión respectivamente. Perfil religioso y las opiniones políticas también se infirieron con bastante precisión a partir de búsquedas en la web.
Un estudio belga examinó la predicción automática de atributos demográficos como el género,
edad, nivel de educación y ocupación de visitantes anónimos del sitio web (ver De Bock y Van den Poel 2010). Más de 4.000 usuarios participaron en una encuesta online indicando
su información demográfica, mientras que en paralelo se extrajeron los datos de su flujo de clics
de archivos de registro de 260 sitios web belgas asociados. Su comportamiento de navegación con respecto a
Los sitios web visitados se evaluaron en función de la frecuencia, la duración, la hora del día y la
día de la semana. Después de una fase de entrenamiento y puntuación, predicciones bastante fiables sobre el
Se derivaron los atributos demográficos de los visitantes anónimos de los sitios web:

Previsión de movimientos futuros en función de los datos del teléfono
Basándose en el análisis de datos de teléfonos inteligentes de 25 participantes, investigadores del Reino Unido.
pudieron predecir cuál sería la probable posición geográfica de los participantes 24 horas después. En su estudio de 2012, De Domenico et al pudieron explotar la correlación entre los datos de movimiento y las interacciones sociales para mejorar la precisión de la previsión de la posición geográfica futura de un usuario.
Usando registros de datos de 25 teléfonos, incluidos “rastreos de GPS, números de teléfono, llamadas y SMS
historial, historial de Bluetooth y WLAN”, los científicos pronosticaron las futuras coordenadas GPS de los usuarios en función de su movimiento. Esto resultó en un error promedio de 1.000 metros.

Cuando el modelo de predicción se amplió posteriormente para incluir los datos de movilidad de amigos del usuario, el error promedio de la predicción podría reducirse a menos de 20 metros.

La relación de amistad entre dos usuarios se derivó, por ejemplo, de
uno de ellos apareciendo en la libreta de direcciones de otros.
Los investigadores destacan que trabajos anteriores ya han demostrado que “el movimiento humano es predecible hasta cierto punto en diferentes escalas geográficas” (De Domenico et al 2012, p.
1).

En su estudio, señalan el hecho de que su “conjunto de datos contiene una pequeña cantidad de usuarios, por lo que es difícil hacer afirmaciones sobre la validez general de este hallazgo” (ibid., p. 4).
Sin embargo, los autores muestran que el conocimiento sobre los contactos sociales de un usuario puede aumentar
la precisión de las predicciones sobre ese usuario considerablemente. Previsión de movimientos de
Las personas basadas en registros digitales podrían usarse en varios campos, desde marketing hasta
gobiernos. Por ejemplo, las autoridades encargadas de hacer cumplir la ley podrían vigilar especialmente
personas cuyos movimientos no se ajustan a los previstos.
2.2.7 Predecir las relaciones románticas y el éxito laboral a partir de datos de Facebook
Un estudio realizado en colaboración directa con Facebook en 2013 analizó
datos de 1,3 millones de usuarios elegidos al azar que tenían entre 50 y 2000 amigos, y
que enumeran un “estado civil” en su perfil de usuario (ver Backstrom et al 2013).
El objetivo del análisis fue examinar las relaciones entre los usuarios. La pregunta básica
bajo consideración fue: “dadas todas las conexiones entre los amigos de una persona, ¿puedes
¿Reconoce a su pareja romántica sólo por la estructura de la red? Reconocer
relaciones románticas entre dos usuarios, no solo se incrementó el número de amigos en común
examinado, sino también cuán profundamente estaban interconectados esos amigos. Usando la máquina
algoritmos de aprendizaje, los investigadores pudieron identificar al verdadero socio a partir de la información del usuario.
lista de amigos en el 60% de los casos. Hasta cierto punto, incluso pudieron predecir si las parejas se separarán en un futuro próximo. Parejas que declararon el estado civil en su perfil, pero no fueron reconocidos como parejas por el algoritmo, tenían un 50% más de probabilidad de separación en 2 meses.
Como revela este estudio, el análisis de las redes sociales entre individuos ofrece una gran potencial para el análisis predictivo. Otros registros digitales, como contactos telefónicos y de correo electrónico.
entre personas ofrecen opciones similares.
Facebook lleva a cabo periódicamente experimentos con los usuarios.28 Durante un período muy controvertido experimento que condujo a un estudio publicado en 2014, no solo se modificó el comportamiento de los usuarios analizado sin su conocimiento, pero también se manipuló el suministro de noticias del usuario (ver Kramer et al 2014).

Desanonimización y reidentificación

En muchos campos, desde la investigación científica hasta los conjuntos de datos de tecnología de comunicación digital,
que incluyen información sobre individuos, son anonimizados o seudonimizados para proteger
individuos.

La seudonimización implica la sustitución de nombres y otros atributos de identificación con seudónimos, por ejemplo mediante combinaciones de letras y dígitos. Los datos generales de la UE Reglamento de Protección lo define como el “tratamiento de datos personales de tal manera que
los datos personales ya no pueden atribuirse a un interesado específico sin el uso de información adicional”.Cuando se proporciona información adicional, por ejemplo cómo se relacionan los nombres con
Si se conocen los seudónimos, el seudónimo se puede revertir fácilmente. En cambio, el propósito de la anonimización consiste en deshacerse de cualquier información que permita la reidentificación de
individuos. Hay muchos aspectos y conceptos desafiantes en torno al seudonimato y anonimato (ver Pfitzmann y Hansen 2010).
Además del hecho de que existen diferentes evaluaciones sobre qué atributos deben considerarse como
“identificable personalmente”, muchas de las empresas actuales utilizan términos como “anonimizados” o “desidentificados” de manera ambigua o incluso incorrecta.
También hay problemas fundamentales relacionados con la anonimización hoy en día, como por ejemplo Paul Ohm (2009)
presentado.
Dependiendo del tipo y cantidad de registros de datos anonimizados o seudonimizados, puede todavía será posible identificar a una persona. Si, por ejemplo, un pequeño conjunto de datos no contiene
nombres, sino iniciales y fechas de nacimiento, a menudo es posible identificar a una persona por mediante bases de datos adicionales o información disponible públicamente, por ejemplo porque el
combinación de iniciales y fechas de nacimiento es a menudo única.32 Un estudio de 1990 descubrió que la combinación de código postal, sexo y fecha de nacimiento fue única para 216 de 248 millones
Ciudadanos estadounidenses (87%) y por lo tanto hace posible la identificación. En consecuencia, los datos
Los registros con nombres eliminados pero con códigos postales, sexo y fechas de nacimiento aún incluidos no se pueden visto como anónimo. Por lo tanto, no basta con eliminar únicamente los datos claramente identificables.
información como nombre, número de seguro social o dirección IP para anonimizar los datos registros.
Cuanto más detallado sea un registro de datos, mayores serán los vínculos potenciales con otras fuentes. Además, cuanto mejor se utilicen las tecnologías, más fácil será identificar a una persona, incluso si los datos parecen ser anónimo. Dado que cada vez se almacenan más datos diversos sobre personas, este problema
se hizo cada vez más grave. Cuando, por ejemplo, AOL publicó un registro “anónimo” detallado archivos sobre búsquedas web de 675.000 usuarios en 2006, algunos de ellos podrían identificarse en función de su historial de búsqueda (ver Ohm 2009).
En los últimos años se han desarrollado elaborados métodos estadísticos para la anonimización.
Cuando Netflix publicó un conjunto de datos “anonimizados” que contenía calificaciones de películas de 500.000 suscriptores en 2006, un estudio demostró que un suscriptor podía identificarse fácilmente, cuando un
Un poco de conocimiento previo sobre esta persona estaba disponible. Para lograrlo, los investigadores compararon y vinculó las calificaciones de películas “anonimizadas” de los suscriptores de Netflix con
reseñas disponibles públicamente en el sitio web imdb.com, donde los usuarios a menudo usaban su nombre real. En promedio, se necesitaron entre dos y ocho revisiones de imdb.com para identificar
personas en el conjunto de datos de Netflix (ver Narayanan y Shmatikov 2008).

Un estudio de 2013 analizó los datos de movilidad de 1,5 millones de usuarios de teléfonos móviles y demostró que sólo cuatro puntos de datos espacio-temporales eran suficientes para identificar de forma única el 95% de los
Los usuarios. La combinación de cuatro horas y lugares donde los usuarios hicieron o recibieron las llamadas son muy singulares entre diferentes personas (ver Montjoye et al 2013b). De acuerdo a a otro estudio, se utilizó una combinación de solo cuatro aplicaciones instaladas en el teléfono inteligente de un usuario suficiente para volver a identificar al 95% de los usuarios entre un conjunto de datos con listas de aplicaciones instaladas de 54.893 usuarios de teléfonos inteligentes (Achara et al 2015). S

e podría suponer razonablemente que otros tipos de datos similares como compras, términos de búsqueda, sitios web visitados y Facebook
Los Me gusta proporcionan resultados similares.
Dejando a un lado los estudios académicos, estas tecnologías ya se utilizan en la práctica para reidentificar a los usuarios.
Por ejemplo, los especialistas en marketing en línea y los intermediarios de datos utilizan huellas digitales del navegador o dispositivos.
Huellas dactilares para reidentificar a los usuarios en función de las características específicas de sus navegadores weby dispositivos (ver Bujlow et al 2015). También datos biométricos de iris, voz y rostro.
reconocimiento, así como análisis de pulsaciones de teclas y dinámica del mouse (ver Mudholkar 2012) se puede utilizar para reidentificar personas, de forma similar a las huellas dactilares tradicionales o los perfiles de ADN.

Análisis de datos personales en marketing, finanzas, seguros y trabajo

“Los privilegiados, como veremos una y otra vez, son procesados ​​más por las personas, las masas por las máquinas”
Cathy O’Neill, 2016

“Los científicos de datos crearon los medios para predecir cómo votarán los votantes o cómo votarán los pacientes.
Seguir protocolos de tratamiento o cómo los prestatarios pagarán sus deudas. No pasó mucho tiempo antes que RR.HH. se dio cuenta de que se podían aplicar las mismas tecnologías y enfoques para predecir
cómo se comportarán los empleados en torno a métricas clave como el desgaste y el desempeño”

Greta Roberts, directora ejecutiva de la consultora de recursos humanos Talent Analytics

El siguiente capítulo describe cómo se aplicaron los métodos de Big Data y minería de datos a la información sobre los seres humanos ya se utiliza en los campos del marketing, el comercio minorista,
seguros, finanzas y en el trabajo. Se presta especial atención a las áreas en las que estos métodos se aplican de manera que podrían afectar o dañar a las personas.
Esta sección presenta ejemplos en varios campos comerciales, comenzando con una descripción general acerca de cómo se aplican los modelos predictivos sobre la personalidad examinados en los capítulos anteriores.
Ya se utiliza en marketing, calificación crediticia y selección de votantes. Además, otros cinc se eligieron áreas para una mayor exploración, que van desde precios personalizados basados ​​en
seguimiento digital al trabajo, seguros, finanzas y gestión de riesgos. algunos campos de lassolicitudes no están cubiertas en este capítulo (por ejemplo, educación) o no están completas (por ejemplo,
marketing).
El marketing es uno de los ámbitos donde se realiza el análisis y explotación de datos personales.
Ya es muy común a gran escala. Los análisis de clientes intentan comprender con precisión comportamientos y preferencias de los consumidores hasta el nivel individual: atraer, evitar,
persuadir, retener o deshacerse de ellos. Se pueden encontrar más ejemplos de prácticas comunes. en los capítulos 4 y 5 sobre dispositivos de recopilación de datos y intermediarios de datos.

A menudo resulta difícil trazar una línea divisoria entre los distintos ámbitos de aplicación. Una aplicación como
BagIQ, que ofrece a los consumidores calcular una puntuación de salud a partir de datos registrados automáticamente
compras de alimentos en línea y fuera de línea, está relacionada con el marketing y la fidelización, así como con la salud.34
Si bien la tecnología del marketing digital incorpora cada vez más aspectos del consumidor
puntuación y gestión de riesgos, las aseguradoras y las empresas de calificación crediticia utilizan cada vez más
datos sobre individuos, que se recopilaron en el contexto de las redes sociales, el marketing y
Publicidad online. Facebook ya ha registrado una patente sobre calificación crediticia.35
Las tecnologías predictivas como el reconocimiento facial se utilizan en plataformas de redes sociales, en dispositivos de consumo, así como para marketing, verificación de identidad y aplicación de la ley.

Los análisis de fraude basados ​​en grandes cantidades de datos de diferentes fuentes son utilizados por
agencias de inteligencia y compañías de seguros, y también para evitar beneficios fraude y abuso de programas sociales (ver capítulo 3.5). Cuando UPS rastrea y analiza el paquete movimientos y transacciones, no se trata sólo de mejorar el negocio logístico procesos, sino también sobre el seguimiento y control de los empleados.

De manera similar, cuando Estados Unidos Healthcare registra y analiza las llamadas de los clientes a los centros de llamadas para detectar automáticamente
insatisfacción38, estos datos también podrían usarse para clasificar y calificar a los agentes del call center.
Posiblemente, la misma tecnología de análisis de audio de los mismos proveedores de tecnología, que en este caso se utiliza para identificar clientes insatisfechos y mejorar el servicio, puede ser utilizado por
empresas de prevención de fraude y agencias de inteligencia para descubrir comportamientos sospechosos

--

--

EstebanConcia

Me dedico a la comunicación política desde el Partido Justicialista Frente de Todos con capacitaciones e ideas desde el grupo Conversatorio ComPol.