Introducción
El Big Data representa una oportunidad para las empresas de optimizar sus procesos y alcanzar un mayor grado de competitividad. La recolección de datos acerca de la actividad de usuarios y clientes de una organización facilita el diseño de campañas de marketing personalizadas y un servicio de atención al cliente personalizada que se ajuste a las necesidades del cliente. Sin embargo, existe una fina línea entre el uso legítimo de información del usuario y el respeto a la privacidad.
Riesgos de Seguridad en Big Data
Las empresas, organizaciones recopilan y procesan grandes volúmenes de información sensible acerca de clientes, empleados, productos, finanzas, actividades, etc. La centralización de tal cantidad de información en un lugar para proceder a realizar su análisis conlleva numerosos riesgos de seguridad que los atacantes podrían aprovechar para comprometer y acceder a información potencialmente muy valiosa.
Una fuente de problemas de seguridad se encuentra en la propia naturaleza de los datos manipulados. Además, el proceso de manipulación de estos también origina numerosos riesgos de seguridad tanto en la forma de almacenarlos, como de procesarlos y acceder a los mismos. A continuación se realiza una breve descripción de las distintas fuentes de riesgos de seguridad.
1. Información sensible: Los entornos de procesamiento Big Data frecuentemente manejan grandes cantidades de información personal de usuario. Pensemos en ejemplos de grandes empresas que proporcionan servicios en Internet como Google, Facebook, Twitter, Apple o Microsoft, que tienen capacidad de recopilar información acerca de un usuario acerca de las búsquedas realizadas, las relaciones de amistad que mantiene, los mensajes intercambiados, la ubicación geográfica, la información almacenada en la nube, etc. Como se puede observar, esta información es de carácter sensible ya que se refiere a actividades diarias realizadas por una persona.
2. Almacenamiento de datos: Las técnicas de procesamiento en introducen vulnerabilidades de seguridad. Por un lado, los modelos de programación como MapReduce definen sistemas de procesamiento distribuido que soporten la computación paralela de grandes colecciones de datos en grupos de computadores. Desde un punto de vista de seguridad, la administración de sistemas distribuidos es más complejo. Si un nodo es comprometido y proporciona (de forma intencionada) información errónea, los resultados agregados también serán erróneos.
Por otro lado, tal y como se ha visto en lecciones anteriores, Big Data se caracterizan por usar bases de datos no estructuradas (NoSQL). No obstante, uno de los grandes problemas consisten en que este tipo de bases de datos no han sido diseñadas teniendo en mente principios de seguridad.
3. Procesamiento de datos: El procesamiento de grandes cantidades de datos dificulta la monitorización de eventos y alertas generadas por los dispositivos. Esto significa que en los entornos Big Data el manejo en tiempo real de eventos no es factible. En esta situación, las alternativas consisten en el uso de mecanismos automáticos que adopten medidas ante situaciones excepcionales o el análisis en diferido.
Por otro lado, como parte del proceso Big Data, las empresas entienden que reporta grandes beneficios la compartición de información y establecimiento de acuerdos. Continuando con el ejemplo anterior, si grandes empresas como Google, Facebook, Twitter, Apple o Microsoft comparten información acerca de sus usuarios, sería posible llegar a rastrear la actividad diaria de una persona. Estas situaciones de abuso deben ser controladas ya no sólo por el riesgo que supone comprometer la privacidad de un usuario, sino también en las consecuencias que puede conllevar la revelación de información tan sensible.
4. Acceso a los datos: Big Data requiere el uso de tecnologías donde se procesen grandes volúmenes de datos a una gran velocidad. Con el fin de satisfacer estos requisitos, con frecuencia se prescinde de técnicas de protección que sirven para proporcionar confidencialidad y controlar el acceso a los datos.
Otra fuente de conflicto en Big Data aparece en las fuentes de donde se recopilan los datos. En ocasiones, las empresas usan fuentes de información (p.ej. sensores o aplicaciones propietarias) que controlan y son fiables durante la recogida de datos. Sin embargo, en ocasiones las fuentes de información no son controlable (pensemos, por ejemplo, en un trabajador que se lleva su portátil personal al trabajo). Estos casos son problemáticos ya que son fuentes de información no confiables donde la información que proporcionan podría comprometer el proceso de inferencia y agregación en Big Data.
Por otro lado, como parte del proceso Big Data, las empresas entienden que reporta grandes beneficios la compartición de información y establecimiento de acuerdos. Continuando con el ejemplo anterior, si grandes empresas como Google, Facebook, Twitter, Apple o Microsoft comparten información acerca de sus usuarios, sería posible llegar a rastrear la actividad diaria de una persona. Estas situaciones de abuso deben ser controladas ya no sólo por el riesgo que supone comprometer la privacidad de un usuario, sino también en las consecuencias que puede conllevar la revelación de información tan sensible.
4. Acceso a los datos: Big Data requiere el uso de tecnologías donde se procesen grandes volúmenes de datos a una gran velocidad. Con el fin de satisfacer estos requisitos, con frecuencia se prescinde de técnicas de protección que sirven para proporcionar confidencialidad y controlar el acceso a los datos.
Otra fuente de conflicto en Big Data aparece en las fuentes de donde se recopilan los datos. En ocasiones, las empresas usan fuentes de información (p.ej. sensores o aplicaciones propietarias) que controlan y son fiables durante la recogida de datos. Sin embargo, en ocasiones las fuentes de información no son controlable (pensemos, por ejemplo, en un trabajador que se lleva su portátil personal al trabajo). Estos casos son problemáticos ya que son fuentes de información no confiables donde la información que proporcionan podría comprometer el proceso de inferencia y agregación en Big Data.
Medidas de seguridad básicas en Big Data
Una vez analizados los principales focos de problemas de seguridad en Big Data, en esta sección nos disponemos a proponer, en líneas generales, cuáles serían las medidas básicas que deberían ser adoptadas por los administradores encargados de desplegar entornos de procesamiento de este tipo. El conjunto de medidas de seguridad que se mencionan a continuación se basan en el análisis desarrollado por Guillermo Lafuente y que refleja en el artículo titulado “The big data security challenge”.
Anonimato de datos
El proceso de anonimizar los datos consiste en eliminar todo rastro de información personal identificable de un usuario, de forma que el posterior análisis y procesamiento impida inferir información que suponga la violación de la privacidad e intimidad de una persona. Por ejemplo, aplicando técnicas de inferencia en Big Data no debería ser posible conocer las creencias religiosas de una persona.
Aunque las organizaciones deben eliminar todo tipo de información identificable de usuario, esto es una tarea difícil. En las bases de datos tradicionales era sencillo identificar aquellos campos que contienen información sensible y proceder a su eliminación. Sin embargo, en Big Data la información típicamente se almacena de forma no estructurada, por lo que la anonimización dedatos es una tarea que entraña mayor complejidad.
Cifrado de datos
El manejo de grandes volúmenes de datos requiere que las organizaciones pongan en práctica todas las medidas que sean necesarias para asegurar su confidencialidad, es decir, que la
información sólo sea accesible por aquellas partes que estén autorizadas. Tradicionalmente, este servicio de seguridad se ha implementado mediante técnicas de cifrado de datos que hace uso de
algoritmos de encriptación.
Sin embargo, las técnicas que tradicionalmente se han venido aplicado para proteger los sistemas de información no son directamente aplicables a entornos Big Data. Principalmente, encontramos dos problemas:
- El cifrado de la información es un proceso que tiene asociado un coste en tiempo de procesamiento. Ello puede suponer que el acceso a la información se verá incrementado por esta latencia adicional que requiere el cifrado/descifrado de los datos para recuperar la información original.
- Una tendencia actual para las organizaciones consiste en el uso de la nube (cloud) para el almacenamiento de datos. Esto implica que los datos no pueden enviarse cifrados a la nube si estos deben ser manipulados y procesados por la nube.
Se trata de un tópico de investigación emergente que está siendo abordado en la actualidad por la comunidad científica. Una posible solución podría consistir en el uso de cifrado homomórfico (Fully Homomorphic Encryption, FHE). Este tipo de cifrado permite la aplicación de operaciones indistintamente sobre los datos cifrados como descifrados, de forma que el resultado no se altera.
Para ampliar información acerca del funcionamiento del cifrado homomórfico, se recomienda la lectura del artículo titulado “A first glimpse of cryptography’s Holy Grail” autorizado por Deniele
Micciancio.
Control de acceso y monitorización
Otro de los aspectos claves en Big Data reside en la aplicación de mecanismos de seguridad que controlen el acceso a la información manipulada en los sistemas Big Data. Tal y como hemos indicado anteriormente, una técnica básica para controlar el acceso consiste en el uso de encriptación de forma que la información se almacena de forma oculta y sólo aquellas partes autorizadas podrán descifrarla y acceder al contenido original. No obstante, un buen sistema de
control de acceso requiere de mecanismos adicionales:
- En primer lugar es necesario emplear alguna técnica de identificación de usuarios, frecuentemente conocida como autenticación. Las técnicas de autenticación verifican la identidad de una parte (persona, proceso o máquina) requiriendo la presentación de alguna credencial como podría ser una contraseña, un certificado digital, lectura de huella dactilar, etc.
- En segundo lugar, también es necesaria la definición de políticas de control de acceso, esto es, un conjunto de reglas que indiquen de forma clara y precisa el tipo de acciones que tiene permitidas cada usuario. Por ejemplo, en el caso de Big Data, una política de control de acceso podría restringir el tipo de datos a que tiene acceso un usuario o las operaciones que tiene permitidas aplicar sobre estos.
La aplicación de estos mecanismos de seguridad requiere de un esfuerzo de concienciación. Si observamos las herramientas que existen en la actualidad para el procesamiento de grandes
cantidades de datos, encontramos situaciones como que Hadoop no incluye la autenticación de usuario por defecto. Es decir, salvo que el administrador active esta opción, el sistema permitiría el acceso a la información a usuarios no autenticados.
Todo sistema de control de acceso requiere de una monitorización que compruebe su correcto funcionamiento. Lo ideal sería aplicar una monitorización en tiempo real, de forma que cualquier anomalía sea detectada y solventada en el momento. Sin embargo, los entornos Big Data hacen muy difícil esto dados los grandes volúmenes de información que son procesados y la existencia de multitud de procesos en paralelo para su tratamiento.
Por este motivo, los sistemas Big Data requieren de la automatización de la monitorización del control de acceso por medio de un sistema inteligente de amenazas de seguridad. Este sistema debe ser capaz de detectar ataques y tomar medidas de inmediato que controlen la situación, así como reportar el incidente.
Cumplimiento de políticas
La definición de políticas en Big Data es todo un reto ya que la forma en que debe hacerse difiere de otros entornos de trabajo. El motivo radica en que la información está desestructurada, por lo que el control de acceso a la información requiere de un esfuerzo previo de identificación de información de usuario sensible. Toda la información recopilada por la organización debe ser analizada de forma que se determine si debe ser protegida. En caso de que así sea, entonces se
deberá definir aquellas políticas que permitan proteger los datos de forma que no se viole la privacidad de los clientes.
Esta situación se complica todavía más cuando la información es compartida con otras organizaciones. En este caso, es necesario adoptar medidas de contención para controlar que la privacidad del usuario es respetada cuando la información es cedida a una tercera parte. Las dos medidas básicas de contención serían:
- La firma de acuerdos entre organizaciones de forma que se restrinja el tratamiento que se dará a los datos objeto de cesión.
- El desarrollo de regulaciones y leyes que limiten a las organizaciones el procesamiento y tratamiento dado a los mismos.
Soluciones existentes
Para finalizar, vamos a repasar brevemente cuáles son las tendencias que existen en la actualidad a la hora de desarrollar soluciones de seguridad para sistemas de procesamiento Big Data.
Análisis de riesgos
Numerosas soluciones de seguridad que están apareciendo en la actualidad para entornos Big Data siguen una estrategia basada en la contención de riesgos y vulnerabilidades de seguridad.
Aunque el objetivo es evitar que la seguridad del sistema sea comprometida, los ataques representan una oportunidad de aprender debilidades del sistema y definir nuevas medidas de protección.
En este sentido, una de las soluciones más representativas que siguen esta estrategia es la desarrollada por la empresa Tren Micro, que ofrece protección de sistemas Big Data siguiendo una
estrategia simple basada en dos pasos:
- Identificación de riesgos. Inicialmente el sistema es analizado y los riesgos de seguridad son identificados. Se proponen medidas y soluciones para proteger el sistema contra estas vulnerabilidades.
- Colección de riesgos. Existe un proceso de recopilación de nuevos riesgos de seguridad, fruto del análisis de la actividad diaria, el procesamiento de los datos o incluso por la propia experiencia de los responsables de administrar el sistema Big Data.
Inteligencia Artificial (IA)
Una táctica común de las organizaciones consiste en la recopilación de información acerca de eventos y logs que generan las aplicaciones durante su funcionamiento. Esta información representa una valiosa fuente de información ya que ofrece una panorámica acerca de la actividad desarrollada por cualquier elemento del sistema (usuarios, aplicaciones, bases de datos, etc.).
Por este motivo, los logs y eventos de seguridad representan una valiosa fuente de información a la hora de implementar un sistema de gestión de seguridad en Big Data. En este sentido, una línea de
investigación que está siendo fuertemente impulsada consiste en el desarrollo de técnicas de Inteligencia Artificial (IA) que, partiendo de estos logs y eventos del sistema Big Data, analiza el comportamiento de la actividad y trata de identificar anomalías en su funcionamiento. Estos sistemas ofrecen numerosas ventajas:
- Retroalimentación: se pueden detectar patrones de comportamiento anómalos que revelen ataques o vulnerabilidades del sistema. La definición de medidas de protección contra estos riesgos de seguridad fortalecen la seguridad del sistema.
- Flexibilidad: dado el gran volumen y velocidad a la que se procesan los datos en los entornos de Big Data, la cantidad de logs y eventos que se generan es considerable. Por este motivo, se hace necesario disponer de un sistema IA que automatice el análisis de esta información.
Cifrado de datos
Otro tipo de soluciones se centran en la protección de los datos manipulados por los sistemas Big Data. Tal y como se explicó en la sección Medidas de Seguridad Básica, los datos son una parte crítica de los entornos de procesamiento Big Data ya que puede existir información sensible que comprometa la privacidad de los usuarios. Un caso sencillo puede ser un simple registro de una base de datos donde
aparezcan nombres y apellidos de los clientes de una empresa. Sin embargo, en Big Data la información proviene de muchos tipos de fuentes, como puede ser redes sociales, datos recopilados de sensores, audio, logs de aplicaciones, tráfico web, imágenes, etc.
Una solución representativa que aplique el cifrado de datos la encontramos en el producto desarrollado por Vormetric. Vormetric ofrece una solución integral que protege datos sensibles en entornos Big Data mediante el cifrado de datos a nivel de sistema de ficheros. La gestión de las claves empleadas en este cifrado es gestionada por un entidad centralizada que se encarga de cifrar y descifrar la información de una manera transparente a las aplicaciones Big Data y a los
usuarios. Adicionalmente, Vormetric permite controlar el acceso a los datos cifrados mediante la definición de políticas de autorización.
Framework integrados
En última lugar encontramos propuestas que ofrecen soluciones de seguridad integrales que se
integran con software específico para procesamiento Big Data y que tratan de ofrecer una solución
de seguridad que proteja todos los componentes del sistema. La compañía Voltage (recientemente adquirida por Hewlett Packard) ha desarrollada una solución denominada Voltage Security Framework que, siguiendo esta estrategia, ofrece las siguientes funcionalidades:
- Control de acceso sobre datos sensibles almacenados en Hadoop.
- Protección de datos provenientes de cualquier fuente y en cualquier formato.
- Definición de políticas de acceso que controlen las acciones permitidas a cada usuario sobre los datos.
- Cumplimiento de normativas y leyes establecidas en materia de tratamiento de datos.
Comentarios
Publicar un comentario