Definición
La minería de datos (Data Mining) puede definirse como un proceso de descubrimiento de nuevas y significativas relaciones, patrones y tendencias al examinar gran cantidad de datos.La minería de datos se aplica a todo tipo de datos imaginable: desde datos numéricos a imágenes de satélite, mamografías, música, archivos de ordenador, imágenes, etc. Podemos decir que “cualquier cosa” constituye un dato. Por tanto la minería de datos tiene infinitas aplicaciones: comerciales, marketing, industria, internet, agricultura, etc.
Con miles de datos, necesitamos limpiarlos (eliminar fragmentos inútiles, repetidos, etc.) y organizarlos, y una vez realizado este proceso decimos que tenemos “Información”.
La información hay que tratarla con un modelo para obtener resultados o conclusiones a los que llamamos “Conocimiento”. La minería de datos está incluida en un proceso mayor denominado Descubrimiento de Conocimientos en Base de Datos, Knowledge Discovery in Data Base (KDD).
Hay cuatro tipos de tareas que normalmente se involucran en la minería de datos:
- Clasificación: la tarea de generalizar una estructura familiar para utilizarla en los nuevos datos.
- Agrupamiento: la tarea de encontrar grupos y estructuras en los datos que son de alguna manera u otra lo mismo, sin necesidad de observar las estructuras observadas en los datos.
- Aprendizaje de reglas de asociación: busca relaciones entre las variables.
- Regresión: su objetivo es encontrar un función que modele los datos con el menor error.
Utilización
Hoy en día se utiliza la minería de datos en diferentes campos de la ciencia. Se pueden destacar las aplicaciones financieras y en banca, en análisis de mercados y comercio, en seguros y salud privada, en educación, en procesos industriales, en medicina, en biología y bioingeniería, en telecomunicaciones y en muchas otras áreas. Lo esencial para trabajar en minería de datos, sea cual sea el campo en que se aplique, es la comprensión de los propios conceptos.Esto permite que las empresas determinen las relaciones entre los factores "internos" como el precio, posicionamiento del producto, o las habilidades del personal, y factores "externos", como los indicadores económicos, la competencia, y la demografía de los clientes. Y, que les permite determinar el impacto en las ventas, la satisfacción del cliente, y las ganancias corporativas. Por último, les permite "profundizar" en la información resumida para ver datos detallados de las transacciones.
Con la minería de datos, un minorista puede utilizar los registros de puntos de venta de compras de los clientes para enviar promociones específicas basadas en el historial de compras de un individuo. Minando datos demográficos de las tarjetas de comentarios o de garantía, el distribuidor podría desarrollar productos y promociones para atraer a segmentos específicos de clientes.
Herramientas
El software de minería de datos es uno de una serie de instrumentos analíticos para el análisis de datos. Permite a los usuarios analizar los datos desde muchas dimensiones o ángulos, clasificar, y resumir las relaciones identificadas.Existen varios tipos de software de análisis que están disponibles:
* Red neuronal: en una red neuronal tendríamos múltiples nodos que constituyen puntos de entrada de los datos. Esos datos son agrupados y sometidos a un tratamiento mediante un algoritmo que da lugar a que se obtengan unos resultados.
De las redes neuronales suele decirse que son cajas negras, porque el proceso de tratamiento de los datos hasta obtener el resultado no siempre sigue unas pautas lógicas o comprensibles por el ser humano. Sin embargo, su interés radicaría en que son herramientas útiles para realizar predicciones, por lo que son usadas en numerosas aplicaciones.
*Árbol de decisión: se trata de la aplicación del conocido procedimiento del “divide y vencerás”. Sobre los datos, se van realizando sucesivas bifurcaciones hasta llegar a un resultado. Sigue unas pautas lógicas, por lo que se dice que es una “caja blanca”, o proceso comprensible por el ser humano. A modo de anécdota, podemos citar un juego web denominado “Akinator el genio adivino”. El juego consiste en que pensamos en un personaje y el sistema nos va haciendo una serie de preguntas: por ejemplo, si es hombre o mujer. Con esta pregunta, se descartan aproximadamente el 50 % de los ítems en la base de datos. A continuación nos puede preguntar si es un personaje vivo, con lo cual descarta otro porcentaje significativo. En base a bifurcaciones, se llega finalmente al personaje en la base de datos que corresponde con el que habíamos pensado y se produce la “adivinación”.
Bibliografía
- Pérez López, César y Santín González, Daniel. Minería de Datos: Técnicas y Herramientas. Ed. Paraninfo. 2007.
- Varios autores. Introducción a la Minería de Datos. Ed E-papers. 2009.
Comentarios
Publicar un comentario