Resumen
A medida que la humanidad ha desarrollado y generado nuevo conocimiento a partir de investigaciones y estudios en diferentes áreas de la ciencia, se han acumulado grandes volúmenes de datos, hasta tal punto que obtener nueva información de estos se ha vuelto una tarea muy compleja en el que los análisis estadísticos demandan demasiado tiempo y dinero para ser ejecutados de forma manual. Aquí es donde entran las ciencias de la computación, específicamente la minería de datos para facilitar la forma en que estos volúmenes de datos pueden ser tratados. De esta forma, se explicará que es la minería de datos, los tipos de análisis, técnicas y sus principales metodologías para desarrollar proyectos de minería de datos en cualquier área de la ciencia.
Palabras clave: Minería de Datos, Knowledge Discovery Databases, Cross Industry Standard Process for Data Mining, Catalyst.
Según Aquino, Molero y Rojano (2015), “La minería de datos es un dominio de la ciencia de la computación que permite el análisis de grandes cantidades de datos para encontrar y extraer patrones significativos útiles para el proceso de toma de decisiones”. Además, advierten que la minería de datos va más allá de simples tareas como la revisión de los datos en bases de datos, está más encaminado hacia el análisis de grandes volúmenes de información para encontrar patrones relevantes en diferentes áreas de la ciencia como educación, medicina, finanzas etc.
En minería de datos se encuentran básicamente 2 tipos de análisis: El descriptivo y el predictivo, estos permiten desplegar diferentes tipos de tareas como la clasificación (Kumari et al., 2011), la predicción (Shaikh T, 2014) la segmentación (Oviedo et al., 2015) y la asociación (Amina T et al., 2014).
En el análisis descriptivo las aplicaciones más comunes son: Detección de anomalías, Análisis de perfil de personas, detección de reglas que condicionen la venta de productos, etc. (Riquelme J et al, 2006). En este análisis, el conjunto de datos está conformado por los atributos que se desean analizar para encontrar patrones o asociaciones de los datos. Se pueden desarrollar tareas de agrupación (clustering) y de asociación (Oviedo et al., 2015).
El análisis predictivo se caracteriza por el uso de un conjunto de entrenamiento que está formado por datos históricos. Las aplicaciones comunes son predecir riesgos, predicción en las ventas, activación de nuevos clientes, etc. (Riquelme J et al, 2006). En este análisis se desarrollan tareas de predicción continua (numérica) y predicción discreta (clasificación) (Oviedo et al., 2015).
En general las técnicas se pueden agrupar en técnicas supervisadas y no supervisadas (Oviedo et al., 2015). Las técnicas supervisadas son usadas para análisis predictivo, algunas de estas técnicas son: Arboles de decisión, Redes Neuronales, Métodos de regresión, Máquinas de soporte vectorial, Métodos basados en ejemplos y Método Bayesiano (Oviedo et al., 2015).
Las técnicas no supervisadas son usadas en el análisis descriptivo, algunas técnicas son: Método Jerárquico, Método Particional, Redes Neuronales, Reglas de Asociación y Método Probabilístico (Oviedo et al., 2015).
El descubrimiento de conocimiento en bases de datos (KDD por sus siglas en inglés) es un término común usado en la minería de datos. Es un proceso iterativo conformado por una serie de procedimientos para la generación del conocimiento. Las fases de KDD son (Timarán-Pereira et al., 2014):
En la etapa de selección se crea un conjunto de datos objetivo para el proceso de descubrimiento.
En el procesamiento / limpieza se analiza calidad de los datos, remoción de ruido, datos desconocidos, nulos duplicados, técnicas de estadística para el reemplazo.
La transformación / reducción de datos se encarga de disminuir el número de variables o encontrar representaciones invariantes de los mismos.
La etapa de minería de datos se encarga de la búsqueda de patrones usando tareas de descubrimiento como clasificación, clustering, patrones secuenciales y asociaciones. Creando modelos ya sean predictivos o descriptivos.
Para la interpretación / evaluación se interpretan los patrones descubiertos, se puede retornar a las anteriores etapas para posteriores iteraciones.
Presentada por las empresas NCR Systems Engineering Copenhagen (Estados Unidos y Dinamarca), DaimlerChrysler AG (Alemania), SPSS Inc. (Estados Unidos) y OHRA Verzekeringen en Bank Groep B.V. (Holanda) en el año de 1999, es una metodología de referencia de las más utilizadas en proyectos de minería de datos (Moine et al., 2011). Es un conjunto de tareas definidas en cuatro niveles (fases, tareas generales, tareas específicas e instancias del proceso), organizadas de forma jerárquica. El nivel superior está organizado por seis etapas y se caracteriza por enfatizar en los detalles de cada uno; dividiéndose en diferentes actividades y tareas (Aqunio et al., 2015):
En la etapa de comprensión del negocio se definen los objetivos y requerimientos del proyecto desde el punto de vista del negocio para elaborar un plan con el fin de alcanzar los objetivos planteados.
La comprensión de los datos consta en la familiarización y recolección de datos para verificar la calidad y detectar si hay datos duplicados, inconsistentes, erróneos, incompletos, etc.
Para la etapa de preparación de los datos se construye el conjunto de datos que se va a usar. Realizando limpieza de datos, creación de variables adicionales, integración de diferentes conjuntos de datos incluyendo también cambios de formato.
La etapa de modelado selecciona las técnicas a usar para construir un modelo. Como existen diferentes técnicas sobre los datos para la solución de un mismo problema, en ocasiones es necesario volver a la etapa de preparación de los datos para la minería.
En la evaluación, el modelo que se obtuvo es revisado para constatar que logró los objetivos del proyecto. Esta fase finaliza al aceptar los resultados del modelo.
Para el despliegue del modelo, el conocimiento que se obtuvo es presentado de manera que sea fácil de entender e interpretar por el usuario final. Ya sea por medio de un reporte, un aplicativo, etc.
Rivo E. entre otros, en el 2012 mencionan que la metodología CRISP-DM facilita que los proyectos, ya sean grandes o pequeños relacionados con minería de datos sean fiables, manejables y rápidos de desarrollar.
Se le conoce como P3TQ (Product, Place, Price, Time, Quantity) es conformada por 2 modelos (Aqunio et al., 2015): Modelo de negocio (MII) y Modelo de explotación de información (MIII). MII es una guía para desarrollar y construir un modelo para resolver un problema u oportunidad de negocio. MIII es una guía para la ejecución y realización de modelos de minería de datos basados en el modelo (MII).
MII tiene cinco etapas de acuerdo con el tipo de negocio (Britos, 2008):
Como lo indica Moine J. M. en sus tesis de doctorado “Metodologías para el descubrimiento de conocimiento en bases de datos: un estudio comparativo” del año 2013, MIII ofrece una guía para la explotación de la información a través de las siguientes etapas:
Lista de Referencia
Amin A, Takib R, Raza S, Javed S., (2014). Extract association rules to minimize the effects of dengue by using a text mining technique. 3(4).
Aquino A. A., Molero G. Rojano R. (2015). Hacia un nuevo proceso de minería de datos centrado en el usuario. Pistas Educativas No 114. Instituto Tecnológico de Celaya. México.
Azevedo A, Rojão L. (2008). KDD, SEMMA and CRISP-DM: a parallel overview.
Britos P. V. (2008). Procesos de explotación de información basados en sistemas inteligentes (Tesis doctoral). Universidad Nacional de la Plata, Buenos Aires, Argentina.
Filippone M, Camastra F, Masulli F, Rovetta S. (2008). A survey of kernel and spectral methods for clustering, Pattern recognition.41(1), 176-190.
François O, Ancelet S, Guillot G. (2006) Bayesian clustering using hidden Markov random fields in spatial population genetics, Genetics.174(2), 805- 816.
Hofmann M, Ralf K. (2013). RapidMiner: Data Mining Use Cases and Business Analytics Applications, CRC Press.
Jain, A. K., Murty, M. N., y Flynn, P. J. (1999). Data clustering: a review, ACM computing surveys (CSUR), 31(3), 264-323.
Kumari M, Sunila G. (2011). Comparative Study of Data Mining Classification Methods in Cardiovascular Disease Prediction, 2.
Meireles M, Almeida P, Godoy M. (2003) A comprehensive review for industrial applicability of artificial neural networks, IEEE Transactions on Industrial Electronics, 50(3).
Moine J. M., Gordillo S. y Haedo A. (2011). Análisis comparativo de metodologías para la gestión de proyectos de Minería de Datos. VIII Workshop Bases de Datos y Minería de Datos. 931-938.
Moine J. M. (2013). Metodologías para el descubrimiento de conocimiento en bases de datos: un estudio comparativo (Tesis doctoral). Universidad Nacional de la Plata, Buenos Aires, Argentina.
Oviedo E., Oviedo A. I., Vélez G. L. (2015). Minería de datos: Aportes y tendencias en el servicio de salud de ciudades inteligentes, Revista Politécnica Volumen 11, 20 Pag 111-120.
Riquelme J, Ruiz R, Gilbert K. (2006). Minería de datos: Conceptos y tendencias, Revista Iberoamericana de Inteligencia Artificial, 10(29), 11-18.
Rivo E., de la Fuente J., Rivo Á., García E., Cañizares M. y Gil P. (2012). Cross-Industry Standard Process for data mining is applicable to the lung cancer surgery domain, improving decision making as well as knowledge and quality management. Clinical and Translational Oncology, 14(1), 73-79.
Shaikh T. (2014). A Prototype of Parkinson’s and Primary Tumor Diseases Prediction Using Data Mining Techniques, International Journal of Engineering Science Invention, 3(4).
Slimani T, Amor L. (2014). Efficient Analysis of Pattern and Association Rule Mining Approaches, arXiv preprint arXiv:1402.2892, 6(3), 70-81.
Steinley D. (2006). K-means clustering: A half-century synthesis, British Journal of Mathematical and Statistical Psychology. 59(1), 1-34.
Timarán-Pereira, S. R., Hernández-Arteaga, I., Caicedo-Zambrano, S. J., Hidalgo-Troya, A. y AlvaradoPérez, J. C. (2016). El proceso de descubrimiento de conocimiento en bases de datos. En Descubrimiento de patrones de desempeño académico con árboles de decisión en las competencias genéricas de la formación profesional (pp. 63-86). Bogotá: Ediciones Universidad Cooperativa de Colombia.
Tostado S. E., Ornelas M., Espinal A., Puga H. J. (2015). Implementación de algoritmos de inteligencia artificial para el entrenamiento de redes neuronales de segunda generación, Jóvenes investigadores, Vol 1 no. 3.
Xu R, Wunsch D. (2005). Survey of clustering algorithms, Neural Networks, IEEE Transactions on 16(3).
Published on 01/06/19
Licence: CC BY-NC-SA license