header_img2
header_img3
header_img1

ELISEO VITE FRANCO 

ANÁLISIS DE INFORMACIÓN Y MINERIA DE DATOS PARA LA TOMA DE DECIIONES

PRODUCTO INTEGRADOR

 

Sociedad de la Información y Sociedad del Conocimiento

Vivimos en una época en la que tenemos más información que nunca gracias a internet y a las tecnologías digitales. A esto le llamamos Sociedad de la Información. Pero cuando usamos toda esa información para crear nuevas ideas, soluciones y conocimiento útil, pasamos a ser parte de la Sociedad del Conocimiento. La clave está en convertir información en algo útil que mejore nuestra vida diaria o profesional.

INTELIGENCIA DE NEGOCIOS

La Inteligencia de Negocios (BI) funciona como un asistente inteligente que se encarga de reunir toda la información clave que produce una empresa diariamente, desde ventas hasta gastos, pasando por comportamientos de clientes y rendimiento de empleados. Luego, analiza y convierte esta información en conocimiento claro y fácil de entender mediante reportes visuales como gráficos, tablas o dashboards.

Esto nos permite tomar decisiones más rápidas, precisas y fundamentadas, por ejemplo: identificar cuáles productos tienen más éxito, dónde se están generando gastos innecesarios, qué clientes son más rentables o en qué regiones vender más. Al final, gracias a la inteligencia de negocios, cualquier empresa puede actuar de forma proactiva en vez de reactiva, anticipando situaciones y obteniendo mejores resultados.

OLAP (Procesamiento Analítico en Línea)

El OLAP es una técnica informática diseñada para explorar y analizar grandes cantidades de datos de forma rápida, sencilla y dinámica. Piensa en OLAP como un gran cubo interactivo lleno de información; cada lado del cubo representa una perspectiva diferente del negocio, como ventas por región, por producto o por tiempo. Al girar este cubo virtual puedes ver la información desde múltiples ángulos y descubrir cosas que antes no eran evidentes, como tendencias de mercado, patrones en el comportamiento del consumidor o áreas específicas que requieren atención inmediata. Gracias al OLAP, la empresa puede responder preguntas complejas en cuestión de segundos, facilitando enormemente la toma de decisiones estratégicas y operativas.

Minería de Datos

La minería de datos es similar a buscar tesoros escondidos dentro de enormes montañas de información. Usando técnicas especializadas y herramientas informáticas avanzadas, somos capaces de descubrir patrones, tendencias o relaciones ocultas en los datos, cosas que no podríamos ver a simple vista o con métodos tradicionales.

Por ejemplo, la minería de datos nos puede mostrar que los clientes que compran cierto producto tienen más probabilidades de comprar otro específico. O bien, que ciertos grupos de consumidores tienen comportamientos similares que antes pasábamos por alto. Al conocer estos detalles, podemos anticiparnos a las necesidades del mercado, tomar mejores decisiones y desarrollar estrategias más efectivas que incrementen las ganancias y reduzcan costos en nuestra organización.

¿Qué es el proceso de KDD (Minería de datos)?

 

 

El proceso KDD (Knowledge Discovery in Databases), o Descubrimiento de Conocimiento en Bases de Datos, es un método estructurado que usamos para transformar grandes volúmenes de datos en bruto en conocimiento práctico y valioso para la toma de decisiones.

Este proceso se compone de varias etapas claramente definidas:

Selección: Primero identificamos y seleccionamos solo los datos relevantes que nos interesan analizar, descartando aquellos que no aportan valor.

Preprocesamiento: En esta etapa limpiamos los datos seleccionados, eliminando errores, duplicados o información incorrecta. Esto es importante para que nuestro análisis sea confiable.

Transformación: Aquí convertimos los datos limpios en formatos más fáciles de analizar, como tablas o gráficos que sean compatibles con las herramientas que vamos a utilizar.

Minería de datos: En esta fase aplicamos métodos avanzados para descubrir patrones, tendencias o relaciones ocultas en los datos, cosas que normalmente no podríamos ver a simple vista.

Interpretación y Evaluación: Finalmente, revisamos los resultados obtenidos, explicamos claramente qué significan y decidimos cómo usarlos en la práctica para mejorar la toma de decisiones en la empresa o cualquier otro contexto.

Tareas y Técnicas de Minería de Datos y su Correlación

 

 

 

 

 

La minería de datos se divide en tareas específicas, y para cada una existen técnicas diseñadas especialmente. Algunas tareas y técnicas comunes son:

Clasificación: Esta tarea organiza los datos en diferentes categorías o grupos claramente definidos. Por ejemplo, podemos clasificar correos electrónicos en "spam" y "no spam". Las técnicas más populares aquí son los árboles de decisión y redes neuronales.

Clustering: El clustering o agrupamiento es una técnica que junta datos similares en grupos, aunque no sepamos inicialmente cómo son esos grupos. Por ejemplo, agrupar clientes según preferencias o comportamientos de compra similares. La técnica más popular es K-means.

Predicción: Esta técnica usa los datos históricos para anticipar resultados futuros. Por ejemplo, predecir ventas del próximo trimestre usando ventas anteriores. La técnica comúnmente utilizada es la regresión, que ayuda a identificar tendencias futuras.

Análisis de asociaciones: Descubre conexiones o reglas ocultas en los datos, por ejemplo, "los clientes que compran pañales también suelen comprar toallas húmedas". Esto permite mejorar estrategias comerciales o promociones especiales.

Herramientas ETL y Ejemplos de Herramientas MOLAP, Data Warehouse y Data Marts

 

 

Para poder analizar datos, primero necesitamos organizarlos. Las herramientas ETL (Extraer, Transformar, Cargar) hacen precisamente esto: toman datos de múltiples fuentes, los limpian, organizan y los cargan en lugares donde sean más fáciles de analizar. Algunos ejemplos muy utilizados son Talend y Microsoft SQL Server Integration Services.

MOLAP (Multidimensional OLAP): Son herramientas que nos permiten realizar análisis rápidos y eficientes sobre grandes volúmenes de datos usando cubos multidimensionales. Un ejemplo claro es Microsoft Analysis Services, que facilita ver datos desde distintas perspectivas.

Data Warehouse (Almacenes de datos): Es un gran repositorio centralizado donde las empresas guardan todos sus datos importantes, desde ventas hasta finanzas, permitiendo consultas rápidas y efectivas. Ejemplos conocidos son Amazon Redshift o Google BigQuery.

Data Marts: Son almacenes más pequeños que almacenan datos específicos de áreas concretas de una organización, como ventas, marketing o recursos humanos. Facilitan que los departamentos accedan rápidamente a información específica sin necesidad de consultar toda la base de datos.

VISTA MINABLE

 

Una vista minable es una versión simplificada y cuidadosamente organizada de nuestro almacén de datos original. Su propósito principal es facilitar el análisis con herramientas especializadas de minería de datos. Es decir, tomamos los datos importantes, los limpiamos, organizamos y dejamos listos para que el análisis sea más sencillo, eficiente y rápido.

 

h

Herramientas de Minería de Datos

 

 

Las herramientas de minería de datos son programas diseñados especialmente para realizar tareas específicas como descubrir patrones, predecir comportamientos, clasificar información y mucho más. Entre las herramientas más utilizadas por su facilidad de uso y efectividad destacan Weka, RapidMiner, y Orange, que permiten obtener resultados rápidos incluso sin tener conocimientos avanzados en programación o estadística.

 

Técnicas de Minería de Datos

Clasificación: Es útil para organizar los datos en categorías específicas. Un ejemplo muy conocido es el uso de árboles de decisión para predecir resultados futuros o determinar comportamientos de cliente.

Clustering (Agrupamiento): Agrupa elementos similares automáticamente. Una técnica muy conocida es el método K-means, que segmenta claramente grandes cantidades de datos en grupos fáciles de interpretar

Regresión: Nos ayuda a predecir valores numéricos basándonos en información previa. Por ejemplo, podemos predecir ventas futuras o gastos probables.

Asociación: Esta técnica descubre relaciones interesantes entre diferentes elementos de los datos. Es la típica regla de "los clientes que compran esto, también suelen comprar aquello". Estas reglas nos permiten mejorar nuestras estrategias de venta o promoción

Almacén de Datos para Generar Vistas Minables

Durante el desarrollo de las actividades del curso, preparamos un archivo CSV especialmente diseñado para ser analizado de manera sencilla. Este archivo contenía información organizada sobre distintos casos judiciales, como número de expediente, tribunal que llevó el caso, montos demandados, resultados, jueces implicados, y fundamentos legales más comunes. Limpiamos cuidadosamente estos datos para asegurarnos que fueran precisos y útiles, eliminando errores, guiones y comas internas para evitar problemas de compatibilidad con la herramienta de análisis.

Herramientas Utilizadas en el Análisis de Datos

Para analizar los datos utilizamos principalmente la herramienta Weka, debido a su facilidad de uso, efectividad, y capacidad para aplicar múltiples técnicas sin requerir conocimientos avanzados en programación. También utilizamos Microsoft Excel como herramienta complementaria para calcular estadísticas adicionales, como la mediana, que Weka no proporciona directamente. Estas herramientas facilitaron considerablemente la obtención de información valiosa a partir de grandes volúmenes de datos.

Técnicas Utilizadas en el Análisis de Datos
A lo largo del curso, aplicamos dos técnicas fundamentales con Weka:

Clasificación (ZeroR): Utilizamos esta técnica sencilla para establecer una referencia inicial o base. ZeroR nos ayudó a entender rápidamente cómo estaban distribuidos nuestros casos judiciales respecto a ciertas variables, permitiendo obtener una idea clara sobre cuál era la categoría más común en nuestros datos.

Clustering (SimpleKMeans): Posteriormente, profundizamos usando el método de clustering K-means para descubrir patrones ocultos. Esta técnica agrupó automáticamente nuestros datos en distintos segmentos, revelando grupos de casos judiciales similares. Gracias a esto pudimos identificar claramente patrones o características comunes en ciertos grupos de expedientes, como montos demandados, tipos de casos frecuentes, o resoluciones más comunes en determinados tribunales.

Panel Gerencial (Dashboard) Derivado del Análisis de Datos

Creamos un dashboard o tablero sencillo que registró claramente cada etapa del análisis, desde la preparación inicial del archivo hasta la obtención de resultados específicos. Este tablero nos sirvió para dar seguimiento al progreso, asegurarnos de que cada paso se cumpliera correctamente, y resumir de manera gráfica y organizada los resultados principales obtenidos del análisis.

Conclusión del Análisis Realizado

La aplicación de estas técnicas y herramientas de minería de datos nos permitió transformar grandes cantidades de información compleja en conocimiento claro, sencillo y práctico. Los resultados obtenidos, especialmente mediante clustering, nos brindaron valiosa información sobre patrones recurrentes en casos judiciales, permitiendo prever tendencias y mejorar la toma de decisiones estratégicas en futuros casos. El aprendizaje fundamental obtenido es que un análisis adecuado y bien estructurado de los datos puede revelar información sorprendente y valiosa, que de otro modo pasaría inadvertida.