¿Qué es la minería de datos?
La minería de datos o Data Mining es el proceso de analizar patrones ocultos de datos según diferentes perspectivas para convertir esos datos en información en útil y, a menudo, procesable. Los datos se recopilan y reúnen en áreas comunes, como almacenes de datos, y los algoritmos de minería de datos buscan patrones que las empresas puedan utilizar para tomar mejores decisiones, como decisiones que ayuden a reducir costes, aumentar los ingresos o servir mejor a los clientes.
La minería de datos también se conoce como el descubrimiento de datos o el descubrimiento de conocimientos. Es fundamental en la inteligencia de negocios o business intelligence para establecer decisiones basadas en datos.
Definición de minería de datos
Los principales pasos de un proceso de minería de datos son:
- Extraer, transformar y cargar datos en un almacén de datos
- Almacenar y gestionar los datos en bases de datos multidimensionales.
- Proporcionar acceso a los datos a los analistas de negocio mediante software de aplicación.
- Presentar los datos analizados en formas fácilmente comprensibles, como gráficos.
El primer paso en la minería de datos es recopilar datos relevantes y críticos para el negocio. Los datos de una empresa pueden ser transaccionales, no operacionales o metadatos. Los datos transaccionales se refieren a operaciones cotidianas como ventas, inventario y costes. Los datos no operativos suelen ser previsiones, mientras que los metadatos se refieren al diseño lógico de las bases de datos. Los patrones y las relaciones entre los elementos de datos a menudo pueden aportar información relevante para mejorar los procesos empresariales. Las organizaciones muy orientadas al consumidor utilizan técnicas de minería de datos que proporcionan imágenes claras de los productos vendidos, el precio, la competencia y características demográficas demografía de los clientes.
Por ejemplo, el gigante minorista Walmart transmite toda su información relevante a un almacén de datos con terabytes de datos. Los proveedores pueden acceder fácilmente a estos datos, lo que les permite identificar las pautas de compra de los clientes. Pueden generar patrones sobre los hábitos de compra, los días que más compran, los productos más buscados y otros datos utilizando técnicas de minería de datos.
El segundo paso en la minería de datos es seleccionar un algoritmo adecuado, es decir, un mecanismo que produzca un modelo de minería de datos. El funcionamiento general del algoritmo consiste en identificar tendencias en un conjunto de datos y utilizar el resultado para la definición de parámetros. Los algoritmos más populares utilizados para la minería de datos son los algoritmos de clasificación y los algoritmos de regresión, que se utilizan para identificar relaciones entre elementos de datos. Los principales proveedores de bases de datos, como Oracle y SQL, incorporan algoritmos de minería de datos, como la agrupación y los árboles de regresión, para satisfacer la demanda de minería de datos.