Minería de Datos

De Departamento de Informatica
Revisión a fecha de 19:44 26 jun 2016; Diego.jara (Discusión | contribuciones)
(dif) ← Revisión anterior | Revisión actual (dif) | Revisión siguiente → (dif)
Saltar a: navegación, buscar

La minería de datos o data mining es una de las etapas del "proceso de descubrimiento de datos", la cual consiste en el procesamiento de grandes volúmenes de datos, para encontrar e identificar patrones de datos ocultos en ellos, con tal de convertir estos datos en información. La minería de datos es el resultado de la combinación de campos como la ’’estadística’’, ‘’inteligencia artificial’’, ‘’aprendizaje automático’’ y ‘’sistemas de bases de datos’’.

Contenido

Proceso de descubrimiento de datos

El proceso de descubrimiento de datos (KDD, por sus siglas en inglés) apunta a procesar una gran cantidad de datos presentes en las bases de datos, para encontrar un conocimiento útil y, por consiguiente, obtener información valiosa para que el usuario use a conveniencia. Habitualmente se define como “Un proceso no trivial de identificación válida, novedosa, potencialmente útil y entendible de patrones comprensibles que se encuentran ocultos en los datos”(Fayyad et alli, 1996). Los conceptos de minería de datos y KDD suelen usarse indistintamente. El proceso de KDD consiste en 5 etapas:

  1. Selección de datos: En esta etapa se determinan las fuentes de datos y el tipo de información a utilizar. Es la etapa donde los datos relevantes para el análisis son extraídos desde la o las fuentes de datos.
  2. Preprocesamiento: Esta etapa consiste en la preparación y limpieza de los datos extraídos desde las distintas fuentes de datos en una forma manejable, necesaria para las fases posteriores. En esta etapa se utilizan diversas estrategias para manejar datos faltantes o en blanco, datos inconsistentes o que están fuera de rango, obteniéndose al final una estructura de datos adecuada para su posterior transformación.
  3. Transformación: Consiste en el tratamiento preliminar de los datos, transformación y generación de nuevas variables a partir de las ya existentes con una estructura de datos apropiada. Aquí se realizan operaciones de agregación o normalización, consolidando los datos de una forma necesaria para la fase siguiente.
  4. Minería de datos: Es la fase de modelamiento propiamente tal, en donde métodos inteligentes son aplicados con el objetivo de extraer patrones previamente desconocidos, válidos, nuevos, potencialmente útiles y comprensibles y que están contenidos u “ocultos” en los datos.
  5. Interpretación y Evaluación: Se identifican los patrones obtenidos y que son realmente interesantes, basándose en algunas medidas y se realiza una evaluación de los resultados obtenidos.

Fundamentos de la minería de datos

El proceso de minería de datos es resultado de una larga investigación y evolución, la cual comenzó cuando los datos de negocios fueron almacenados por primera vez, y se desarrolló de manera más efectiva gracias a las nuevas mejoras en las tecnologías creadas para permitir a los usuarios navegar a través de los datos en tiempo real. Si bien es un proceso que comúnmente se ocupa mediante algoritmos computacionales sobre bases de datos empresariales, también puede ser aplicado a cualquier dato imaginable, tales como imágenes, datos numéricos, música o incluso mamografías. Gracias a esto, la minería de datos tiene infinitas aplicaciones: marketing, industrias, comerciales, internet, etc. El entorno de la minería de datos es del tipo usuario-servidor, en donde el servidor hace la mayor parte del trabajo de minería, ocupando algoritmos y técnicas para eliminar datos inútiles o redundantes, recolectar información útil y reorganizarla para que finalmente sea considerada como información. Algunas técnicas de minería de datos usuales son:

  • Red neuronal artificial: Sistema de interconexión de neuronas en una red, que colaboran para producir un estímulo de salida.
  • Regresión lineal: Relaciona la dependencia entre una variable dependiente, una independiente y un término aleatorio.
  • Árboles de decisión: Diagramas de construcciones lógicas que sirven para representar una serie de condiciones sucesivas.
  • Clustering: Agrupamiento de clústers con características comunes, para poder describir un gran conjunto de datos.
  • Reglas de asociación: Identificación de reglas fuertes mediante medidas de interés para descubrir regularidades o conductas dentro de los datos.

Además, dichas técnicas pueden funcionar mediante dos tipos de algoritmos:

  • Algoritmos predictivos: Predicción de datos a partir de otros datos encontrados.
  • Algoritmos de descubrimiento: “Barrimiento” de las bases de datos para encontrar modelos o patrones ocultos dentro de ellas.

Ventajas y desventajas

Ventajas

  • Con el uso de la minería de datos, pueden analizarse enormes bases de datos, tanto a lo ancho como a lo largo.
  • La probabilidad de obtener información inesperada es muy alta, los cuales entregan valor a la compañía.
  • Las técnicas son casi siempre válidas y confiables, pues los modelos usados son modelos de del campo de la estadística, los cuales ya han sido probados y funcionan correctamente.
  • La gran rapidez para construir y generar modelos permite que se ahorre tiempo valioso para la empresa.

Desventajas

  • Según el tipo de datos, la extracción y procesamiento de datos puede ser dificultosa o costosa.
  • No siempre se puede asegurar la obtención de un modelo válido.
  • El preprocesamiento de datos puede llevar mucho tiempo.

Ejemplos de usos de la minería de datos

Empresarial

La minería de datos puede contribuir significativamente en el valor de una empresa, pues se pueden encontrar modelos o patrones que sirven para mejorar sus productos, o incluso para predecir conductas de los usuarios de dichos productos.

Ciencia

El uso de esta tecnología se ha ocupado últimamente en las áreas de ciencia e ingeniería, como por ejemplo para relacionar las secuencias de ADN del ser humano, chequear las condiciones de redes de alta tensión, e incluso para el análisis de gases disueltos en transformadores eléctricos.

Juegos

Sirve para la extracción de diversas estrategias y patrones para juegos combinacionales o de tableros. Últimamente, con los avances de la tecnología y los videojuegos, la minería de datos ha ayudado a conocer las conductas de los consumidores de videojuegos, lo que ha provocado que diversas empresas no fracasen en la realización de juegos, ergo, que no quiebren.

Herramientas personales
Espacios de nombres
Variantes
Acciones
Navegación
Herramientas