• English 
  • Spanish 

Minería de Datos. Redes Bayesianas y Neuronales

som.png Short description: Técnicas de Minería de Datos, incluyendo redes Bayesianas y neuronales, y aplicaciones en meteorología y clima en problemas de diagnóstico y predicción

La Minería de Datos (Data Mining) es el proceso de extraer información no trivial y potencialmente útil a partir de grandes conjuntos de datos disponibles en las ciencias experimentales (registros históricos de observaciones, reanálisis, simulaciones de GCMs, etc.), proporcionando información en un formato legible que puede ser usada para resolver problemas de diagnosis, clasificación o predicción. Tradicionalmente, este tipo de problemas se resolvían de forma manual aplicando técnicas estadísticas clásicas, pero el incremento del volumen de los datos ha motivado el estudio de técnicas de análisis automáticas que usan herramientas más complejas. Por lo tanto, la Minetía de datos indentifica tendencias en los datos que van más allá de un análisis simple. Técnicas modernas de Minería de datos (reglas de asociación, árboles de decisión, modelos de mezcla de Gaussianas, algoritmos de regresión, redes neuronales, máquinas de vectores soporte, Redes Bayesianas, etc.) se utilizan en ámbitos muy diferentes para resolver problemas de asociación, clasificación, segmentación y predicción.

Entre los diferentes algoritmos de Minería de datos, los modelos gráficos probabilísticos (en particular las Redes Bayesianas) constituyen una metodología elegante y potente basada en la probabilidad y la estadística que permite construir modelos de probabilidad conjunta manejables que representan las dependencias relevantes entre un conjunto de variables (cientos de variables en aplicaciones prácticas). Los modelos resultantes permiten realizar inferencia probabilística de una manera eficiente. Por ejemplo, una Red Bayesiana podría representar la relaciones probabilísticas entre campos sinópticos de larga escala y registros de observaciones locales, proporcionando una nueva metodología de downscaling probabilístico: p. ej. permite clacular P(observación|predicción de larga escala). Por ejemplo, en la siguiente figura los puntos rojos representan nodos de la rejilla de un GCM, mientras que los puntos azules corresponden a estaciones con registros de observaciones (los enlaces muestran las dependencias importantes aprendidas de forma automática a partir de los datos).

datamining_bnet1.jpg

Formalmente, una Red Bayesiana es una grafo dirigido acíclico cuyos nodos representan variables y los arcos que los unen codifican dependencias condicionales entre las variables. El grafo proporciona una forma intuitiva de describir las dependencias del modelo y define una factorización sencilla de la distribución de probabilidad conjunta consiguiendo un modelo manejable que es compatible con las dependencias codificadas. Existen algoritmo eficientes para aprender modelos gráficos probabilísticos a partir de datos, permitiendo así la aplicación automática de esta metodología en problemas complejos. Las Redes Bayesianas que modelizan secuencias de variables (por ejemplo, series temporales de observaciones) se denominan Redes Bayesianas Dinámicas. Una generalización de las Redes Bayesianas que permiten representar y resolver problemas de decisión con incertidumbre son los Diagramas de Influencia.

Por otra parte, las redes neuronales son modelos no lineales, inspirados en el funcionamiento del cerebro, que fueron diseñados para resolver una gran variedad de problemas. Los perceptrones multi-capa son algoritmos de regresión que construyen un modelo determinista y=f(x), relacionando un conjunto de predictores, x, y predictandos, y (figura inferior izquierda). Las redes auto-organizativas (SOM) son redes competitivas diseñadas para problemas de agrupación (clustering) y visualización (figura inferior derecha).

neuralnets.jpgneuralnetsSOM.jpg

Lectuas clave (metodología):

  • Castillo, E. et al. (1997) Expert systems and probabilistic network models. Springer (web, free Spanish version pdf).
  • Gutiérrez, J.M. et al. (1999) An introduction to functional networks with applications. A neural-based paradigm. Kluwer (web, Chapter 1. Introduction to neural networks (876.65 KB)).
  • Heckerman, D. (1996), A Tutorial on Learning With Bayesian Networks, Microsoft Research, Tech. Rep. MSR-TR-95-06, March. pdf

Lectuas clave (aplicación en meteorología):

  • Gutiérrez, J.M. et al. (2004) Redes Probabilísticas y Neuronales en las Ciencias Atmosféricas, Monografías del Instituto Nacioal de Meteorología (web).
  • Ancell, R. et al. (2004) Applications of Bayesian networks in meteorology (web)

Actividades del grupo de Meteorología y Minería de Datos de Santander:

  • Adaptación de algoritmos automáticos de aprendizaje en problemas climáticos/meteorológicos.
  • Predicción meteorológica con Redes Bayesianas y Neuronales.
  • Redes Auto-organizativas (SOM) y clasificación de tipos de tiempo (weather typing).
  • Estudios de sensibilidad y diagnóstico.
  • Downscaling estadístico (redes de alta resolución).
  • Weather generators y extensión de modelos ocultos de Markov (Hidden Markov Models, HMM).
  • Multi-site downscaling.

Gente: , , , ,