MINERIA DE DATOS

Mineria de datos

登録は簡単!. 無料です
または 登録 あなたのEメールアドレスで登録
Rocket clouds
MINERIA DE DATOS により Mind Map: MINERIA DE DATOS

1. Tipos de Información

1.1. Conocimiento Evidente

1.1.1. consulta SQL

1.2. Conocimiento multidimensional

1.2.1. OLAP

1.2.1.1. Navegación por los datos

1.2.1.2. Soportar requerimientos complejos de análisis

1.2.1.3. Analizar datos desde diferentes perspectivas

1.3. Conocimiento oculto

1.4. Conocimiento profundo

1.4.1. información codificada

2. Fases KDD

2.1. limpieza de datos

2.1.1. Data cleansing

2.1.1.1. Eliminar el mayor número posible de datos erróneos o inconsistentes

2.1.2. Criba

2.1.2.1. Selección de datos e eliminación de datos irrelevantes

2.1.3. Uso de histogramas, muestreo y redefinición de atributos

2.2. integracion de datos

2.2.1. combina multiples fuentes de datos

2.2.1.1. Creación del subconjunto de variables o ejemplos sobre los que se realizará el descubrimiento. Esto implica consideraciones sobre la homogeneidad de los datos, su variación a lo largo del tiempo, estrategia de muestreo, grados de libertad, etc.

2.3. Seleccion de datos

2.3.1. recupera datos relevantes

2.3.1.1. Eliminación de ruido, estrategias para manejar valores ausentes, normalización de los datos, etc.

2.4. Mineria de datos

2.4.1. métodos para extraer patrones de datos

2.4.1.1. Clasificación: clasifica un dato dentro de una de las clases categóricas predefinidas.

2.4.1.2. Regresión: el propósito de este modelo es hacer corresponder un dato con un valor real de una variable

2.4.1.3. Clustering: se refiere a la agrupación de registros, observaciones, o casos en clases de objetos similares.

2.4.1.3.1. Un cluster es una colección de registros que son similares entre sí, y distintos a los registros de otro cluster

2.4.1.4. Generación de reglas: aquí se extraen o generan reglas de los datos.

2.4.1.4.1. Hacen referencia al descubrimiento de relaciones de asociación y dependencias funcionales entre los diferentes atributos.

2.4.1.4.2. Se fundamenta en técnicas estadísticas como los análisis de correlación y de variación.

2.4.1.5. Resumen o sumarización: estos modelos proporcionan una descripción compacta de un subconjunto de datos.

2.4.1.6. Análisis de secuencias: se modelan patrones secuenciales para identificar como la ocurrencia de una acción desencadena otras posteriormente

2.4.1.6.1. El objetivo es modelar los estados del proceso, o extraer e informar de la desviación y tendencias en el tiempo.

2.4.1.7. Previsión

2.4.1.7.1. Establece el comportamiento futuro más probable dependiendo de la evolución pasada y presente

2.4.1.8. Simulación

2.4.1.8.1. Generación de múltiples escenarios o posibilidades sujetas a unas reglas o esquemas con el objeto de analizar la idoneidad y comportamiento de una decisión o prototipo en un marco de posibles condiciones futuras y analizar las posibles variaciones o alternativas a una decisión o situación.

2.5. Evaluación de patrones extraídos en fase previa

2.5.1. patrones interesantes

2.5.1.1. Filtración del conocimiento de forma automática

2.5.1.2. Técnicas de visualización para facilitar la valoración de los resultados

2.6. construcción de conocimiento

2.6.1. generación de nueva información

2.6.2. Documentación

2.6.3. Revisión y resolución de posibles inconsistencias

3. Técnicas

3.1. Inteligencia Artificial-algoritmos

3.1.1. redes neuronales

3.1.1.1. perception

3.1.1.2. perception multicapa

3.1.1.3. redes kohonen

3.2. regresión lineal

3.2.1. Datos continuos

3.2.1.1. Regresión lineal global (clásica)

3.2.1.2. Regresión lineal ponderada localmente

3.3. árbol de decisiones

3.3.1. algoritmo ID.3

3.3.2. algoritmo C4.5

3.4. modelo estadístico

3.4.1. Análisis de varianza

3.4.2. Chi cuadrado

3.4.3. Análisis de clusters

3.5. reglas de asociación

3.5.1. Asociaciones de jerarquías

3.5.2. Asociaciones negativas

3.5.3. Asociaciones con valores binarios y contínuos

3.6. agrupación o clustering

3.6.1. algoritmo K-means

3.6.2. algoritmo K-medoids

3.7. Algoritmo genético

3.7.1. Hacen uso de las técnicas biológicas de reproducción (mutación y cruce) para ser utilizadas en todo tipo de problemas de búsqueda y optimización

3.8. Otras:

3.8.1. Series temporales

3.8.2. Lógica difusa

3.8.3. Redes Bayesianas

4. Metodos

4.1. KDD: acuñado en 1989 se refiere a todo el proceso de extracción deconocimiento a partir de una base de datos

4.1.1. entendimiento y meta

4.1.2. crear conjunto de datos objetivo

4.1.3. limpieza y procesamiento de datos

4.1.4. reducción datos y proyección

4.1.5. minería de tatos

4.1.6. análisis exploratorio e hipótesis de modelo selección de algoritmo

4.1.7. búsqueda patrones de interés

4.1.8. interpretación

4.1.9. generación de conocimiento

4.2. KRISP-DM

4.2.1. comprensión de negocio

4.2.2. comprensión de datos

4.2.3. preparación datos

4.2.4. modelamiento

4.2.5. evaluación

4.2.6. despliegue

4.3. SEMMA

4.3.1. selección

4.3.2. exploración

4.3.3. modelamiento datos

4.4. proceso de extracción de conocimiento a partir de

4.5. una base de datos

5. Herramientas

5.1. Técnicas de verificación

5.1.1. comprueba hipótesis suministrada por el usuario

5.2. métodos de descubrimiento

5.2.1. técnicas de predicción

5.3. Clementine de SPSS

5.3.1. integración de data mining con otros procesos y sistemas

5.4. Weka

5.4.1. tareas estándar de minería de datos

5.5. Yale

5.5.1. descubrimiento del conocimiento

5.6. RAMSES

5.6.1. gestión de riesgos integrado

5.7. SAS

5.7.1. incorpora patrones inteligentes a procesos de marketing

5.8. Xelopes

5.9. SNNS

6. Etapas

6.1. selección del modelo

6.1.1. Tipo de datos

6.1.2. Objetivo a lograr

6.2. preprocesamiento

6.2.1. Ajusta el modelo buscando unos valores que intenten maximizar la “bondad” del mismo

6.2.1.1. Todo modelo debe venir acompañado por una función de adaptación que sea capaz de medir el ajuste.

6.3. transformación de datos

7. Clasificacion

7.1. No supervisadas

7.1.1. Descrubrimiento del conocimeinto

7.1.1.1. Descriptivas

7.1.1.1.1. Generar información

7.1.1.1.2. Agrupar

7.1.1.1.3. Visualizar

7.1.1.1.4. Análisis de asociación

7.2. Supervisadas

7.2.1. Extracción de información

7.2.1.1. Descubir tendencias y patrones de comportamiento

7.2.1.1.1. Muestra de datos

7.2.1.1.2. Aprendizaje del modelo

7.2.1.1.3. Generar predicciones

7.2.2. Desventajas

7.2.2.1. Los errores en etapas iniciales no detectados se multiplican en las etapas posteriores

7.2.2.2. Si los datos iniciales no son representativos de toda la población se puede incurrir en desviaciones

7.2.2.3. El modelo puede ser incapaz de detectar los diferentes tipos de datos que se desvían del conjunto de entrenamiento inicial.

7.2.2.4. A veces, la suposición de que los clusters dentro de los datos no se superponen y que se pueden separar fácilmente no es correcta.

8. Aplicaciones

8.1. Comercio y banca: segementación de clientes, previsión de ventas, análisis de riesgo

8.2. Medicina y Farmacia: diagnostico de enfermedades y la efectividad de los tratamientos.

8.3. Seguridad y detección de fraude: reconocimiento facial, identificaciones biométricas, accesos a redes no permitidos, etc.

8.4. Astronomía: identificación de nuevas estrellas y galaxias

8.5. Geología, minería, agricultura y pesca: identificación de áreas de uso para distintos cultivos o de pesca o de explotación minera en bases de datos de imágenes de satelites

8.6. Ciencias Ambientales: identificación de modelos de funcionamiento de ecosistemas naturales y/o artificiales (p.e. plantas depuradoras de aguas residuales) para mejorar su observación, gestión y/o control.

8.7. • Ciencias Sociales: Estudio de los flujos de la opinión pública. Planificación de ciudades: identificar barrios con conflicto en función de valores sociodemográficos.