• Hablemos de Big Data 3ra Edición
  • Primera Universidad Latinoamericana en ofrecer esta maestría
  • Erasmus Mundus Master Course in Data Mining and Knowledge Management
  • Jornadas de Data Mining
  • Primera Universidad Latinoamericana en ofrecer esta maestría
Previous Next

Cronograma Materias


Horarios, profesores y contenidos, correspondientes a las materias de la Maestria y Carrera de especialización en Data Mining y Knowledge Discovery. Para inscribirse en los cursos, en forma vocacional, consultar a:  Esta dirección de correo electrónico está protegida contra spambots. Usted necesita tener Javascript activado para poder verla.

 

CURSOS DE NIVELACIÓN - CICLO  2017


Ver Comisiones y Fechas de Dictado de los Cursos

Los postulantes deben aprobar los exámenes de los tres cursos de nivelación: Estadística, Algoritmos y Bases de Datos, cuyos programas se indican a continuación:

Cursos de Nivelación
CURSO
TEMARIO










Algoritmos

 

 

Conceptos básicos de programación  Tipos de datos: primitivos.

El tipo de datos lista, arboles, grafos - Funciones sobre listas.

Conceptos básicos de los programas imperativos. Estructuras de control - variables.

Funciones y procedimientos - pasaje de parámetros.

Conceptos de complejidad algorítmica

Recursión

 

Bibliografía:

1. Data Structures and Algorithms, Aho, Hopcroft y Ullman, Addison Wesley, 1987

2. Data Structures and Network Algorithms, R.E.Tarjan, Society for Industrial & Applied Mathematics, 1983.

3. Brassard G., Bratley P., "Fundamental of Algorithmics",Prentice Hall,1996.

4. Garey M.R. and Johnson D.S., "Computers and intractability: a guide to the theory of NP- Completeness", W. Freeman and Co., 1979.

5. Gross J., and Yellen J. , "Graph theory and its applications", CRC, 1999.

 



















Estadística

 


1) Generalidades.

2) Etapas de una investigación.

3) Estadística Descriptiva. Definiciones: Población, muestra, Variable, Valor de una variable, Dato, Observación o Medición, Caso.

4) Gráficos: Histograma: construcción y análisis de posibles formas.

5) Medidas de Resumen:

a) Medidas de Posición o Centrado: Promedio o Media Muestral, Mediana

Muestral, Media α- Podada,

b) Medidas de Dispersión o Variabilidad: Rango Muestral, Varianza Muestral

c) , Desvío Estándar Muestral, Coeficiente de Variación, Distancia Intercuartil, Distancia entre Cuartos, Desvío Absoluto Mediano.

d) Box-Plots. Construcción y análisis. Outliers. QQ-plot.

6) Inferencia estadística.

a) Método de momentos.

b) Intervalos de Confianza. Construcción e interpretación. Intervalos de confianza para los parámetros de una distribución normal. Método general para obtener intervalos de confianza. Intervalos de confianza de nivel asintótico.

c) Tests de hipótesis. Construcción e interpretación. P-valor. Error tipo I y II. Nivel de significación del test. Tests de hipótesis de nivel α para los parámetros de la distribución normal. Región de rechazo. Tests de hipótesis asintótico para la media de una distribución cualquiera.

d) Relación entre tests de hipótesis bilaterales e intervalos de confianza.


Bibliografía

Probabilidades y Estadística. Elena Martinez-Ana Bianco,

http://cms.dm.uba.ar/academico/materias/1ercuat2015/

probabilidades_y_estadistica_C/PyEC.pdf

Jay L. Devore, _Probabilidad y Estadística para Ingeniería y Ciencias

_, International Thomson Editores.

Matlo_, Norman S. _Probability Modeling and Computer Simulation

_. PWS-Kent, Publishing Company, 1988.

William Mendenhall. _Estadísitica para Administradores_ . Grupo Editorial

 












Base de Datos

 

 

Capitulo 1. Introducción. Qué es una base de datos. Diferencia entre bases de datos y almacenamiento en archivos. Distintos tipos de DBMS (database management systems).

Capitulo 2. Modelos de Datos. Modelos semánticos. Modelo Entidad/Relación. Diseño de una base de datos. Casos de estudio. Diferencias con UML.

Capitulo 3. Modelos lógicos. Modelo relacional. Equivalencias entre modelos. Pasaje del modelo E/R al relacional.

Capitulo 4. Lenguajes de Consulta. Álgebra Relacional. Operadores básicos: Selección, Proyección, Producto Cartesiano, Unión, Diferencia. Operadores complejos: Junta Natural, Cociente, Intersección.

Capitulo 5. SQL como Lenguaje de Consulta. Transformación de AR a SQL. Cláusulas SELECT, FROM. WHERE, GROUP BY. Operadores avanzados.

Capitulo 6. Diseño Relacional. Normalización. Tercera Forma Normal, Forma Normal de Óbice-Codd. Descomposición sin perdida de información. Dependencias funcionales. Axiomas de Armstrong.

Bibliografía:

1. Ramakrishnan/Gherke - Database Management Systems, 3rd Ed. Mc Graw-Hill, 2003

Sitio web del libro: http://www.cs.wisc.edu/~dbbook

2. Elamsri/Navathe - Fundamentals of Database Systems, 4th Ed., Addison Wesley, 2003

3. Garcia Molina/Ullman/Widom - Database Systems: The Complete Book, Prentice Hall, 2001

 

 

ASIGNATURAS - PRIMER CUATRIMESTRE - CICLO  2017

Los alumnos se dividirán en Dos Comisiones.

Comisión 1
 cursará Lunes, Martes y Sábado.
Comisión 2 cursará Jueves, Viernes y Sábado.



Asignaturas de Primer Año
ASIGNATURA
TEMARIO




Aprendizaje Automático




Aprendizaje conceptual, espacio de versiones. Árboles de decisión. Sobreajuste y navaja de Occam. Redes neuronales. Estimación e intervalos de confianza. Aprendizaje bayesiano. Teoría computacional del aprendizaje. Aprendizaje PAC, dimensión VC, cotas de error. Aprendizaje basado en instancias. Algoritmos genéticos. Aprendizaje de conjuntos de reglas. Aprendizaje analítico. Aprendizaje por refuerzo. Combinación de clasificadores: mayoría ponderada, bagging, boosting. Enfoques multiestratégicos.


Data Mining




Etapas del proceso de data-mining. Reglas de asociación. Mining de “canasta de mercado”. Algoritmo A-Priori, algoritmo PCY y extensiones. Mining de bajo soporte y alta correlación. Query flocks, estrategias de ejecución. Búsquedas en la Web y Web-mining. Clustering: medidas de distancia, dimensionalidad, distintos enfoques. Matching de secuencias. Modelo de episodios.




Análisis Inteligente
de Datos




Análisis exploratorio y confirmatorio. Reseña histórica. Revisión de métodos exploratorios; tablas, gráficos, diagramas de tallo y hoja, box-plot, análisis de normalidad. Técnicas descriptivas multidimensionales. Análisis en componentes principales. Análisis factorial de correspondencias. Métodos de clasificación y agrupamiento. Clasificación Jerárquica. K-medias. Caras de Chernov. Gráficos de estrellas. Gráficos de Rayos Sol. Gráficos de Andrews. Relación entre Análisis factorial y Clasificación. Árboles de decisión. Métodos de segmentación. Análisis discriminante.

 


Asignaturas de Segundo Año
ASIGNATURA
TEMARIO


Materia a Confirmar




Materia a Confirmar
 

 







Taller de Tesis I

 

Temas teóricos (del programa):

1. Objetivos y conceptos básicos
2. Etapas en la preparación de documentos
3. Metodología
4. Hallazgos o Resultados
5. Tablas
6. Figuras
7. Introducción, marco teórico y objetivos
8. Discusión y conclusiones
9. Referencias bibliográficas
10. Título y palabras clave
11. Resumen y Agradecimientos
12. Corrección y apreciación del manuscrito
13. Autoría
14. Criterios de elección de las revistas. Indización
15. Preparación y envío del manuscrito
16. Evaluación del manuscrito
17. Otros documentos académicos o científicos
18. Tesis de Posgrado
19. Ética y fraude científico
20. Presentaciones orales y en posters

Actividades conexas:

A. Análisis de un artículo
B. Metodología
C. Resultados
D. Tablas
E. Figuras
F. Introducción
G. Discusión y conclusiones
H. Referencias
I. Título y Resumen
J. Apreciación
K. Encuesta
L. Composición
M. Presentación oral

 

ASIGNATURAS - SEGUNDO CUATRIMESTRE - CICLO 2016

Asignaturas de Primer Año
ASIGNATURA
TEMARIO


Data Mining 
en
Economía y Finanzas

Grupo 1: Lunes de 19 a 22
Grupo 2: Jueves de 19 a 22


Este curso se desarrollará en base a casos de estudio, donde previamente se impartirán los conocimientos básicos del dominio de aplicación particular. Análisis exploratorio de datos económicos. Visualización. Construcción y evaluación de modelos predictivos en economía y finanzas. Series temporales. Modelos neuro-difusos.  Análisis y administración de riesgos y su modelización estadística. Riesgo de mercado, crediticio y de transacciones. Análisis de canasta de mercado. Customer Relationship Management: retención de clientes, adquisición de nuevos clientes, cross-selling y scoring.

 

 

 

 




Data Mining en 

Ciencia y Tecnología

Grupo 1: Martes de 19 a 22
Grupo 2: Viernes de 19 a 22


Unidad 1. Presentación del curso y de los temas del programa. Introducción a los campos de aplicación. Problemas y metodologías de trabajo típicas en ciencia y tecnología. Sistemas y data mining.

Unidad 2. Data-mining en astronomía. El espectro electromagnético: frecuencia, longitud de onda y energía. Asociaciones espaciales y temporales de eventos: multiplicidad de barridos con diferentes sensores y multiplicidad de datos en el tiempo. Exploración sistemática de datos. Correlación cruzada e identificación cruzada de objetos. Observatorios virtuales.
Unidad 3. Temas especiales de clustering. clustering difuso, por densidad, por prototipos y para datos mixtos. Validación de clusters.
Unidad 4. Estándares en data-mining. Necesidad. Campos de Aplicación. Ejemplos: CRISP y PMML.
Unidad 5. Data-mining y sistemas ontológicos. Definición de ontología. Contenido deinformación y similitud semántica en una ontología. Organización de metadatos en una ontología y utilización en data mining.
Unidad 6. Data-mining en bioinformática. Análisis de secuencias de ADN y proteínas. Bases de datos de secuencias de ADN y proteínas. Uso de micromatrices de ADN para analizar la expresión de genes. Limpieza y extracción de datos. Técnicas estadísticas, de clasificación y de agrupamiento para el análisis de datos de expresión génica. Utilización de ontologías.
Unidad 7. Análisis de redes. Grafos dirigidos y no dirigidos. Grafos bipartitos. Propiedades globales de redes: distancia, diámetro, medidas de centralidad. Clustering ybúsqueda de motivos. Redes de interacciones. Redes de correlación. Aplicaciones en data mining. Ejemplos en biología y tecnología.
Unidad 8. Introducción a sistemas de información geográfica (GIS). Sensores remotos para la obtención de información geográfica. Espectro electromagnético. Representación por píxel y vectorial. Pre-procesamiento. La organización de la información geográfica: mapas y capas. Las consultas en sistemas GIS.











Enfoque Estadístico

del Aprendizaje

Grupos 1 y 2:
Sábado 9 a 16


Contenidos mínimos:

1. Enfoques de la inferencia estadística. Estimación por Máxima Verosimilitud. InferenciaBayesiana.
2. Regresión lineal simple y múltiple. Estimación de mínimos cuadrados. Análisis de supuestosdel modelo. Inferencia. Diagnósticos de Influencia. Multicolinealidad. Transformaciones. Variables dummies. Interacción. Métodos de selección de variables.
3. Odds y Riesgo Relativo. Regresión logística binaria. Logits. Estimación MV. Inferencia en elmodelo. Pruebas de ajuste de Hosmer y Lemeshow. Métodos de selección de variables.Medidas diagnósticas. Clasificación con Regresión logística. Regresión logísticamultinomial y ordinal.
4. Comparación de modelos y algoritmos. Evaluación y selección de modelos. LRT y devianza.Indicadores de ajuste y comparación más utilizados: AIC, BIC, RMSEA, KS, medidas deparsimonia, AUC, etc. Métodos gráficos: curvas ROC, gráficos lift, gráficos de ganancia,gráficos de riesgo, etc. Factor Bayes.
5. Redes bayesianas. Condición de Markov. Distribuciones asociadas a una RB. Aprendizajes enuna RB. Propagación de la evidencia. Aprendizaje paramétrico: MV versus Bayesiano.Redes para clasificación. Naive Bayes.

Algunos tópicos a desarrollar en los trabajos de intensificación:

- Nociones de muestreo y remuestreo. Validación cruzada. Bootstrap, Jacknife, y métodosrelacionados.
- Gibbs Samping: aplicaciones.
- Regresión Ridge y Lasso.
- Regresión por mínimos cuadrados parciales (PLSR).
- Tratamiento de datos faltantes.


Asignaturas de Segundo Año

 

 

 

 





Taller de Tesis II

Jueves 19 a 22


Aproximación histórica al conocimiento científico. Naturaleza del conocimiento científico. Aproximación epistemológica y metodológica al conocimiento científico. Aproximación al contexto histórico del conocimiento científico y su relación con la formulación y aceptación de teorías. Naturaleza del conocimiento científico y conceptos teóricos básicos de la epistemología y de la Confirmación y refutación de hipótesis. Las paradojas de la confirmación. Falsación y falsabilidad. Contrastación. Verificación. Explicación y predicción. Diferentes alternativas en la generación de las hipótesis.

• Corrientes epistemológicas. Inductivismo ingenuo y amplio. La concepción falsacionista de Popper. Críticas a la inducción. Enunciados básicos. El carácter problemático del criterio de demarcación. La concepción de Kuhn de la ciencia: paradigmas, ciencia normal y ciencia revolucionaria. La tesis de la inconmensurabilidad. El falsacionismo sofisticado de Lakatos. Los programas de investigación científica (PIC). Cambios progresivos y regresivos. Relaciones entre PIC. Paradigma y PIC. Historia interna e historia externa.

• Especificidades de Data Mining respecto a la propuesta de un origen de las hipótesis a partir de los datos. Análisis del status epistemológico de Data Mining a la luz de los diferentes tipos de empirismos desarrollados.

• Análisis de las Tesis de la Maestría. Indagación de los aspectos epistemológicos. Primera entrega y devolución.

• Metodología de la ciencia aplicada I. Introducción a la metodología científica. Componentes del proceso de investigación científica. Tipos de investigación científica: Clasificación. Estrategias metodológicas realizadas a los fines de contrastar las hipótesis desarrolladas. Delimitación del tema. Fases en el proceso de investigación. Propuesta inicial y tesina: diferencias en sus estructuras.

• Metodología de la ciencia aplicada II. Estructura de la tesis. Reglas y recomendaciones en el proceso de elaboración de la tesis. Tipos de variables. Clasificación. Matrices de datos: conceptos subyacentes.







Recuperación y Minería
de Texto

Viernes 19 a 22


Unidad 1. Introducción a Minería de Texto. Información textual. Fuentes estructuradas, semi-estructuradas y texto libre. Características de la Web.
Unidad 2. Crawling. Protocolos. Robots de navegación de la "web" ("Arañas").
Unidad 3. Indexación y recuperación de información en la web. El modelo del Espacio Vectorial ('Vector Space Model'). Esquemas de asignación de pesos. El esquema 'tf-idf'. Asignación de un valor ('score') a los documentos. Medidas de Precisión, Recuperación y "F". Extracción de Información.
Unidad 4. Búsqueda parametrizada o por dominios. Zonas de documentos. Wrappers/Scrappers. Procesamiento de XML.
Unidad 5. Ranking basado en conducta y en 'links'. Analisis de 'links'. Pagerank, pagerank por tópico. 'hubs' y autoridades, Spam. HITS. Comunidades.
Unidad 6. Clustering y Clasificación. Clasificación de textos y Métodos. Agrupamiento ("Clustering") y sus Métodos.
Unidad 7. item Minado de Opiniones, afecto o subjetividad .
Unidad 8. Web Mining: Uso. Pre-procesamiento. Análisis de logs. Análisis de hits. Análisis de visitas. Análisis de conductas. Actividad desarrollada: Ejercitación práctica.




Redes Neuronales

Sábados 9 a 16

Clases a dictarse los días

20 de Agosto
03 y 17 de Septiembre
01, 15 y 29 de Octubre
05 y 19 de Noviembre


 

* Introducción a las Redes Neuronales Artificiales. Fundamentos biológicos. Características generales de las Redes Neuronales.
* Redes Neuronales formadas por un único elemento de procesamiento: Perceptrón, Neurona Lineal y Neurona no Lineal.
* Perceptrón multicapa. Algoritmo de entrenamiento backpropagation. Resolución de problemas de predicción y clasificación.
* Redes de neuronas de base radial.
* Redes Neuronales Competitivas: Red de Contrapropagación, Mapas auto-organizativos (SOM). * Mapas auto-organizativos dinámicos (GSOM). Resolución de problemas de clustering.
* Algoritmos Evolutivos. Representación y operadores. Obtención de Reglas de clasificación utilizando un Algoritmo Genético.
* Evolución de redes neuronales. Motivación. Codificación. Evaluación. Evolución de pesos y estructura. Distintas aproximaciones. Métodos de evolución SANE y HSANE. Representación. Propiedades de convergencia. Comparación.

 

 


 

·                         Conceptos básicos de programación  Tipos de datos: primitivos.

·                         El tipo de datos lista, arboles, grafos - Funciones sobre listas.

·                         Conceptos básicos de los programas imperativos. Estructuras de control - variables.

·                         Funciones y procedimientos - pasaje de parámetros.

·                         Conceptos de complejidad algorítmica

·                         Recursión

Bibliografía: 

1.       Data Structures and Algorithms, Aho, Hopcroft y Ullman, Addison Wesley, 1987

2.       Data Structures and Network Algorithms, R.E.Tarjan, Society for Industrial & Applied Mathematics, 1983.

3.       Brassard G., Bratley P., "Fundamental of Algorithmics",Prentice Hall,1996.

4.       Garey M.R. and Johnson D.S., "Computers and intractability: a guide to the theory of NP- Completeness", W. Freeman and Co., 1979.

Gross J., and Yellen J. , "Graph theory and its applications", CRC, 1999.