• Primera Universidad Latinoamericana en ofrecer esta maestría
  • Jornadas de Data Mining
  • Primera Universidad Latinoamericana en ofrecer esta maestría
Previous Next

Presentaciones y Documentación

Learning Without Sharing: Communication-Efficient Distributed Streams Using Safe Zones

Moshe Gabel - Department of Computer Science at the Technion, Haifa, Israel

This tutorial will focus on applying safe zones to compute approximations over aggregated distributed data streams with reduced communication. Geometric monitoring is a recent general framework developed in our group for monitoring distributed data streams (and is perhaps the only general framework for this setting). The key observation for geometric monitoring is that low-communication monitoring of even highly-complex functions is often possible by deriving in the input domain, rather than the output. These constraints are then decomposed to local conditions on input data of each stream (or node).

Such algorithms are motivated by the high communication costs of traditional learning algorithms and recent trends. The last decade has seen an explosion in both the number of connected devices and sensors with processing capabilities (the so-called ``Internet of Things''), as well as the use of data mining and machine learning for increasingly diverse applications. This means not only growth in velocity and volume of data, but also that data sources are increasingly spatially or geographically distributed, increasing the cost of communication. Geometric monitoring techniques help address such concerns by trading communication with local, on-device computation.

Classic data mining algorithms often assume that data is centralized, or that processing nodes can communicate fairly easily. In general, the setting is often implicitly assumed to be a data center or a compute cluster: constant communication between nodes is feasible and fairly inexpensive, and the goal is to simply minimize runtime. Moreover, much of this work only considers ``one-shot'' computations -- where a result is computed once over a data set that is fixed. Meanwhile, increasingly many applications are interested in maintaining the value of the computed function, such as a regression model, over a recent time window. Consider the setting of wireless sensor networks, for instance. These are often battery-powered devices with power-efficient CPUs, where the main drain on the battery is communication. Thus, maintaining an up-to-date model using traditional algorithms would incur constant power drain.

I will present three practical applications of the framework to derive low-communication algorithms that maintain up-to-date approximations of three important non-linear primitives: variance, least-squares regression, and Shannon's entropy. The algorithms provide guaranteed (as opposed to probabilistic) error bounds with reduced communication. These algorithms have been applied to several real data sets and applications, including outlier detection for multivariate time series (for failure detection monitoring), traffic monitoring, network attack detection via netflows, and others.

Mickey Gabel is a Ph.D. student at Technion, Israel. Research interests include machine learning and data mining in distributed settings with applications on systems research. One main application is monitoring health of cloud datacenters and other large distributed systems. He is also interested in learning and monitoring models of large, distributed data streams.

Personal site in CS Technion: http://www.cs.technion.ac.il/~mgabel/

Ver Presentación

Papers:

[1] M. Gabel, D. Keren, and A. Schuster. "Monitoring Least Squares Models of Distributed Streams". 21st ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD), 2015.


[2] M. Gabel, D. Keren, and A. Schuster. "Communication-efficient Distributed Variance Monitoring and Outlier Detection for Multivariate Time Series". 28th IEEE International Parallel & Distributed Processing Symposium (IPDPS), 2014.


Unsupervised Data Center Health Monitoring and Anomaly Detection

Moshe Gabel - Department of Computer Science at the Technion, Haifa, Israel

Modern data centers are comprised of hundreds or thousands of machines (or more!). With so many machines, failures are commonplace, so failure detection is crucial: undetected failures may lead to data loss and outages. Traditional fault detection techniques are often supervised, relying on domain knowledge and precious (often unavailable) training data, and are inflexible. More recent approaches focus on early detection and handling of performance problems, or latent faults. These faults "fly under the radar" of existing detection systems because they are not acute enough, or were not anticipated by maintenance engineers.

This talk will review ongoing work on unsupervised fault detection in large scale data centers, such as those used cloud services, supercomputers, and compute clusters. We will first discuss unsupervised latent fault detection in scale-out, load-balanced cloud services. I'll present a novel framework for statistical latent fault detection using only ordinary machine counters collected as standard practice, and demonstrate three detection methods within this framework. Derived tests are adaptive, domain-independent and unsupervised, require neither background information nor tuning, and scale to very large services. We proved strong guarantees on the false positive rates of our tests. Our evaluation on a large, real-world production service shows that at least 20% of machine or software failures were preceded by such latent fault. We further show that our latent fault detector can anticipate failures up to 14 days ahead, with high precision and very low FPR.

Time allowing, I will then briefly present some extensions of this work. The first is a communication-efficient variant designed for online outlier detection in distributed data streams. Using stream processing techniques that trade accuracy for communication and computation, the adapted latent fault detector can reduce bandwidth costs by an order of magnitude with below 1% error compared to the original algorithm. The second, is a latent fault detector for unbalanced workloads, such as map-reduce jobs and compute clusters. This new scheme, based on Principal Components Analysis, retains the advantages of the previous methods: it is unsupervised, robust to changes, and statistically sound. Preliminary evaluation on supercomputer logs shows that the new method is able to correctly predict some failures, while our previous methods completely fail in this setting. Preliminary evaluation also shows good performance on virtual machines running Hadoop and CassandraDB. We'll also touch on another scheme for opaque virtual machines, based on a sparse decomposition approach.

Ver Presentación - Ver Video


Nuevas arquitecturas tecnológicas para el desarrollo y ejecución de Modelos Analíticos

Sergio Uassouf - Alejandro Bolaños - SAS

Nuevos requerimientos del mercado obligan a los proveedores de software analítico a desarrollar nuevas arquitecturas. Explicaremos y mostraremos las arquitecturas de procesamiento en paralelo, in-memory, de escalabilidad elástica, basada en microservicios que permiten el desarrollo de modelos complejos (neural networks, factorization machine, gradient boosting, random forest, support vector machine) de ejecución en tiempo real. Trataremos también el procesamiento de eventos complejos con aplicación de modelos analíticos en tiempo real.


Cómo personalizar la experiencia del usuario con análisis cognitivo

Diego de Arriandiaga - BeSmart

Descubrir como el análisis cognitivo permite conocer a fondo las preferencias de clientes actuales o potenciales, no solo a través de los datos históricos de transacciones sino también a través del comportamiento frente a recomendaciones de productos o contenidos, participación en medios sociales y reacción a mensajes específicos, de manera tal de lograr una comunicación relevante y así mejorar la experiencia del usuario a través de los medios tradicionales y digitales.


Competencias de Data Mining – Propuesta de valor para el data scientist

Presentación de los ganadores de la Competencia Internacional "Santander NEO's Challenge"

Equipo "No Chimp Inc":  Damián Fondevila - Pablo Ríos - Luciano Cabrera
Tutor: Gustavo Denicolay

Ver Presentación - Ver Video


Aplicaciones Médicas del Data Mining de Series Temporales

Marcelo Risk - UBA

El estudio de series temporales provenientes de pacientes tales como la frecuencia cardiaca, la presión arterial y otras expresiones denominadas signos vitales, toman la forma de series temporales, y se pueden analizar con métodos de data mining. El análisis de los signos vitales proporcionan una ventana al estado del paciente, permite evaluar su estado actual, el desarrollo pasado, y estimar su evolución. Las áreas de aplicación son pacientes con patologías del sistema nervioso autonómico, diabéticos, hipertensos, e internados en cuidados críticos.

El estudio de grandes volúmenes de datos médicos, entre los que se incluyen además de las series temporales datos genómicos, entre otros, conforman el nuevo paradigma denominado medicina de precisión, que permitirá el diagnóstico y tratamiento personalizado, así como una nueva clasificación de las enfermedades.


Modelo bayesiano del conocimiento

Daniel Barmak - Globant

El modelado del comportamiento de un estudiante es de suma importancia para una gran variedad de aplicaciones en sistemas de enseñanza online. En particular para el proyecto que realizamos en GLOBANT (trabajando para uno de los más importantes proveedores de educación online para edad escolar en Estados Unidos) se realizó un modelo el cual permite estimar el nivel de conocimiento que cada alumno posee sobre cada objetivo particular de la currícula. Es de vital importancia poseer estimaciones precisas del nivel de conocimiento de los alumnos para de esta forma poder tomar decisiones basadas en ellas. Estas decisiones pueden ser tales como, alertar a los profesores del bajo rendimiento de alumnos, brindar contenidos con dificultad adaptada, sugerir contenidos adicionales para reforzar el aprendizaje, etc. Dado que el conocimiento no puede medirse directamente, es necesario recurrir a algún método el cual permita a partir de externalizaciones del mismo (ej, exámenes) inferirlo. En nuestro caso el modelo que utilizamos, BKT (Bayesian Knowledge Tracing), es uno de los más populares en la literatura del area EDM (Educational Data Mining). Como su nombre sugiere, BKT en su formulación más simple, se basa en la actualización bayesiana de la creencia de que un alumno sepa un objetivo dependiendo de la exactitud de sus respuestas. En esta charla se mostrarán los fundamentos teóricos básicos detrás del modelo BKT, sus aplicaciones a nuestro proyecto, y las particularidades y problemáticas encontradas en su implementación en un ambiente de Big Data.

Ver Video


Presentaciones de Alumnos de la Maestría en Data Mining - UBA

Descubrimiento de patrones temporales en un corpus de letras de música folklórica y del rock rioplatenses - Ana Bach

Culturomics es la aplicación de recopilación y análisis de datos para el estudio de la cultura humana. La minería de textos temporal se presenta como una herramienta para alcanzar los objetivos de Culturomics, mediante el procesamiento automático y el establecimiento de patrones para explicar la historia. El objetivo de este trabajo fue utilizar técnicas de explotación de datos y aprendizaje automático para detectar la existencia de patrones temporales en las letras del rock y del folklore argentino. Para ello se armó un corpus de letras de rock y folklore comprendidas entre 1960 y 2014. A este corpus se le aplicaron técnicas de agrupamiento de tópicos y de clasificación para determinar la existencia de una relación entre los tópicos y los hitos históricos. Luego de aplicar estas técnicas, se puede decir que existe una relación entre la historia y los cambios en los tópicos de las letras musicales en el corpus analizado.

Minando Foros Bursátiles Online - Ramiro Gálvez

Entender fenómenos sociales en base a datos provenientes de la interacción de personas en plataformas online es un área de estudio que cobra cada vez mayor relevancia. En el presente trabajo se utilizan técnicas de procesamiento del lenguaje natural y de aprendizaje automático para analizar si en base a información obtenida de posts de un popular foro bursátil online de Argentina se puede extraer información que contenga poder predictivo sobre el retorno diario futuro de un grupo de acciones. En concreto, se procesan y normalizan posts que pertenecen a un tema correspondiente a una acción del foro para luego llevar adelante un proceso de reducción de dimensionalidad de los mismos (descomposición truncada en valores singulares). Como resultado de este proceso se obtiene una serie de atributos que se presume tienen contenido semántico y pueden ser asociados a tópicos que se debaten en los foros.

Luego se intenta responder dos preguntas. Primero, ¿tienen estos tópicos información predictiva respecto al retorno futuro diario de una acción? Segundo, de haber información predictiva, ¿es la misma novedosa, o simplemente es otra forma de obtener información que ya se encontraba presente en el comportamiento pasado de los precios de una acción, y que podría ser captada simplemente analizando indicadores técnicos? Los resultados obtenidos son alentadores, pues parecen indicar que efectivamente los tópicos contienen información con valor predictivo y que la misma estaría complementando información contenida en el precio pasados de las acciones. Un resultado adicional interesante es que los tópicos detectados parecieran captar idiosincrasias de carácter político y económico que comúnmente se asocian a las empresas que la acción estudiada representa.


Bases de datos de grafos en bioinformátics

Marcelo Soria - UBA

El análisis de grafos en bioinformática está bien establecido. Existen algoritmos para construir grafos simples utilizando datos de procedimientos experimentales específicos. Sin embargo, en los procesos biológicos se integran múltiples componentes diferentes. Los multigrafos son estructuras adecuadas para modelar estos sistemas complejos. Mostraremos el uso de bases de datos de grafos para diseñar consultas basadas en quasi-cliques sobre multigrafos de datos moleculares. Nuestro objetivo es descubrir redes regulatorias de la actividad génica. Encontramos algunas ya conocidas, lo que confirma la utilidad de la metodología, y descubrimos varias candidatas nuevas.