Técnicas de Reducción y Visualización de datos (posgrado)

Objetivos:

El curso tiene como finalidad introducir técnicas estadísticas que permitan extraer patrones o características esenciales para datos de alta dimensión con el objetivo de visualizarlos en forma fácilmente interpretable.

En el curso, se introducirá un amplio espectro de métodos ; estadísticos para analizar datos multivariados, datos dependientes en el tiempo y/o en el espacio, datos de alta dimensión o de estructuras complejas, como un medio para comunicar estructuras relevantes con el fin de interpretar y comprender los mismos.

A lo largo del curso se hará especial énfasis en análisis de datos, aplicaciones y casos de estudio. A través de los cuales se ilustrará el uso de los métodos de visualización y su técnica, mostrando por que este paso resulta esencial para producir análisis validos y que preserven la información de los datos. Se presentarán varias opciones de paquetes disponibles para la creación de gráficos.

Contenidos: 1. Introducción a la visualización de datos multidimensionales. Medidas de Centralidad y variabilidad. Concepto de Distancias y medidas de dependencias. Transformaciones. 2. Reducción de la dimensión. Descomposición de valores singulares (SVD). Componentes principales. Reducción suficiente. Método de ProyecciónPursuit. 3. Correlación Canónica. Escalamiento multidimensional métrico. Biplots. 4. Clúster análisis para conjuntos de datos grandes y pequeños. Medidas de dissiMilaridad. Métodos de k medias, mezcla de poblaciones, T-sne. Mapas de calor 5. Análisis discriminante y Clasificación. Discriminación lineal y cuadrátiCa. Clasificación mediante mezcla de distribuciones. Curvas ROC. 6. Gráficos dinámicos y técnicas de visualización interactivas. Visualización de datos temporales y espaciales. Análisis de Redes. Modalidad: Las clases serán teórico-prácticas y se desarrollarán en laboratorio de computación o espacio adecuado para que cada participante disponga de una computadora.

Pre-requisitos: Algún curso introductorio de probabilidad y estadística y manejo de algún lenguaje de programación.

Cantidad horas semanales: 8

Cant semanas: 8

Horas totales: 64

Temas de Optimización Semidefinida

Curso de posgrado – Instituto de Cálculo, FCEyN, UBA

Conocimientos previos: se requiere conocimientos previos básicos de álgebra lineal

Carga horaria: 4 horas semanales, dividas en 2 horas teóricas y 2 clases de laboratorio de computación.

Días y horarios: Martes y Jueves de 17 a 19 horas.

Se dictará durante el segundo cuatrimestre del año 2021, y cuenta con una carga horaria de 64 (sesenta y cuatro) horas, distribuidas en 4 hs semanales, en 2 encuentros de 2 horas cada uno.

Profesor: Dr. Santiago Laplagne

El curso estará a cargo de Santiago Laplagne, Doctor en Matemática de la Universidad de Buenos Aires y Profesor Adjunto en el Instituto de Cálculo, FCEyN, UBA.

Breve descripción del curso

En este curso estudiaremos temas actuales de programación semidefinida. La programación semidefinida (SDP) es la clase más grande problemas de optimización que podemos resolver eficientemente, con aplicaciones en optimización combinatoria y convexa, teoría de grafos y geometría algebraica.

Comenzaremos con los conceptos básicos de SDP e iremos avanzando hacia desarrollos más actuales, poniendo énfasis especial en la teoría de Parrilo - Lasserre de relajaciones de sumas de cuadrados y aplicaciones. Veremos abundantes ejemplos y cómo resolverlos implementando algoritmos y utilizando bibliotecas de software en Python. En la última parte del curso, nos enfocaremos en un estudio teórico de los conos de polinomios positivos y sumas de cuadrados, siguiendo resultados sorprendentes recientes de G. Blekherman.

Objetivos de la Materia:

Brindar una introducción al Análisis Exploratorio de Datos (EDA) y al Modelado de Datos, utilizando elementos básicos de matemáticas y de programación, sin el uso de nociones de Probabilidad y Estadística. 

Generar una serie de preguntas que pueden hacerse sobbre un conjunto de datos, que finalmente serán respondidas mediante modelos estadísticos o algoritmos del machine learning.

Introducir algunos conceptos fundamentales de la Ciencia de Datos, como ser: Descripción-Predicción-Escplicación, significatividad estadística, sobreajuste, bondad de ajuste, funciones de pérdida, asoociación entre variables, análisis supervisado vs. no supervisado, modelos paramétricos vs. no paramétricos, etc.