Bases de Datos Masivas - Cartelera
Horario
Clases presenciales: Miércoles de 18 a 21 hs
Aula: 406
Cronograma
Teóricas
- Clase 1: Introducción al proceso de KDD. [ Drive ] [ Video ] [Guia de Lectura]
- Clase 2: Introducción a Data Warehouse y ETL [ Drive ] [ Video 1 ] [ Video 2 ] [ Guia de Lectura ]
- Clase 3: Preprocesamiento: Limpieza, Integración, Reducción de Dimensionalidad y Transformaciones. [ Drive ] [Video 1] [Video 2] [Video 3] [Video 4] [Guía de Lectura]
- Clase 4 y 5: Bases de Datos multidimensionales [ Drive ] [ Diseño ROLAP ] [ Video ] [Guía de Lectura]
- Clase 6: Data Analytics y Data Lake [ Drive ][ Video 1 ] [ Video 2 ] [ Video 3 ] [ Video 4 ] [ Guía de Lectura ]
- Clase 7: Introducción a ML. [ Drive ] [ Video 1 ] [ Video 2 ] [ Guía de Lectura ]
- Clase 8: Árboles de decisiones. [ Drive ] [ Video 1 ] [ Video 2 ] [ Guia de Lectura - Árboles ] [ Guía de Lectura - Selección y Evaluación ]
- Clase 9: Clustering. [ Drive ] Apunte de Silueta [ pdf ] Datos [ csv ] [ Video ] [ Guía de Lectura ]
- Clase 10: Reglas de Asociación. [ Drive ] Apunte de Lift [ pdf ] [ Video ] [ Guía de Lectura ]
- Clase 11: Ecosistemas de Big Data. [ Drive ] [ Video ]
- Clase Adicionales - Temas que se dieron en ediciones previas del curso:
Trabajos Prácticos
- IMPORTANTE: Cronograma de entrega de TPs [ Enlace ]
- TP 00: Análisis Exploratorio de datos (EDA) con R [ Presentación ] [ Video EDA en R ] [ Video Comenzando en R Studio ] [ Consignas ] [ Datos ]
- TP 01: Procesos ETL con Pentaho Data Integration [ Video Procesos ETL con PDI ] [ Video PDI en acción ] [ Fuzzy Match ] [ Guía Laboratorio ] [ Consignas ] [ Datos ]
- TP 02: Preprocesamiento con R [ Video 01 ] [ Video 02 ] [ Video 03 ] [ Video 04 ] [ Consignas ] [ Datos ]
- TP 03: Data Warehouse (Mondrian y Saiku) [ Video DW ROLAP ] [ Video Diseño ROLAP ] [ Guía Mondrian & Saiku ] [ Consignas ]
- TP 04: Herramientas para el Análisis de Información (Pandas, Dash y Plotly) [ Consignas ]
- TP 05.01: Árboles de Decisión (Scikit Learn -Python-) [ Consignas ] [ Datos ] [ Colab ] [ Colab (ejemplo con atributos categóricos ]
- TP 05.02: Clustering. K-Medias y Jerárquico (Scikit Learn -Python-) [ Consignas ] [ Datos ] [ Colab ]
- TP 05.03: Reglas de Asociación (R) [ Presentación ] [ Guía de Laboratorio ] [ Gráficos para reglas ] [ Consignas ] [ Datos ]
- Prácticas adicionales:
- Nociones de frameworks de procesamiento masivo [ Video ] [ MapReduce Colab ] [ Spark Colab ] [ Jamboard ] [ Consignas ] [ Datos ]
- Aprendizaje Probabilístico (Scikit Learn, Python) [ Colab ] [ Consignas ] [ Datos ]
- Bases de Datos NoSQL (MongoDB) [ Guia de Laboratorio ] [ Consignas ] [ Datos ]
Extra 2023: Desafío de visualización
- Seminario de visualización. [Consignas] [Datos].
Software de la Asignatura
Tutorial de instalación/uso de Docker y herramientas dockerizadas [ Acceder ]
Drivers JDBC de MySQL y PostgreSQL [ Descarga ]
Instalación individual del software:
- Suite Pentaho (Server, PDI, Schema Workbench & Report Designer) [ Guía de Descarga e Instalación ]
- Lenguaje R [ Descarga ]
- IDE R-Studio [ Descarga ]
- Python/IDE Anaconda [ Descarga ]
- MongoDB [ Descarga ]
- IDE Mongo Robo 3T [ Descarga ]
- Weka [ Descarga ] (Complementario)
Trabajo Final: [ Consigna ] [ Template ]
Trabajos Finales
- 2023
- Rapaport, Mariano; Normand, Agustı́n. Predicción de precios de inmuebles en C.A.B.A mediante técnicas de aprendizaje automático. [ pdf ]
- 2022
- Juan Natello. Evaluación de estrategias de sobremuestreo utilizando SMOTE para mejorar problemas de clasificación supervisada. [ pdf ]
- 2021
- Salvador Woinilowicz. Generación de recomendaciones a partir de reglas de asociación. [ pdf ]
- Mario Quiroga. Predicción de nuevos casos de coronavirus/COVID-19 con Random Forest. [ pdf ]
- Agustín Rodriguez. Creación de dataset y aplicación de random forest para prediccir movimientos en el precio de acciones del mercado financiero. [ pdf ]
- 2018
- 2017
- Ezequiel Victorel. Factores que influyen en la tasa de crímenes de la ciudad utilizando el conjunto de datos Philadelphia Crime [ pdf ]
- 2016
Recursos
Canal de YouTube: [ Acceso ]
Canal de Slack: [ Unirse ]
Bibliografía
- Fayyad, U., Piatetsky-Shapiro, G., & Smyth, P. (1996). From data mining to knowledge discovery in databases. AI magazine, 17(3), 37.
- Han, J., Kamber, M., & Pei, J. (2011). Data mining: concepts and techniques: concepts and techniques. Elsevier.
- Maimon, O., & Rokach, L. (Eds.). (2005). Data mining and knowledge discovery handbook (Vol. 2). New York: Springer. [ Cap 1 ]
- Brown, M. L., & Kros, J. F. (2003). Data mining and the impact of missing data.Industrial Management & Data Systems, 103(8), 611-621.
- Mitchell, T. M. (1997). Machine learning. WCB. [ Cap 3 ]
- Jain, A. K. (2010). Data clustering: 50 years beyond K-means. Pattern recognition letters, 31(8), 651-666. (Lectura Optativa).
- James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An introduction to statistical learning (p. 6). New York: springer. [ Cap 10: Unsupervised Learning ] [ pdf ]