Se encuentra usted aquí

Bases de Datos Masivas - Cartelera

Horario

Clases presenciales: Miércoles de 18 a 21 hs

Aula: 406

Cronograma

Teóricas

Clase 1: Introducción al proceso de KDD. [ Drive ] [ Video ] [Guia de Lectura]
Clase 2: Preprocesamiento: Limpieza, Integración, Reducción de Dimensionalidad y Transformaciones. [ Drive ] [Video 1] [Video 2] [Video 3] [Video 4] [Guía de Lectura]
Clase 3: Introducción a Data Warehouse y ETL [ Drive ] [ Video 1 ] [ Video 2 ] [ Guia de Lectura ]
Clase 4 y 5: Bases de Datos multidimensionales [ Drive ] [ Diseño ROLAP ] [ Video ] [Guía de Lectura]
Clase 6: Data Analytics [ Drive ] y Data Lake [ Drive ][ Video 1 ] [ Video 2 ] [ Video 3 ] [ Video 4 ] [ Guía de Lectura ]
Clase 7: Introducción a ML. [ Drive ] [ Video 1 ] [ Video 2 ] [ Guía de Lectura ]
Clase 8: Árboles de decisiones. [ Drive ] [ Video 1 ] [ Video 2 ] [ Guia de Lectura - Árboles ] [ Guía de Lectura - Selección y Evaluación ]
Clase 9: Clustering. [ Drive ] Apunte de Silueta [ pdf ] Datos [ csv ] [ Video ] [ Guía de Lectura ]
Clase 10: Reglas de Asociación. [ Drive ] Apunte de Lift [ pdf ] [ Video ] [ Guía de Lectura ]
Clase 11: Ecosistemas de Big Data. [ Drive ] [ Video ]
Clase Adicionales - Temas que se dieron en ediciones previas del curso:
- Aprendizaje Probabilístico. Naïve Bayes. [ pdf ]
- Bases de Datos NoSQL. [ Drive ]

Trabajos Prácticos

IMPORTANTE: Cronograma de entrega de TPs [ Enlace ]
TP 00: Análisis Exploratorio de datos (EDA) [ Presentación ] [Guía: Notebook] [ Consignas ] [ Datos ]
TP 01: Preprocesamiento con Python [ Video 01 ] [ Video 02 ] [ Video 03 ] [ Video 04 ] [ Consignas ] [ Datos ] [Guía 1: Notebook] [Guía 2: Notebook]
TP 02: Procesos ETL con Pentaho Data Integration [ Video Procesos ETL con PDI ] [ Video PDI en acción ] [ Fuzzy Match ] [ Guía Laboratorio ] [ Consignas ] [ Datos ]
TP 03: Data Warehouse (Mondrian y Saiku) [ Video DW ROLAP ] [ Video Diseño ROLAP ] [ Consignas ]
TP 04: Herramientas para el Análisis de Información (Pandas, Dash y Plotly) [ Consignas ]
TP 05.01: Árboles de Decisión (Scikit Learn -Python-) [ Consignas ] [ Datos ] [ Colab ] [ Colab (ejemplo con atributos categóricos ]
TP 05.02: Clustering. K-Medias y Jerárquico (Scikit Learn -Python-) [ Consignas ] [ Datos ] [ Colab ]
TP 05.03: Reglas de Asociación [ Presentación ] [ Guía de Laboratorio ] [ Consignas ] [ Datos ]
Prácticas adicionales:
- Nociones de frameworks de procesamiento masivo [ Video ] [ MapReduce Colab ] [ Spark Colab ] [ Jamboard ] [ Consignas ] [ Datos ]
- Aprendizaje Probabilístico (Scikit Learn, Python) [ Colab ] [ Consignas ] [ Datos ]
- Bases de Datos NoSQL (MongoDB) [ Guia de Laboratorio ] [ Consignas ] [ Datos ]

Software de la Asignatura

Tutorial de instalación/uso de Docker y herramientas dockerizadas [ Acceder ]

Drivers JDBC de MySQL y PostgreSQL [ Descarga ]

Instalación individual del software:

Suite Pentaho (Server, PDI, Schema Workbench & Report Designer) [ Guía de Descarga e Instalación ]
~~Lenguaje R~~ [ Descarga ]
IDE R-Studio [ Descarga ]
Python/IDE Anaconda [ Descarga ]
MongoDB [ Descarga ]
IDE Mongo Robo 3T [ Descarga ]
Weka [ Descarga ] (Complementario)

Trabajo Final:

[ Consigna ] [ Template ]

Propuestas para trabajos finales:

Opciones cursada 2024: [ Drive ]
Opciones cursada 2025: [ Drive ]

Trabajos Finales

2025
- Lucio Gabriel Reinoso. Modelos predictores del campeón de la NBA con XGBoost y Random Forest. [ pdf ] [ dataset ]
- Gonzalo Benito. Detección de Inyecciones SQL mediante técnicas de procesamiento de lenguaje natural y aprendizaje automático [ pdf ]
- Esteban Nicolás Larena. Comparación de rendimiento entre Random Forest y Random Forest for Time Series en predicciones del valor del ı́ndice S&P 500 [ pdf ] [ dataset ]
2023
- Rapaport, Mariano; Normand, Agustı́n. Predicción de precios de inmuebles en C.A.B.A mediante técnicas de aprendizaje automático. [ pdf ]
2022
- Juan Natello. Evaluación de estrategias de sobremuestreo utilizando SMOTE para mejorar problemas de clasificación supervisada. [ pdf ]
2021
- Salvador Woinilowicz. Generación de recomendaciones a partir de reglas de asociación. [ pdf ]
- Mario Quiroga. Predicción de nuevos casos de coronavirus/COVID-19 con Random Forest. [ pdf ]
- Agustín Rodriguez. Creación de dataset y aplicación de random forest para prediccir movimientos en el precio de acciones del mercado financiero. [ pdf ]
2018
- Juan Cardona. Análisis de sentimiento sobre una colección de textos cortos y aplicando técnicas de aprendizaje profundo. [ pdf ]
- Bernoldi & Genova. Tablero de control como herramienta de soporte para una Cultura Centrada en el Cliente. [ pdf ]
2017
- Ezequiel Victorel. Factores que influyen en la tasa de crímenes de la ciudad utilizando el conjunto de datos Philadelphia Crime [ pdf ]
2016
- Alejandro F. Dunogent [ pdf ]
- Luis Andrés Giordano [ pdf ]
- Tonin Monzón Francisco [ pdf ]

Recursos

Canal de YouTube: [ Acceso ]

~~Canal de Slack: [ Unirse ]~~

Bibliografía

Fayyad, U., Piatetsky-Shapiro, G., & Smyth, P. (1996). From data mining to knowledge discovery in databases. AI magazine, 17(3), 37. [ pdf ]
Han, J., Kamber, M., & Pei, J. (2011). Data mining: concepts and techniques: concepts and techniques. Elsevier.
Maimon, O., & Rokach, L. (Eds.). (2005). Data mining and knowledge discovery handbook (Vol. 2). New York: Springer. [ Cap 1 ]
Brown, M. L., & Kros, J. F. (2003). Data mining and the impact of missing data.Industrial Management & Data Systems, 103(8), 611-621.
Mitchell, T. M. (1997). Machine learning. WCB. [ Cap 3 ]
Jain, A. K. (2010). Data clustering: 50 years beyond K-means. Pattern recognition letters, 31(8), 651-666. (Lectura Optativa).
James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An introduction to statistical learning (p. 6). New York: springer. [ Cap 10: Unsupervised Learning ] [ pdf ]
Sarker, I. H. (2021). Data science and analytics: an overview from data-driven smart computing, decision-making and applications perspective. SN Computer Science, 2(5), 377.