Recuperación de Información - Curso 2020
Primera semana de Agosto NOVEDADES: En virtud de la emergencia sanitaria decretada por el Poder Ejecutivo Nacional debido a la pandemia causada por el coronavirus y las acciones para limitar la circulación del mismo, el Rector de la Universidad ha resuelto ampliar ampliar las medidas de prevención dispuestas a fin de disminuir los riesgos de contagio y por ello se suspenden hasta nuevo aviso las clases y prácticas presenciales (entre otras medidas). No obstante, el desarrollo de esta asignatura seguirá de forma no presencial, utilizando herramientas digitales. Las novedades serán comunicadas por correo electrónico y publicadas en el cronograma de esta web. |
Días y horarios: Miércoles y Jueves de 17 a 20hs.
Cronograma (Tentativo)
Semana | Tema | |
1 (09/03) | Introducción y Análisis de Texto | |
2 (16/03) |
Modelos clásicos de RI - [Guía de Clase] |
|
3 (23/03) | Evaluación de la Recuperación - [Guía de Clase] | |
4 (30/03) | Modelos de Lenguaje para RI - [Guía de Clase] | |
5 (06/04) | Retroalimentación/Expansión de la Consulta - [Guía de Clase] | |
6 (13/04) | Estructuras de Datos para RI/Indexación - [Guía de Clase] | |
7 (20/04) | Recuperación DAAT-TAAT - Algoritmos para Top-k - [Guía de Clase] | |
8 (27/04) | Compresión del Índice - [Guía de Clase] | |
9 (04/05) | Consultas + Trabajo Práctico | |
10 (11/05) | Exámenes Adicionales (no hay!) | |
11 (18/05) | Arquitectura de la Web+Algoritmos de Análisis de Enlaces [Guía de Clase] | |
12 (25/05) | Máquinas de Búsqueda 1: Arquitectura + Crawling [Guía de Clase] | |
13 (01/06) | Máquinas de Búsqueda 2: Queries + Ranking [Guía de Clase] | |
14 (08/06) | Consultas y cierre de TPs | |
15 (15/06) | Presentación de Artículos (papers) | |
16 (22/06) | Consultas y cierre de TPs | |
Primera Semana de Agosto/2020 (*) |
Examen Parcial | |
Segunda Semana de Agosto/2020 (*) |
Recuperatorio y Presentación de Proyecto Final |
(*) La modalidad dependerá de la posibilidad (o no) de asistencia presencial. La fecha precisa está sujeta a la coordinación con el resto de las actividades académicas.
Trabajos Prácticos
Intro. a la RI - [TP Intro] |
Análisis de Texto - [TP Análisis] + [Guía de TP] Paper: Ha, L., Stewart, D., Hanna P. & Smith, F. (2006). Zipf and Type-Token rules for the English, Spanish, Irish and Latin languages. Web Journal of Formal, Computational and Cognitive Linguistics, 1(8), 1-12. [link] |
Modelos de Recuperación y Evaluación - [TP Modelos] + [Guía de TP] Paper: Joachims, T. Optimizing Search Engines Using Clickthrough Data. Proceedings of the Eighth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2002.[link] Modelos de Recuperación - Parte 2 (Modelos de Lenguaje) - [TP Modelos 2] Paper: Graham Bennett, Falk Scholer & Alexandra Uitdenbogerd. A Comparative Study of Probabilistic and Language Models for Information Retrieval. [link] Interesante paper para ver diversos modelos comparados y los parámetros usados en cada caso. |
Estructuras de Datos - [TP Estructuras] - [Guía de TP] Paper: Zobel, J. y Moffat, A. Inverted Files for Text Search Engines. RMIT University y University of Melbourne, 2006. [link] |
Recuperación de Información en la Web [TP WebIR] - [Guía de TP] |
Presentación de Artículos [TP Paper] |
Proyecto de Fin de Curso [TP Final] |
Datos de Prueba
Colección RI-tknz-data |
Colección RI-tknz-qm |
Resumen CISI (Ejercicio 1 TP Modelos) |
Dump 10k Posting Lists Queries |
Words-en.txt |
Wiki-Large. Esta colección es un snapshot de Wikipedia seeccionado como material del libro "Search Engines...". http://www.search-engines-book.com/ |
Colección de Proyecto Gutenberg (parcial) |
Recursos
- Diapositivas "Recuperación de Información con Terrier" [link]
- Wiki con apuntes sobre indexación y recuperación usando Terrier [link]
- Transparencias sobre "Caracterización de la web" [link]
- Transparencias sobre "Análisis de Enlaces" [link]
- Transparencias sobre "Motores de búsqueda" [link]
Bibliografía
Sugerida
- "Introduction to Information Retrieval" - C. Manning, P. Raghavan, H. Schutze. Cambridge University Press, 2008. Versión en línea
- "Modern Information Retrieval. The concepts and technology behind search" - R. Baeza-Yates, B. Ribeiro Neto. 2nd Ed. Addison-Wesley, 2011. Sitio web
- "Information Retrieval: Implementing and Evaluating Search Engines" - S. Buttcher, C.L.A. Clarke, G.V. Cormack. The MIT Press, 2016.
- "Search Engines: Information Retrieval in Practice" - B. Croft; D. Meltzer, T. Strohman. Pearson Education, 2009. Sitio web
- "Introducción a la Recuperación de Información. Conceptos, modelos y algoritmos básicos" - Gabriel H. Tolosa y Fernando R.A. Bordignon. Laboratorio de Redes de Datos. UNLu, 2004 Descargar
Complementaria
- "Information Retrieval. Algorithms and Heuristics" - D. A. Grossman, O. Frieder. 2nd Edition. Springer, 2004.Vista previa
- "Managing Gigabytes: Compressing and Indexing Documents and Images" - I.H. Witten, A. Moffat, T.C. Bell. 2nd ed., Morgan Kaufmann, 1999. Sitio web
- "Information Retrieval. Data Structures & Algorithms" - W. B. Frakes, R. Baeza-Yates. Prentice-Hall, 1992.Sitio web
- "Mining the Web. Discovering Knowledge from Hypertext Data". Soumen Chakrabarti. Morgan-Kaufmann Publishers, 2003. Sitio web
Artículos (papers)
[Compresión]
- Giulio Ermanno Pibiri, Rossano Venturini. On Optimally Partitioning Variable-Byte Codes. TKDE, 2019. [Mariano Zabala]
- Diego Arroyuelo, Mauricio Oyarzún, SenénGonzález , Victor Sepulveda. Hybrid compression of inverted lists for reordered document collections. Information Processing & Management, Volume 54, Issue 6, November, 2018. [Victorio Scafati]
- Petri Matias, Moffat Allistair. Compact Inverted Index Storage Using General-Purpose Compression LibrariesSoftware: Practice and Experience, 48(4):974-982, 2018.
[Recuperación Top-k]
- Antonio Mallia, Giuseppe Ottaviano, Elia Porciani, Nicola Tonellotto, and Rossano Venturini. Faster BlockMax WAND with Variable-sized Blocks. In Proceedings of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR), 2017.
- Andrew Kane, Frank Wm. Tompa. Split-Lists and Initial Thresholds for WAND-based Search. In The 41st International ACM SIGIR Conference on Research & Development in Information Retrieval (SIGIR '18). ACM, 2018.
- Matt Crane, J. Shane Culpepper, Jimmy Lin, Joel Mackenzie, Andrew Trotman. A Comparison of Document-at-a-Time and Score-at-a-Time Query Evaluation. In Proceedings of the Tenth ACM International Conference on Web Search and Data Mining (WSDM '17). ACM, 2017.
- Petri, Moffat, Mackenzie, Culpepper, Beck. Accelerated Query Processing Via Similarity Score Prediction. Proc. 42nd Ann. Int. ACM SIGIR Conf. on Research and Development in Information Retrieval, Paris, July 2019, pages 485-494
[Caching]
- Tayfun Kucukyilmaz, B. Barla Cambazoglu, Cevdet Aykanat, and Ricardo Baeza-Yates. A machine learning approach for result caching in web search engines. Information Processing and Management, Volumen 53, Número 4, Páginas 834–850. 2017.
- Gabriel Tolosa, Esteban Feuerstein, Luca Becchetti, Alberto Marchetti-Spaccamela. Performance improvements for search systems using an integrated cache of lists+ intersections. Information Retrieval Journal, Volumen 20, Número 3, Páginas 172-198. Springer Netherlands, 2017.
[Queries/Scoring/Ranking]
- Yasar Baris Ulu and Ismail Sengor Altingovde. Predicting the Size of Candidate Document Set for Implicit Web Search Result Diversification. 42 European Conference on Information Retrieval (ECIR), Lisboa 2020.
- Ali Montazeralghaem, Razieh Rahimi and James Allan. Relevance Ranking based on Query-Aware Context Analysis. 42 European Conference on Information Retrieval (ECIR), Lisboa 2020. [Renso Bernoldi]
- Chris Kamphuis, Arjen de Vries, Leonid Boytsov and Jimmy Lin. Which BM25 Do You Mean? A Large-Scale Reproducibility Study of Scoring Variants. 42 European Conference on Information Retrieval (ECIR), Lisboa 2020. [Maxi Brizuela]
- Benham, MacKenzie, Moffat, Culpepper. Boosting Search Performance Using Query Variations. ACM Trans. Information Systems, 37(4):41.1-41.25, 2019.
- Anna Shtok, Oren Kurland, and David Carmel. Query Performance Prediction Using Reference Lists. ACM Trans. Inf. Syst. 34, 4, Article 19, June 2016. [David Serrano]
- Haotian Zhang, Mustafa Abualsaud, Nimesh Ghelani, Mark D. Smucker, Gordon V. Cormack, Maura R. Grossman. Effective User Interaction for High-Recall Retrieval: Less is More. Proceedings of the 2018 ACM on Conference on Information and Knowledge Management (CIKM), 2018. [Matías Rolón]