Recuperación de Información - Curso 2020

Primera semana 

de Agosto

NOVEDADES: En virtud de la emergencia sanitaria decretada por el Poder Ejecutivo Nacional debido a la pandemia causada por el coronavirus y las acciones para limitar la circulación del mismo, el Rector de la Universidad ha resuelto ampliar ampliar las medidas de prevención dispuestas a fin de disminuir los riesgos de contagio y por ello se suspenden hasta nuevo aviso las clases y prácticas presenciales (entre otras medidas). No obstante, el desarrollo de esta asignatura seguirá de forma no presencial, utilizando herramientas digitales. Las novedades serán comunicadas por correo electrónico y publicadas en el cronograma de esta web.

 

Días y horarios: Miércoles y Jueves de 17 a 20hs.

Cronograma (Tentativo)

Semana Tema
1 (09/03) Introducción y Análisis de Texto
2 (16/03)

Modelos clásicos de RI  - [Guía de Clase]

3 (23/03) Evaluación de la Recuperación - [Guía de Clase]
4 (30/03) Modelos de Lenguaje para RI - [Guía de Clase]
5 (06/04) Retroalimentación/Expansión de la Consulta - [Guía de Clase]
6 (13/04) Estructuras de Datos para RI/Indexación - [Guía de Clase]
7 (20/04) Recuperación DAAT-TAAT - Algoritmos para Top-k - [Guía de Clase]
8 (27/04) Compresión del Índice - [Guía de Clase]
9 (04/05) Consultas + Trabajo Práctico
10 (11/05) Exámenes Adicionales (no hay!)
11 (18/05) Arquitectura de la Web+Algoritmos de Análisis de Enlaces [Guía de Clase]
12 (25/05) Máquinas de Búsqueda 1: Arquitectura  + Crawling  [Guía de Clase]
13 (01/06) Máquinas de Búsqueda 2: Queries + Ranking [Guía de Clase]
14 (08/06) Consultas y cierre de TPs
15 (15/06) Presentación de Artículos (papers)
16 (22/06) Consultas y cierre de TPs

Primera Semana de Agosto/2020 (*)

Examen Parcial

Segunda Semana de Agosto/2020 (*)

Recuperatorio y Presentación de Proyecto Final

(*) La modalidad dependerá de la posibilidad (o no) de asistencia presencial. La fecha precisa está sujeta a la coordinación con el resto de las actividades académicas.

 

Trabajos Prácticos

Intro. a la RI - [TP Intro]

Análisis de Texto - [TP Análisis] + [Guía de TP]

Paper: Ha, L., Stewart, D., Hanna P. & Smith, F. (2006). Zipf and Type-Token rules for the English, Spanish, Irish and Latin languages. Web Journal of Formal, Computational and Cognitive Linguistics, 1(8), 1-12. [link]

Modelos de Recuperación y Evaluación - [TP Modelos] + [Guía de TP]

Paper: Joachims, T. Optimizing Search Engines Using Clickthrough Data. Proceedings of the Eighth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2002.[link]

Modelos de Recuperación - Parte 2 (Modelos de Lenguaje) - [TP Modelos 2]

Paper: Graham Bennett, Falk Scholer & Alexandra Uitdenbogerd. A Comparative Study of Probabilistic and Language Models for Information Retrieval. [link] Interesante paper para ver diversos modelos comparados y los parámetros usados en cada caso.

Estructuras de Datos - [TP Estructuras] - [Guía de TP]

Paper: Zobel, J. y Moffat, A. Inverted Files for Text Search Engines. RMIT University y University of Melbourne, 2006. [link]

Recuperación de Información en la Web [TP WebIR] - [Guía de TP]
Presentación de Artículos [TP Paper]
Proyecto de Fin de Curso [TP Final]

Datos de Prueba

Colección RI-tknz-data
Colección RI-tknz-qm
Resumen CISI (Ejercicio 1 TP Modelos) 

Dump 10k ​Posting Lists Queries

Words-en.txt

Wiki-Large. Esta colección es un snapshot de Wikipedia seeccionado como material del libro "Search Engines...". http://www.search-engines-book.com/

Colección de Proyecto Gutenberg (parcial)

Recursos

  • Diapositivas "Recuperación de Información con Terrier" [link
  • Wiki con apuntes sobre indexación y recuperación usando Terrier [link]
  • Transparencias sobre "Caracterización de la web" [link]
  • Transparencias sobre "Análisis de Enlaces" [link]
  • Transparencias sobre "Motores de búsqueda" [link]

Bibliografía

Sugerida

  • "Introduction to Information Retrieval" - C. Manning, P. Raghavan, H. Schutze. Cambridge University Press, 2008. Versión en línea
  • "Modern Information Retrieval. The concepts and technology behind search" - R. Baeza-Yates, B. Ribeiro Neto. 2nd Ed. Addison-Wesley, 2011. Sitio web
  • "Information Retrieval: Implementing and Evaluating Search Engines"  - S. Buttcher, C.L.A. Clarke, G.V. Cormack. The MIT Press, 2016. 
  • "Search Engines: Information Retrieval in Practice" - B. Croft; D. Meltzer, T. Strohman. Pearson Education, 2009. Sitio web
  • "Introducción a la Recuperación de Información. Conceptos, modelos y algoritmos básicos" - Gabriel H. Tolosa y Fernando R.A. Bordignon. Laboratorio de Redes de Datos. UNLu, 2004 Descargar

Complementaria

  • "Information Retrieval. Algorithms and Heuristics" - D. A. Grossman, O. Frieder. 2nd Edition. Springer, 2004.Vista previa
  • "Managing Gigabytes: Compressing and Indexing Documents and Images" - I.H. Witten, A. Moffat, T.C. Bell. 2nd ed., Morgan Kaufmann, 1999. Sitio web
  • "Information Retrieval. Data Structures & Algorithms" - W. B. Frakes, R. Baeza-Yates. Prentice-Hall, 1992.Sitio web
  • "Mining the Web. Discovering Knowledge from Hypertext Data". Soumen Chakrabarti. Morgan-Kaufmann Publishers, 2003. Sitio web

 

Artículos (papers)

[Compresión]

  • Giulio Ermanno Pibiri, Rossano Venturini. On Optimally Partitioning Variable-Byte Codes. TKDE, 2019. [Mariano Zabala]
  • Diego Arroyuelo, Mauricio Oyarzún, SenénGonzález , Victor Sepulveda. Hybrid compression of inverted lists for reordered document collections. Information Processing & Management, Volume 54, Issue 6, November, 2018. [Victorio Scafati]
  • Petri Matias, Moffat Allistair. Compact Inverted Index Storage Using General-Purpose Compression LibrariesSoftware: Practice and Experience, 48(4):974-982, 2018. 

[Recuperación Top-k]

  • Antonio Mallia, Giuseppe Ottaviano, Elia Porciani, Nicola Tonellotto, and Rossano Venturini. Faster BlockMax WAND with Variable-sized Blocks. In Proceedings of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR), 2017.
  • Andrew Kane, Frank Wm. Tompa. Split-Lists and Initial Thresholds for WAND-based Search. In The 41st International ACM SIGIR Conference on Research & Development in Information Retrieval (SIGIR '18). ACM, 2018.
  • Matt Crane, J. Shane Culpepper, Jimmy Lin, Joel Mackenzie, Andrew Trotman. A Comparison of Document-at-a-Time and Score-at-a-Time Query Evaluation. In Proceedings of the Tenth ACM International Conference on Web Search and Data Mining (WSDM '17). ACM, 2017.
  • Petri, Moffat, Mackenzie, Culpepper, Beck. Accelerated Query Processing Via Similarity Score Prediction. Proc. 42nd Ann. Int. ACM SIGIR Conf. on Research and Development in Information Retrieval, Paris, July 2019, pages 485-494

[Caching]

  • Tayfun Kucukyilmaz, B. Barla Cambazoglu, Cevdet Aykanat, and Ricardo Baeza-Yates. A machine learning approach for result caching in web search engines. Information Processing and Management, Volumen 53, Número 4, Páginas 834–850. 2017.
  • Gabriel Tolosa, Esteban Feuerstein, Luca Becchetti, Alberto Marchetti-Spaccamela. Performance improvements for search systems using an integrated cache of lists+ intersections. Information Retrieval Journal, Volumen 20, Número 3, Páginas 172-198. Springer Netherlands, 2017.

[Queries/Scoring/Ranking]

  • Yasar Baris Ulu and Ismail Sengor Altingovde. Predicting the Size of Candidate Document Set for Implicit Web Search Result Diversification. 42 European Conference on Information Retrieval (ECIR), Lisboa 2020.
  • Ali Montazeralghaem, Razieh Rahimi and James Allan. Relevance Ranking based on Query-Aware Context Analysis. 42 European Conference on Information Retrieval (ECIR), Lisboa 2020. [Renso Bernoldi] 
  • Chris Kamphuis, Arjen de Vries, Leonid Boytsov and Jimmy Lin. Which BM25 Do You Mean? A Large-Scale Reproducibility Study of Scoring Variants. 42 European Conference on Information Retrieval (ECIR), Lisboa 2020. [Maxi Brizuela]
  • Benham, MacKenzie, Moffat, Culpepper. Boosting Search Performance Using Query Variations. ACM Trans. Information Systems, 37(4):41.1-41.25, 2019.
  • Anna Shtok, Oren Kurland, and David Carmel. Query Performance Prediction Using Reference Lists. ACM Trans. Inf. Syst. 34, 4, Article 19, June 2016. [David Serrano]
  • Haotian Zhang, Mustafa Abualsaud, Nimesh Ghelani, Mark D. Smucker, Gordon V. Cormack, Maura R. Grossman. Effective User Interaction for High-Recall Retrieval: Less is More. Proceedings of the 2018 ACM on Conference on Information and Knowledge Management (CIKM), 2018. [Matías Rolón]