Recuperación de Información - 2019

Cronograma (Tentativo)

Semana Tema
1 (11/03) Introducción y problemática de la RI
2 (18/03) Análisis de Textos
3 (25/03) Modelos Clásicos de RI
4 (01/03) Evaluación de la Recuperación
5 (08/04) Modelos de Lenguaje para RI
6 (15/04) Retroalimentación/Expansión de la Consulta
7 (22/04) Estructuras de Datos para RI/Indexación
8 (29/04) Recuperación DAAT-TAAT - Algoritmos para Top-k
9 (06/05) Compresión del Índice - Recuperación por bloques
10 (13/05) Exámenes Adicionales (no hay clases)
11 (20/05) Arquitectura de la Web+Algoritmos de Análisis de Enlaces
12 (27/05) Máquinas de Búsqueda 1
13 (03/06) Máquinas de Búsqueda 2
14 (10/06) Exámen parcial
15 (17/06) Presentación de Artículos (papers)
16 (24/06) Presentación del Proyecto Final y Recuperatorio

 

Trabajos Prácticos

Intro. a la RI

Análisis de Texto

Paper: Ha, L., Stewart, D., Hanna P. & Smith, F. (2006). Zipf and Type-Token rules for the English, Spanish, Irish and Latin languages. Web Journal of Formal, Computational and Cognitive Linguistics, 1(8), 1-12. [link]

Modelos de Recuperación y Evaluación

Paper: Joachims, T. Optimizing Search Engines Using Clickthrough Data. Proceedings of the Eighth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2002.[link]

Modelos de Recuperación - Parte 2 (Modelos de Lenguaje)

Paper: Graham Bennett, Falk Scholer & Alexandra Uitdenbogerd. A Comparative Study of Probabilistic and Language Models for Information Retrieval. [link] Interesante paper para ver diversos modelos comparados y los parámetros usados en cada caso.

Estructuras de Datos

Paper: Zobel, J. y Moffat, A. Inverted Files for Text Search Engines. RMIT University y University of Melbourne, 2006. [link]

Recuperación de Información en la Web
Presentación de Artículos
Proyecto Final

Datos de Prueba

Colección RI-tknz-data
Colección RI-tknz-qm
Resumen CISI (Ejercicio 1 TP Modelos) 

Dump 10k ​Posting Lists Queries

Words-en.txt

Wiki-Large. Esta colección es un snapshot de Wikipedia seeccionado como material del libro "Search Engines...". http://www.search-engines-book.com/

Colección de Proyecto Gutenberg (parcial)

Recursos

  • Wiki con apuntes sobre indexación y recuperación usando Terrier [link]
  • Transparencias sobre "Caracterización de la web" [link]
  • Transparencias sobre "Análisis de Enlaces" [link]
  • Transparencias sobre "Motores de búsqueda" [link]

Bibliografía

Sugerida

  • "Introduction to Information Retrieval" - C. Manning, P. Raghavan, H. Schutze. Cambridge University Press, 2008. Versión en línea
  • "Modern Information Retrieval. The concepts and technology behind search" - R. Baeza-Yates, B. Ribeiro Neto. 2nd Ed. Addison-Wesley, 2011. Sitio web
  • "Search Engines: Information Retrieval in Practice" - B. Croft; D. Meltzer, T. Strohman. Pearson Education, 2009. Sitio web
  • "Introducción a la Recuperación de Información. Conceptos, modelos y algoritmos básicos" - Gabriel H. Tolosa y Fernando R.A. Bordignon. Laboratorio de Redes de Datos. UNLu, 2004 Descargar

Complementaria

  • "Information Retrieval. Algorithms and Heuristics" - D. A. Grossman, O. Frieder. 2nd Edition. Springer, 2004.Vista previa
  • "Managing Gigabytes: Compressing and Indexing Documents and Images" - I.H. Witten, A. Moffat, T.C. Bell. 2nd ed., Morgan Kaufmann, 1999. Sitio web
  • "Information Retrieval. Data Structures & Algorithms" - W. B. Frakes, R. Baeza-Yates. Prentice-Hall, 1992.Sitio web
  • "Mining the Web. Discovering Knowledge from Hypertext Data". Soumen Chakrabarti. Morgan-Kaufmann Publishers, 2003. Sitio web

 

Artículos (papers)

  • Diego Arroyuelo, Mauricio Oyarzún, SenénGonzález , Victor Sepulveda. Hybrid compression of inverted lists for reordered document collections. Information Processing & Management, Volume 54, Issue 6, November, 2018.
  • Matt Crane, J. Shane Culpepper, Jimmy Lin, Joel Mackenzie, Andrew Trotman. A Comparison of Document-at-a-Time and Score-at-a-Time Query Evaluation. In Proceedings of the Tenth ACM International Conference on Web Search and Data Mining (WSDM '17). ACM, 2017.
  • Andrew Kane, Frank Wm. Tompa. Split-Lists and Initial Thresholds for WAND-based Search. In The 41st International ACM SIGIR Conference on Research & Development in Information Retrieval (SIGIR '18). ACM, 2018.
  • Kun Jiang, Yuexiang Yang. Faster MaxScore Query Processing with Essential List Skipping. International Conference on Advanced Data Mining and Applications. ADMA, 2014. [Tomás Jurán]
  • Giulio Ermanno Pibiri, Rossano Venturini. On Optimally Partitioning Variable-Byte Codes. TKDE, 2019.
  • Joel Mackenzie, J. Shane Culpepper, Roi Blanco, Matt Crane, Charles L. A. Clarke, and Jimmy Lin. Query Driven Algorithm Selection in Early Stage Retrieval. In Proceedings of the Eleventh ACM International Conference on Web Search and Data Mining (WSDM '18). ACM, 2018.
  • Antonio Mallia, Giuseppe Ottaviano, Elia Porciani, Nicola Tonellotto, and Rossano Venturini. Faster BlockMax WAND with Variable-sized Blocks. In Proceedings of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR), 2017.
  • Alistair Moffat, Matthias Petri. ANS-Based Index Compression. Proceedings of the 2017 ACM on Conference on Information and Knowledge Management (CIKM), 2017. [Salvador Woinilowicz]
  • Giulio Ermanno Pibiri, Matthias Petri and Alistair Moffat. Fast Dictionary-based Compression for Inverted Indexes. ACM International Conference on Web Search and Data Mining (WSDM), 2019. [Agustín Rodriguez]
  • Anna Shtok, Oren Kurland, and David Carmel. Query Performance Prediction Using Reference Lists. ACM Trans. Inf. Syst. 34, 4, Article 19, June 2016. [David Serrano]
  • Thanh Trinh, Dingming Wu, Joshua Zhexue Huang. C3C: A New Static Content-Based Three-Level Web Cache. IEEE Access, Volume 7, 2019. [Bruno Crisafuli]
  • Yue-xiang Yang, Kun Jiang. Efficient dynamic pruning on largest scores first (LSF) retrieval. Frontiers of Information Technology & Electronic Engineering, 2016.
  • Haotian Zhang, Mustafa Abualsaud, Nimesh Ghelani, Mark D. Smucker, Gordon V. Cormack, Maura R. Grossman. Effective User Interaction for High-Recall Retrieval: Less is More. Proceedings of the 2018 ACM on Conference on Information and Knowledge Management (CIKM), 2018.
  • Zhilin Zhang, Simon Fraser, Chen Lin, Weipeng Lin. Secure Top-k Inner Product Retrieval. Proceedings of the 2018 ACM on Conference on Information and Knowledge Management (CIKM), 2018.