Recuperación de Información - 2018

Cronograma (Tentativo)

Semana Tema
1 (05/03) Introducción y problemática de la RI
2 (12/03) Análisis de Textos
3 (19/03) Modelos Clásicos de RI
4 (26/03) Evaluación de la Recuperación
5 (02/04) Estructuras de Datos para RI/Indexación
6 (09/04) Modelos de Lenguaje para RI
7 (16/04) Recuperación DAAT-TAAT - Algoritmos para Top-k
8 (23/04) Compresión del Índice - Recuperación por bloques.
9 (30/04) Retroalimentación/Expansión de la Consulta
10 (07/05) Arquitectura de la Web+Algoritmos de Análisis de Enlaces
11 (14/05) Exámenes Adicionales (no hay clases)
12 (21/05) Máquinas de Búsqueda para la Web
13 (28/05) Seminario de Intro a Text Mining.
14 (04/06) Exámen parcial
15 (11/06) Presentación de Artículos (papers)
16 (18/06) Presentación del Proyecto Final y Recuperatorio

 

Trabajos Prácticos

Intro. a la RI

Análisis de Texto

Paper: Ha, L., Stewart, D., Hanna P. & Smith, F. (2006). Zipf and Type-Token rules for the English, Spanish, Irish and Latin languages. Web Journal of Formal, Computational and Cognitive Linguistics, 1(8), 1-12. [link]

Modelos de Recuperación y Evaluación

Documento complementario: Modelo Booleano Extendido [link]

Paper: Joachims, T. Optimizing Search Engines Using Clickthrough Data. Proceedings of the Eighth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2002.[link]

Estructuras de Datos

Paper: Zobel, J. y Moffat, A. Inverted Files for Text Search Engines. RMIT University y University of Melbourne, 2006. [link]

Modelos de Lenguaje

Paper: Graham Bennett, Falk Scholer & Alexandra Uitdenbogerd. A Comparative Study of Probabilistic and Language Models for Information Retrieval. [link] Interesante paper para ver diversos modelos comparados y los parámetros usados en cada caso.

Recuperación de Información en la Web
Proyecto Final

Datos de Prueba

Colección RI-tknz-data
Colección RI-tknz-qm
Resumen CISI (Ejercicio 1 TP Modelos) 

Dump 10k ​Posting Lists Queries

Words-en.txt

Wiki-Large. Esta colección es un snapshot de Wikipedia seeccionado como material del libro "Search Engines...". http://www.search-engines-book.com/

Colección de Proyecto Gutenberg (parcial)

Recursos

  • Wiki con apuntes sobre indexación y recuperación usando Terrier [link]
  • Transparencias sobre "Caracterización de la web" [link]
  • Transparencias sobre "Análisis de Enlaces" [link]
  • Transparencias sobre "Motores de búsqueda" [link]

Bibliografía

Sugerida

  • "Introduction to Information Retrieval" - C. Manning, P. Raghavan, H. Schutze. Cambridge University Press, 2008. Versión en línea
  • "Modern Information Retrieval. The concepts and technology behind search" - R. Baeza-Yates, B. Ribeiro Neto. 2nd Ed. Addison-Wesley, 2011. Sitio web
  • "Search Engines: Information Retrieval in Practice" - B. Croft; D. Meltzer, T. Strohman. Pearson Education, 2009. Sitio web
  • "Introducción a la Recuperación de Información. Conceptos, modelos y algoritmos básicos" - Gabriel H. Tolosa y Fernando R.A. Bordignon. Laboratorio de Redes de Datos. UNLu, 2004 Descargar

Complementaria

  • "Information Retrieval. Algorithms and Heuristics" - D. A. Grossman, O. Frieder. 2nd Edition. Springer, 2004.Vista previa
  • "Managing Gigabytes: Compressing and Indexing Documents and Images" - I.H. Witten, A. Moffat, T.C. Bell. 2nd ed., Morgan Kaufmann, 1999. Sitio web
  • "Information Retrieval. Data Structures & Algorithms" - W. B. Frakes, R. Baeza-Yates. Prentice-Hall, 1992.Sitio web
  • "Mining the Web. Discovering Knowledge from Hypertext Data". Soumen Chakrabarti. Morgan-Kaufmann Publishers, 2003. Sitio web

 

Artículos (papers)

E. Bortnikov, D. Carmel, G. Golan-Gueta. Top-k Query Processing with Conditional Skips.
http://papers.www2017.com.au.s3-website-ap-southeast-2.amazonaws.com/com...

D. Shan, S. Ding, J. He, H. Yan, and X. Li. Optimized top-k processing with global page scores on block-max indexes.
https://pdfs.semanticscholar.org/1719/d5d60933883ce21c822a6f94bf33ef6066...

Jiaul H. Paik. A Novel TF-IDF Weighting Scheme for Effective Ranking.
http://www.tyr.unlu.edu.ar/tallerIR/2014/papers/novel-tfidf.pdf

Nima Asadi, Jimmy Lin. Fast, Incremental Inverted Indexing in Main Memory for Web-Scale Collections.
https://arxiv.org/pdf/1305.0699.pdf

Yen-Yu Chen, Torsten Suel, Alexander Markowetz. Efficient Query Processing in Geographic Web Search Engines.
http://engineering.nyu.edu/~suel/papers/geoquery.pdf

Jeffrey Dalton, Laura Dietz, James Allan. Entity Query Feature Expansion using Knowledge Base Links.
https://ciir-publications.cs.umass.edu/getpdf.php?id=1143

B. Barla Cambazoglu, Emre Varol, Enver Kayaaslan, Cevdet Aykanat, Ricardo Baeza-Yates. Query Forwarding in Geographically Distributed Search Engines.
http://www.tyr.unlu.edu.ar/tallerIR/2014/papers/queryforwarding.pdf

Sharad Goel, Andrei Broder, Evgeniy Gabrilovich, Bo Pang. Anatomy of the Long Tail: Ordinary People with Extraordinary Tastes.
https://pdfs.semanticscholar.org/b994/a760dd013d73efb58d85d6ab4429169108...

Van Dang W. Bruce Croft. Query Reformulation Using Anchor Text.
https://ciir-publications.cs.umass.edu/getpdf.php?id=900

Cristian Rossi, Edleno Silva de Moura, André Carvalho, Altigran Soares da Silva. Fast document-at-a-time query processing using two-tier indexes. https://www.researchgate.net/publication/262394809_Fast_document-at-a-ti...

Matteo Catena, Craig Macdonald, Iadh Ounis. On Inverted Index Compression for Search Engine Efficiency.
http://www.dcs.gla.ac.uk/~craigm/publications/catena14compression.pdf

Leif Azzopardi, Diane Kelly, Kathy Brennan. How Query Cost Affects Search Behavior.
http://www.dcs.gla.ac.uk/~leif/papers/azzopardi2013economics.pdf

Hao Yan, Shuming Shi, Fan Zhang, Torsten Suel, Ji-Rong Wen. Efficient Term Proximity Search with Term-Pair Indexes.
https://pdfs.semanticscholar.org/31ea/e38c4c922f2f47e1b6e5c53f4ccda542e7...