Recuperación de Información - 2018
Cronograma (Tentativo)
Semana | Tema | |
1 (05/03) | Introducción y problemática de la RI | |
2 (12/03) | Análisis de Textos | |
3 (19/03) | Modelos Clásicos de RI | |
4 (26/03) | Evaluación de la Recuperación | |
5 (02/04) | Estructuras de Datos para RI/Indexación | |
6 (09/04) | Modelos de Lenguaje para RI | |
7 (16/04) | Recuperación DAAT-TAAT - Algoritmos para Top-k | |
8 (23/04) | Compresión del Índice - Recuperación por bloques. | |
9 (30/04) | Retroalimentación/Expansión de la Consulta | |
10 (07/05) | Arquitectura de la Web+Algoritmos de Análisis de Enlaces | |
11 (14/05) | Exámenes Adicionales (no hay clases) | |
12 (21/05) | Máquinas de Búsqueda para la Web | |
13 (28/05) | Seminario de Intro a Text Mining. | |
14 (04/06) | Exámen parcial | |
15 (11/06) | Presentación de Artículos (papers) | |
16 (18/06) | Presentación del Proyecto Final y Recuperatorio |
Trabajos Prácticos
Intro. a la RI |
Paper: Ha, L., Stewart, D., Hanna P. & Smith, F. (2006). Zipf and Type-Token rules for the English, Spanish, Irish and Latin languages. Web Journal of Formal, Computational and Cognitive Linguistics, 1(8), 1-12. [link] |
Modelos de Recuperación y Evaluación Documento complementario: Modelo Booleano Extendido [link] Paper: Joachims, T. Optimizing Search Engines Using Clickthrough Data. Proceedings of the Eighth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2002.[link] |
Paper: Zobel, J. y Moffat, A. Inverted Files for Text Search Engines. RMIT University y University of Melbourne, 2006. [link] |
Paper: Graham Bennett, Falk Scholer & Alexandra Uitdenbogerd. A Comparative Study of Probabilistic and Language Models for Information Retrieval. [link] Interesante paper para ver diversos modelos comparados y los parámetros usados en cada caso. |
Recuperación de Información en la Web |
Proyecto Final |
Datos de Prueba
Colección RI-tknz-data |
Colección RI-tknz-qm |
Resumen CISI (Ejercicio 1 TP Modelos) |
Dump 10k Posting Lists Queries |
Words-en.txt |
Wiki-Large. Esta colección es un snapshot de Wikipedia seeccionado como material del libro "Search Engines...". http://www.search-engines-book.com/ |
Colección de Proyecto Gutenberg (parcial) |
Recursos
- Wiki con apuntes sobre indexación y recuperación usando Terrier [link]
- Transparencias sobre "Caracterización de la web" [link]
- Transparencias sobre "Análisis de Enlaces" [link]
- Transparencias sobre "Motores de búsqueda" [link]
Bibliografía
Sugerida
- "Introduction to Information Retrieval" - C. Manning, P. Raghavan, H. Schutze. Cambridge University Press, 2008. Versión en línea
- "Modern Information Retrieval. The concepts and technology behind search" - R. Baeza-Yates, B. Ribeiro Neto. 2nd Ed. Addison-Wesley, 2011. Sitio web
- "Search Engines: Information Retrieval in Practice" - B. Croft; D. Meltzer, T. Strohman. Pearson Education, 2009. Sitio web
- "Introducción a la Recuperación de Información. Conceptos, modelos y algoritmos básicos" - Gabriel H. Tolosa y Fernando R.A. Bordignon. Laboratorio de Redes de Datos. UNLu, 2004 Descargar
Complementaria
- "Information Retrieval. Algorithms and Heuristics" - D. A. Grossman, O. Frieder. 2nd Edition. Springer, 2004.Vista previa
- "Managing Gigabytes: Compressing and Indexing Documents and Images" - I.H. Witten, A. Moffat, T.C. Bell. 2nd ed., Morgan Kaufmann, 1999. Sitio web
- "Information Retrieval. Data Structures & Algorithms" - W. B. Frakes, R. Baeza-Yates. Prentice-Hall, 1992.Sitio web
- "Mining the Web. Discovering Knowledge from Hypertext Data". Soumen Chakrabarti. Morgan-Kaufmann Publishers, 2003. Sitio web
Artículos (papers)
E. Bortnikov, D. Carmel, G. Golan-Gueta. Top-k Query Processing with Conditional Skips.
http://papers.www2017.com.au.s3-website-ap-southeast-2.amazonaws.com/com...
D. Shan, S. Ding, J. He, H. Yan, and X. Li. Optimized top-k processing with global page scores on block-max indexes.
https://pdfs.semanticscholar.org/1719/d5d60933883ce21c822a6f94bf33ef6066...
Jiaul H. Paik. A Novel TF-IDF Weighting Scheme for Effective Ranking.
http://www.tyr.unlu.edu.ar/tallerIR/2014/papers/novel-tfidf.pdf
Nima Asadi, Jimmy Lin. Fast, Incremental Inverted Indexing in Main Memory for Web-Scale Collections.
https://arxiv.org/pdf/1305.0699.pdf
Yen-Yu Chen, Torsten Suel, Alexander Markowetz. Efficient Query Processing in Geographic Web Search Engines.
http://engineering.nyu.edu/~suel/papers/geoquery.pdf
Jeffrey Dalton, Laura Dietz, James Allan. Entity Query Feature Expansion using Knowledge Base Links.
https://ciir-publications.cs.umass.edu/getpdf.php?id=1143
B. Barla Cambazoglu, Emre Varol, Enver Kayaaslan, Cevdet Aykanat, Ricardo Baeza-Yates. Query Forwarding in Geographically Distributed Search Engines.
http://www.tyr.unlu.edu.ar/tallerIR/2014/papers/queryforwarding.pdf
Sharad Goel, Andrei Broder, Evgeniy Gabrilovich, Bo Pang. Anatomy of the Long Tail: Ordinary People with Extraordinary Tastes.
https://pdfs.semanticscholar.org/b994/a760dd013d73efb58d85d6ab4429169108...
Van Dang W. Bruce Croft. Query Reformulation Using Anchor Text.
https://ciir-publications.cs.umass.edu/getpdf.php?id=900
Cristian Rossi, Edleno Silva de Moura, André Carvalho, Altigran Soares da Silva. Fast document-at-a-time query processing using two-tier indexes. https://www.researchgate.net/publication/262394809_Fast_document-at-a-ti...
Matteo Catena, Craig Macdonald, Iadh Ounis. On Inverted Index Compression for Search Engine Efficiency.
http://www.dcs.gla.ac.uk/~craigm/publications/catena14compression.pdf
Leif Azzopardi, Diane Kelly, Kathy Brennan. How Query Cost Affects Search Behavior.
http://www.dcs.gla.ac.uk/~leif/papers/azzopardi2013economics.pdf
Hao Yan, Shuming Shi, Fan Zhang, Torsten Suel, Ji-Rong Wen. Efficient Term Proximity Search with Term-Pair Indexes.
https://pdfs.semanticscholar.org/31ea/e38c4c922f2f47e1b6e5c53f4ccda542e7...