Recuperación de Información - 2017

Cronograma (Tentativo)

Semana Tema
1 (07/03) Introducción y problemática de la RI.
2 (14/03) Análisis de Textos.
3 (21/03) Modelos Clásicos de RI.
4 (28/03) Evaluación de la Recuperación.
5 (04/04) Estructuras de Datos para RI/Indexación.
6 (11/04) Modelos de Lenguaje para RI.
7 (18/04) Recuperación Exhaustiva y Algoritmos para Top-k.
8 (25/04) Compresión de Índices.
9 (02/05) Retroalimentación/Expansión de la Consulta.
10 (09/05) Arquitectura de la Web+Algoritmos de Análisis de Enlaces.
11 (16/05) Exámenes Adicionales (no hay clases)
12 (23/05) Máquinas de Búsqueda para la Web.
13 (30/05) Seminario de Intro a Text Mining.
14 (06/06) Exámen parcial
15 (13/06) Presentación de Artículos (papers).
16 (20/06) Presentación del Proyecto Final y Recuperatorio

 

Trabajos Prácticos

Intro. a la RI

Análisis de Texto

Paper: Ha, L., Stewart, D., Hanna P. & Smith, F. (2006). Zipf and Type-Token rules for the English, Spanish, Irish and Latin languages. Web Journal of Formal, Computational and Cognitive Linguistics, 1(8), 1-12. [link]

Modelos de Recuperación y Evaluación

Documento complementario: Modelo Booleano Extendido [link]

Paper: Joachims, T. Optimizing Search Engines Using Clickthrough Data. Proceedings of the Eighth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2002.[link]

Estructuras de Datos

Paper: Zobel, J. y Moffat, A. Inverted Files for Text Search Engines. RMIT University y University of Melbourne, 2006. [link]

Modelos de Lenguaje

Paper: Graham Bennett, Falk Scholer & Alexandra Uitdenbogerd. A Comparative Study of Probabilistic and Language Models for Information Retrieval. [link] Interesante paper para ver diversos modelos comparados y los parámetros usados en cada caso.

Recuperación de Información en la Web
Proyecto Final

Datos de Prueba

Colección RI-tknz-data
Colección RI-tknz-qm
Resumen CISI (Ejercicio 1 TP Modelos) 

Dump 10k ​Posting Lists Queries

Words-en.txt

Wiki-Large. Esta colección es un snapshot de Wikipedia seeccionado como material del libro "Search Engines...". http://www.search-engines-book.com/

Recursos

  • Wiki con apuntes sobre indexación y recuperación usando Terrier [link]
  • Transparencias sobre "Caracterización de la web" [link]
  • Transparencias sobre "Motores de búsqueda" [link]

Bibliografía

Sugerida

  • "Introduction to Information Retrieval" - C. Manning, P. Raghavan, H. Schutze. Cambridge University Press, 2008. Versión en línea
  • "Modern Information Retrieval. The concepts and technology behind search" - R. Baeza-Yates, B. Ribeiro Neto. 2nd Ed. Addison-Wesley, 2011. Sitio web
  • "Search Engines: Information Retrieval in Practice" - B. Croft; D. Meltzer, T. Strohman. Pearson Education, 2009. Sitio web
  • "Introducción a la Recuperación de Información. Conceptos, modelos y algoritmos básicos" - Gabriel H. Tolosa y Fernando R.A. Bordignon. Laboratorio de Redes de Datos. UNLu, 2004 Descargar

Complementaria

  • "Information Retrieval. Algorithms and Heuristics" - D. A. Grossman, O. Frieder. 2nd Edition. Springer, 2004.Vista previa
  • "Managing Gigabytes: Compressing and Indexing Documents and Images" - I.H. Witten, A. Moffat, T.C. Bell. 2nd ed., Morgan Kaufmann, 1999. Sitio web
  • "Information Retrieval. Data Structures & Algorithms" - W. B. Frakes, R. Baeza-Yates. Prentice-Hall, 1992.Sitio web
  • "Mining the Web. Discovering Knowledge from Hypertext Data". Soumen Chakrabarti. Morgan-Kaufmann Publishers, 2003. Sitio web

 

Artículos (papers)

A definir...