Recuperación de Información - 2016

Cronograma (Tentativo)

Semana Tema
1 (07/03) Introducción y problemática de la RI
2 (14/03) Análisis de Textos
3 (21/03) Semana Santa (no hay clases)
4 (28/03) Modelos Clásicos de RI
5 (04/04) Evaluación de la Recuperación
6 (11/04) Estructuras de Datos para RI
7 (18/04) Modelos de Lenguaje para RI
8 (25/04) Indexación y Recuperación
9 (02/05) Retroalimentación/Expansión de la Consulta
10 (09/05) Arquitectura de la Web+Algoritmos de Análisis de Enlaces
11 (16/05) Exámenes Adicionales (no hay clases)
12 (23/05) Máquinas de Búsqueda para la Web
13 (30/05) Seminario de Intro a Text Mining (sobre streams).
14 (06/06) Exámen parcial
15 (13/06)

Presentación de Artículos (papers)

Elegidos:

  • Andrés Giordano: "Vectorized VByte Decoding"
  • Francisco Tonín: "Entity Query Feature Expansion using Knowledge Base Links"
  • Sebastián Funes: "Understanding the Relationship of Information Need Specificity to Search Query Length"
16 (20/06) Presentación del Proyecto Final y Recuperatorio

 

Trabajos Prácticos

Intro. a la RI

Análisis de Texto

Paper: Ha, L., Stewart, D., Hanna P. & Smith, F. (2006). Zipf and Type-Token rules for the English, Spanish, Irish and Latin languages. Web Journal of Formal, Computational and Cognitive Linguistics, 1(8), 1-12. [link]

Modelos de Recuperación y Evaluación
Estructuras de Datos

Modelos de Lenguaje

Paper: Graham Bennett, Falk Scholer & Alexandra Uitdenbogerd. A Comparative Study of Probabilistic and Language Models for Information Retrieval. [link] Interesante paper para ver diversos modelos comparados y los parámetros usados en cada caso.

Recuperación de Información en la Web
Proyecto Final

Datos de Prueba

Colección T1-GR
Colección T1-QM
Resumen CISI (Ejercicio 1 TP Modelos) 
Dump 10k Posting Lists
Words-en.txt

Wiki-Large. Esta colección es un snapshot de Wikipedia seeccionado como material del libro "Search Engines...". http://www.search-engines-book.com/

Recursos

  • Wiki con apuntes sobre indexación y recuperación usando Terrier [link]
  • Transparencias sobre "Caracterización de la web" [link]
  • Transparencias sobre "Motores de búsqueda" [link]

Bibliografía

Sugerida

  • "Introduction to Information Retrieval" - C. Manning, P. Raghavan, H. Schutze. Cambridge University Press, 2008. Versión en línea
  • "Modern Information Retrieval. The concepts and technology behind search" - R. Baeza-Yates, B. Ribeiro Neto. 2nd Ed. Addison-Wesley, 2011. Sitio web
  • "Search Engines: Information Retrieval in Practice" - B. Croft; D. Meltzer, T. Strohman. Pearson Education, 2009. Sitio web
  • "Introducción a la Recuperación de Información. Conceptos, modelos y algoritmos básicos" - Gabriel H. Tolosa y Fernando R.A. Bordignon. Laboratorio de Redes de Datos. UNLu, 2004 Descargar

Complementaria

  • "Information Retrieval. Algorithms and Heuristics" - D. A. Grossman, O. Frieder. 2nd Edition. Springer, 2004.Vista previa
  • "Managing Gigabytes: Compressing and Indexing Documents and Images" - I.H. Witten, A. Moffat, T.C. Bell. 2nd ed., Morgan Kaufmann, 1999. Sitio web
  • "Information Retrieval. Data Structures & Algorithms" - W. B. Frakes, R. Baeza-Yates. Prentice-Hall, 1992.Sitio web
  • "Mining the Web. Discovering Knowledge from Hypertext Data". Soumen Chakrabarti. Morgan-Kaufmann Publishers, 2003. Sitio web

 

Artículos (papers)

Este listado (no exhaustivo) contiene algunos de los artículos que se pueden seleccionar para la exposición (semana 15). La mayoría ha sido publicados en las mejores reuniones científicas y journals de la disciplina.

Fast Document-at-a-time Query Processing using Two-tier Indexes https://www.researchgate.net/publication/262394809_Fast_document-at-a-ti...
Dual-Sorted Inverted Lists in Practice http://www.dcc.uchile.cl/~gnavarro/ps/spire12.5.pdf
Efficient Query Construction for Large Scale Data  
Entity Query Feature Expansion using Knowledge Base Links http://maroo.cs.umass.edu/pub/web/getpdf.php?id=1143
Task-Aware Query Recommendation http://maroo.cs.umass.edu/getpdf.php?id=1091
Impact of Response Latency on User Behavior in Web Search https://s.yimg.com/ge/labs/v2/uploads/fp482-arapakis.pdf
Context-Aware Web Search Abandonment Prediction http://research.microsoft.com/pubs/212416/sigir226-song.pdf
Collaborative Personalized Twitter Search with Topic-Language Models http://home.cse.ust.hk/~wilfred/paper/sigir14.pdf
Inverted Indexes for Phrases and Strings http://www.cs.nthu.edu.tw/~wkhon/papers/PTSHVC11.pdf
Automatic Boolean Query Suggestion for Professional Search https://pdfs.semanticscholar.org/ad5d/547d5bc316fdd9d1b0bc1a2bfe943181e3...
Addressing People's Information Needs Directly in a Web Search Result Page http://www.ambuehler.ethz.ch/CDstore/www2011/proceedings/p27.pdf
A Boosting Approach to Improving Pseudo-Relevance Feedback http://sifaka.cs.uiuc.edu/~ylv2/pub/sigir11-feedbackboost.pdf
Query Forwarding in Geographically Distributed Search Engines http://www.cs.bilkent.edu.tr/~aykanat/SIGIR-2010.pdf
Measuring Personalization of Web Search http://personalization.ccs.neu.edu/papers/web_search.pdf
Within-Document Term-Based Index Pruning with Statistical Hypothesis Testing http://ir.cis.udel.edu/~carteret/papers/ecir11a.pdf
A Novel TF-IDF Weighting Scheme for Effective Ranking  
Classifying Search Queries Using the Web as a Source of Knowledge http://www.stat.rutgers.edu/home/tzhang/papers/tweb09-qclass.pdf
Performance and Cost Tradeoffs in Web Search http://research.microsoft.com/en-us/um/people/nickcr/pubs/craswell_adc04...
Estimating search engine index size variability: a 9-year longitudinal study http://www.ncbi.nlm.nih.gov/pmc/articles/PMC4833824/
Improved Single-Term Top-k Document Retrieval http://www.dcc.uchile.cl/~gnavarro/ps/alenex15.pdf
Interactions between Health Searchers and Search Engines http://research.microsoft.com/en-us/um/people/ryenw/papers/schoenherrsig...
Modeling User Interests for Zero-query Ranking http://research.microsoft.com/pubs/259113/ECIR16-ProactiveRanking-camera...
On the Measurement of Test Collection Reliability http://julian-urbano.info/files/publications/055-measurement-test-collec...
Understanding the Relationship of Information Need Specificity to Search Query Length http://research.microsoft.com/en-us/um/people/sdumais/cikm2008-headstail...
Task-Aware Query Recommendation http://maroo.cs.umass.edu/getpdf.php?id=1091
Time-Critical Search http://research.microsoft.com/en-us/um/people/ryenw/papers/mishrasigir20...
What Users Do: The Eyes Have It http://es.csiro.au/pubs/thomas_airs13.pdf
Vectorized VByte Decoding http://r-libre.teluq.ca/595/1/varint.pdf
How Query Cost Affects Search Behavior http://www.dcs.gla.ac.uk/~leif/papers/azzopardi2013economics.pdf
On Inverted Index Compression for Search Engine Efficiency http://www.dcs.gla.ac.uk/~craigm/publications/catena14compression.pdf
Dynamic Index Pruning for Effective Caching http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.215.6997&rep=re...
Who Uses Web Search for What And How http://courses.cs.byu.edu/~cs653ta/Literature/Web-Search/Who-What-How.pdf
Efficient Term Proximity Search with Term-Pair Indexes https://pdfs.semanticscholar.org/31ea/e38c4c922f2f47e1b6e5c53f4ccda542e7...
Investigating query bursts in a web search engine http://chato.cl/papers/subasic_castillo_2013_investigating.pdf
Direct Answers for Search Queries in the Long Tail http://hci.stanford.edu/publications/2012/tailanswers/tailanswers-chi201...