Humboldt-Universität zu Berlin - Mathematisch-Naturwissenschaftliche Fakultät - Wissensmanagement in der Bioinformatik

Seminar Geospatial Web Information Retrieval

Wintersemester 2008/2009
Prof. Dr. Ulf Leser

Inhalt des Seminars

In dem Seminar werden verschiedene moderne Techniken im Umfeld der Websuche behandelt. Diese sind (1) Verfahren , mit denen Suchmaschinen geographische Informationen verarbeiten können, wie z.B. die Extraktion geographischer Informationen, Location-Based Services, Darstellung von Informationen in MashUps (ala Google Maps oder Worldwind), etc.; (2) Techniken zum hoch-skalierbaren und fokussierten Crawlen; (3) Verfahren zur Berechnung "großer" Probleme auf parallelen Clustern (Map-Reduce).

Die Veranstaltung ist als Seminar in der praktischen Informatik anrechenbar. Die Teilnehmerzahl ist begrenzt, die Anmeldung erfolgt über Goya.

Termine und Ablauf

Am Dienstag, den 14. Oktober 2007, findet von 13.00 c.t. bis 15.00 Uhr in RUD 26, R1'303 die Einführungsveranstaltung statt, die für alle Teilnehmer verpflichtend ist. Dort werden die Themen erläutert und an die interessierten Studenten vergeben.

Das Seminar wird als Blockseminar am Ende des Semesters abgehalten. Jeder Student (oder jede Gruppe von Studenten) muss einen ca. 40 minütigen Vortrag über das zugewiesene Thema halten. Außerdem wird es vor Weihnachten einen Termin geben, in dem alle Studenten in einer 5-minütigen Flash-Präsentation Ihr Thema vorstellen müssen, um Querverbindungen zu erkennen und die rechtzeitige Beschäftigung mit dem Thema sicherzustellen. Schließlich muss zu jedem Thema eine Seminararbeit verfasst werden. Zusätzlich zu der speziellen Literatur, über die die Vorträge gehalten werden, gibt es für alle Teilnehmer verpflichtende Einführungslektüre. Am Termin vor Weihnachten werden die dort vermittelten Kenntnisse im Rahmen einer kurzen Klausur überprüft. Das Bestehen der Klausur ist Voraussetzung für die weitere Teilnahme.

Alle Pflichttermine in der Übersicht:

  • 14.10.2008, 13.00-15.00 Uhr: Einführungstermin (RUD 26, 1'303)
  • 15.11.2008 - 30.11.2008: Individuelle Themenbesprechung mit dem Betreuer
  • 19.12.2008, 13.00-14.30 Uhr: Flash-Präsentationen aller Themen (Humboldt-Kabinett)
  • 19.12.2008, 14.30-15.00 Uhr: Klausur zu den einführenden Texten (Humboldt-Kabinett)
  • 15.01.2009 - 31.01.2009: Individuelle Folienbesprechung mit dem Betreuer
  • 06.02.2009, 13.00-18.00 Uhr: Blockseminar Teil 1 (Ort: RUD26, 3.113)
  • 09.02.2009, 10.00-15.00 Uhr: Blockseminar Teil 2 (Ort: RUD26, 4.113)
  • Bis 31.3.2009: Abgabe der Seminararbeit

Voraussetzungen für die Teilnahme

  • Abgeschlossenes Grundstudium
  • Grundkenntnisse in Webarchitekturen
  • Vorkenntnisse im Information Retrieval
  • Lesen englischer Texte

Voraussetzungen für den Schein

  • Bestehen der Klausur über die Einführungstexte
  • Teilnahme an allen Terminen (Einführung, Kurzpräsentationen, Blockseminar)
  • Wahrnehmung mehrerer Termine mit dem Betreuer (wird individuell verabredet).
  • Ca. 45 min. Vortrag über das abgesprochene Thema
  • Selbständiges Erstellung einer Seminararbeit im Umfang von 10-20 Seiten bis zum 31.3.2009

Vorlagen

Themen


Thema
Literatur
Vortragende/r
Einführungslektüre
  • Ahlers, Boll: "Geospatially Focussed Web Crawling", DB-Spektrum 2007, Heft 23
  • Li, Yang, Zhou: "Spatial Information Retrieval", in Encyclopedia of GIS , Bin Xiong and Shashi Shekehar (Eds), Springer-Verlag, pp.596-599.
  • Huang: "A survey on web information retrieval technologies", Technical Report TR-120, Experimental Computer Systems Lab (ECSL), Department of Computer Science, SUNY Stony Brook, Feb. 2000.
  • Gräf, Henrich, Lüdecke, Schlieder: "Geografisches Information Retrieval", Datenbank-Spektrum 18, 2006
Alle
Einführungsveranstaltung (Folien)
  Ulf Leser

Allgemeine Web-IR-Techniken

Question Answering
  • Kwok, C. C. T., Etzioni, O. and Weld, D. S. (2001). "Scaling question answering to the Web." Proceedings of the 10th international conference on World Wide Web: 150-161.
  • Ein aktuelles Beispiel: PowerSet
  • Ein internationaler QA Wettbewerb: TREC-2006 Question Answering Track
Marc Bux
Web Caching
  • Breslau, L., Cao, P., Fan, L., Phillips, G. and Shenker, S. (1999). "Web caching and Zipf-like distributions: evidence and implications". IEEE INFOCOM'99.
  • Davison, B. D. (2001). "A Web Caching Primer." IEEE Internet Computing: 38-45.
  • Pallis, G. and Vakali, A. (2006). "Insight and Perspectives for Content Delivery Networks." Communications of the ACM 49(1): 101-106.
  • Weikum, G. (2000). "Web Caching", in Rahm Vossen (ed.) "Web und Datenbanken", dpunkt.Verlag
  • Siehe auch Akamai und den Akamai Real-Time Web Monitor
Johannes Marotzke
Mashups
  • Aumüller, D. and A. Thor, Mashup-Werkzeuge zur Ad-Hoc Integration im Web. Datenbank Spektrum, 2008. 26: p. 4-10.
  • Ennals, R.J. and M.N. Garofalakis. MashMaker: mashups for the masses. in SIGMOD. 2007. Beijing, China.
  • Siehe auch Yahoo-Pipes, Intels MashMaker, Google Mashup Workbench, IBM AlphaWorks Mashup Editor etc.
Johannes Starlinger

Crawling

Scalable Crawling
  • Heydon, A. and Najork, M. (1999). "Mercator: A scalable, extensible Web crawler." World Wide Web 2(4): 219-229.
  • Boldi, P., Codenotti, B., Santini, M. and Vigna, S. (2004). "UbiCrawler: a scalable fully distributed Web crawler." Software Practice and Experience 34(8): 711-726.
  • Siehe auch YaCy: Large-Scale Open-Source Web Search
-
Focussed Crawling
  • Chakrabarti, S., van den Berg, M. and Dom, B. (1999). "Focused crawling: A new approach to topic-specific Web resource discovery." COMPUT. NETWORKS 31(11): 1623-1640.
  • Chakrabarti, S., Punera, K. and Subramanyam, M. (2002). "Accelerated focused crawling through online relevance feedback." Proceedings of the 11th international conference on World Wide Web: 148-159.
Maik Lange

Distributed computation of web-size problems

Map-Reduce
  • Dean, J. and Ghemawat, S. (2004). "MapReduce: Simplified Data Processing on Large Clusters". 6th Symposium on Operating Systems Design and Principles, San Francisco, CA.
  • Lömmel, R. (2008). "Google's MapReduce programming model -- Revisited." Science of Computer Programming 70(1): 1-30.
  • Yang, H.-c., Dasdan, A., Hsiao, R.-L. and Parker, D. S. (2007). "Map-reduce-merge: simplified relational data processing on large clusters". Proceedings of the 2007 ACM SIGMOD international conference on Management of data, ACM. pp 1029-1040.
Astrid Rheinländer, Stefan Bethge
Databases on Clouds
  • Brantner, M., Florescu, D., Graf, D., Kossmann, D. and Kraska, T. (2008). "Building a database on S3". Proceedings of the 2008 ACM SIGMOD international conference on Management of data, ACM. pp 251-264.
  • Amazon Simple Storage Service (Amazon S3)
Christian Müller
Hadoop Oliver Fischer, Stephan Allner

Geographic Information Retrieval

Spatial locality in search
  • Jones, R., Zhang, W. V., Rey, B. and Jhala, P. (2008). "Geographic intention and modification in web search." International Journal of Geographical Information Science 22(3): 229-246.
  • Jones, R., Rey, B., Madani, O. and Greiner, W. (2006). "Generating query substitutions". 15th International Conference on World Wide Web, Edinburgh, Scotland. pp 387-396.
-
Geographic Search
  • Vaid, S., Jones, C. B., Joho, H. and Sanderson, M. (2005). "Spatio-textual Indexing for Geographical Search on the Web." Springer LNCS 3633: 218-218.
  • Jones, Abdelmotry, Finch etc. "The SPIRIT Spatial Search Engine: …" GIScience, 2004
  • Chen, Y.-Y., Suel, T. and Markowetz, A. (2006). "Efficient query processing in geographic web search engines". SIGMOD. pp 277 - 288.
Lena Kalleske
Geographic NER und Geotagging
  • Lieberman, M. D., Samet, H., Sankaranarayanan, J. and Sperling, J. (2007). "STEWARD: architecture of a spatio-textual search engine." Proceedings of the 15th annual ACM international symposium on advances in geographic information systems.
  • Amitay, E., et al. Web-a-where: geotagging web content. in 27th ACM SIGIR Conference. 2004. Sheffield, U.
  • Silva, M.r.J., et al., Adding geographic scopes to web resources. Computers, Environment and Urban Systems, 2006. 30(4): p. 378-399.
  • 1. McCurley, K.S. Geospatial mapping and navigation of the web. in 10th International Conference on World Wide Web. 2001.
Hagen Zahn