Seminar Similarity Search
Prof. Dr. Ulf Leser
Ähnlichkeitssuche liegt im Kern vieler Anwendungen, wie z.B. Suche nach ähnlichen Namen, nach ähnlichen Musikstücken, nach ähnlichen DNA Sequenzen, nach ähnlichen Ereignisse, nach ähnlichen Bildern, nach ähnlichen Objekten etc. Je nach Art der betrachteten Objekte (Strings, Bäume, Vektoren etc.) kommen dabei recht unterschiedliche Ähnlichkeitsmaße und Algorithmen zum Einsatz. Im Seminar betrachten wir verschiedene Probleme der (skalierbaren) Ähnlichkeitssuche und suchen nach Gemeinsamkeiten und charakteristischen Unterschieden in den verwandten Methoden.
Voraussetzungen
Gute Kenntnisse in Algorithmen, Indexstrukturen und Datenbanktechniken.
Schein und Anrechenbarkeit
Das Seminar ist anrechenbar für
- Diplom Informatik
- M.Sc. Informatik
- Master Wirtschaftsinformatik
Voraussetzung für den Schein ist:
- das Bestehen einer Kurzklausur zu Grundlagenthemen in der Mitte des Semesters (siehe unten),
- das Halten eines wissenschaftlichen Vortrags am Ende des Semesters,
- die einmalige Übernahme der "Opponentenrolle" (siehe unten) sowie
- das Erstellen einer schriftlichen Ausarbeiten (Seminararbeit)
Anmeldung
Die Teilnehmerzahl ist begrenzt, die Anmeldung erfolgt über Goya.
Termine und Ablauf
Am 16.04.2012 findet von 11-13 Uhr die Einführungsveranstaltung statt, die für alle Teilnehmenden verpflichtend ist. Dort werden die Themen erläutert und vergeben.
Das Seminar wird als Blockseminar am Ende des Semesters abgehalten. Jede(r) Studierende muss einen ca. 30 minütigen Vortrag über das zugewiesene Thema halten. Vorher finden mindestens zwei Treffen mit dem/der Betreuer(in) statt, einmal zur Vorbesprechung des Themas und einmal zur Besprechung der Folien. Außerdem wird es in der Mitte des Semesters einen Termin geben, in dem alle Studierenden in einer 5-minütigen Flash-Präsentation ihr Thema vorstellen, um Querverbindungen zu erkennen und die rechtzeitige Beschäftigung mit dem Thema sicherzustellen. Schließlich muss zu jedem Thema eine 10-15 seitige Seminararbeit verfasst werden.
Zu jedem Thema wird ein(e) Studierende(r) am Semesteranfang als Opponent(in) ausgewählt. Der/Die Opponent(in) liest ebenfalls die zum Thema ausgegebene Literatur und bereitet für den Vortrag Fragen zu deren Inhalt vor, die dann im Seminar diskutiert werden. Ziel ist nicht das Aufdecken von Verständnislücken beim Vortragenden, sondern die kritische Auseinandersetzung mit dem Thema.
Zusätzlich zu der speziellen Literatur, über die die Vorträge gehalten werden, gibt es für alle Teilnehmer verpflichtende Einführungslektüre. In der Mitte des Semesters werden die dort vermittelten Kenntnisse im Rahmen einer Kurzklausur überprüft. Das Bestehen der Klausur ist Voraussetzung für die weitere Teilnahme.
Alle Pflichttermine in der Übersicht:
- 16.04.2013, 11-13 Uhr, RUD 26 1'307: Einführung (Folien)
- Bis 15.5.2013: Individuelle Themenbesprechung mit Betreuer(in)
- Am 31.5.2013, 10-12 Uhr in Raum 4.112: Kurzklausur, Flash-Präsentationen aller Themen
- Im Laufe des Juni: Individuelle Folienbesprechung mit Betreuer(in)
- Blockseminar 1: Dienstag, 9.7., 10-12.30, EZ 0'313
- Blockseminar 2: Freitag, 12.7., 10-12.30, EZ 1'305
- Letzter Abgabetermin für die Seminararbeit: 30.8.2013
Vorlagen
- Schriftliche Ausarbeitung, Latex
- Vortrag, Powerpoint
- Vortrag, Keynote
- Text für die Selbstständigkeitserklärung
- Checkliste für Vortrag und Seminararbeit
Themen
Topic | Paper | Vortragende(r) | Opponent(in) | Betreuer(in) |
---|---|---|---|---|
Einführende Literatur für alle Teilnehmer | Zezula, P., Amato, G., Dohnal, V. and Batko, M. (2006). "Similarity Search: The Metric Space Approach", Springer, Seiten 3-49 | |||
String Similarity Join |
1. Rheinländer, A., Knobloch, M., Hochmuth, N. and Leser, U. (2010). "Prefix Tree Indexing for Similarity Search and Similarity Join on Genomic Data". Int. Conf. on Scientific and Statistical Database Management, Heideberg, Germany. pp 519-536.
2. Rheinländer, A. and Leser, U. (2011). "Scalable Sequence Similarity Search and Join in Main Memory on Multi-Cores". 2nd Workshop on High Performance Bioinformatics and Biomedicine, France.
|
Witt | Adler | Astrid Rheinländer |
Web page duplicate detection |
1. Manku, G. S., Jain, A. and Das Sarma, A. (2007). "Detecting near-duplicates for web crawling". WWW, Banff, Canada.
2. Theobald, M., Siddharth, J. and Paepcke, A. (2008). "SpotSigs: robust and efficient near duplicate detection in large web collections". SIGIR Conference on Research and Development in Information Retrieval, Singapore. |
Spindler | Shi | Ulf Leser |
SimSearch in String Sets |
1. Fenz, D., Lange, D., Rheinländer, A., Naumann, F. and Leser, U. (2012). "Efficient Similarity Search in a Very Large String Sets". Int. Conf. on Scientific and Statistical Database Management, Chania, Greece
2. Gerdjikov, S., Mihov, S., Mitankin, P. and Schulz, K. U. (2013). "WallBreaker - overcoming the wall effect in similarity search". Workshop on Scalable String Similarity Search and Join, Genua, Italy. |
Tran | Salomon | Sebastian Wandelt |
Heuristics for fast local alignment search |
1. Kent, W. J. (2002). "BLAT--the BLAST-like alignment tool." Genome Res 12(4): 656-64.
2. BLAST (irgendein Buch) |
|||
SimSearch mit BWT |
1. Li, H. and Durbin, R. (2010). "Fast and accurate long-read alignment with Burrows-Wheeler transform." Bioinformatics 26(5): 589-95.
2. Langmead, Ben, et al. "Ultrafast and memory-efficient alignment of short DNA sequences to the human genome." Genome Biol 10.3 (2009): R25. |
Adler | Valencia | Ulf Leser |
Multidimensional SimSearch by low dimensional embedding | Hjaltason, G. R. and Samet, H. (2000). "Contractive embedding methods for similarity searching in metric spaces." Technical Report TR-4102, University of Maryland. | Shi | Glushanok | Ulf Leser |
Tree indexes for multidimensional simsearch |
1. Ciaccia, P., Patella, M. and Zezula, P. (1997). "M-tree: An Efficient Access Method for Similarity Search in Metric Spaces". 23rd International Conference on Very Large Data Bases, Athens, Greece. 2. Skopal, T., J., P., Krátký, M. and Snášel, V. (2003). "Revisiting M-tree building principles". Advances in Databases and Information Systems, Dresden, Germany |
Laß | Manthey | Ulf Leser |
SimSearch in Graphs: Subgraph matching |
Gouda, K. and Hassaan, M. (2013). "Compressed Feature-based Filtering and Verification Approach for Subgraph Search". Extending Database Technology, Genoa, Italy.
|
|||
Graph Alignment |
1. Kuchaiev, O., Milenkovi, T., Memisevic, V., Hayes, W. and Przulj, N. (2010). "Topological network alignment uncovers biological function and phylogeny." Journal of the Royal Society.
2. Przulj, N. (2007). "Biological network comparison using graphlet degree distribution." Bioinformatics 23(2): e177-83. |
Valencia | Laß | Andre Koschmieder |
SimSearch in Workflows |
1. Dijkman, R., Dumas, M. and García-Bañuelos, L. (2009). "Graph Matching Algorithms for Business Process Model Similarity Search". Business Process Management.
2.Dijkmana, R., Dumas, M., van Dongenc, B., Käärik, R. and Mendling, J. (2011). "Similarity of business process models: Metrics and evaluation." Information Systems 36(2). |
|||
Tree Similarity Search |
1. Wang, J. T., Shan, H., Shasha, D. and Piel, W. H. (2003). "TreeRank: a similarity measure for nearest neighbor searching in phylogenetic databases. " Inc. Conf. on Scientific and Statistical Database Management.
2. Yang, R., Kalnis, P. and Tung, A. K. H. (2005). "Similarity evaluation on tree-structured data". SIGMOD, Baltimore, USA. |
Salomon | Spindler | Johannes Starlinger |
Tree Edit Distance |
1. Bille, P. (2005). "A survey on tree edit distance and related problems." Theoretical Computer Science 337(1).
2. Pawlik, M. and Augsten, N. (2011). "RTED: a robust algorithm for the tree edit distance." PVLDB 5(4). |
Glushanok | Witt | Ulf Leser |
Similarity Search in Music Data |
1. Serra, J., Gomez, E. and Herrera, P. (2010). Audio cover song identification and similarity: Background, approaches, evaluation and beyond. In (ed). Book "Advances in Music Information Retrieval", Springer Berlin Heidelberg 2. Yang, C. (2001). "Music Database Retrieval Based on Spectral Similarity". Technical Report. Stanford University. |
Manthey | Tran | Ulf Leser |