Forschungsseminar WBI - DBIS — Wissensmanagement in der Bioinformatik

Wissensmanagement in der Bioinformatik | Forschungsseminar WBI - DBIS

Forschungsseminar WBI - DBIS

Arbeitsgruppe Datenbanken und Informationssysteme | Arbeitsgruppe Wissensmanagement in der Bioinformatik

Neue Entwicklungen im Datenbankbereich und in der Bioinformatik

Prof. Johann-Christoph Freytag und Prof. Ulf Leser

wann? Dienstag, 11-13 c.t.
wo? RUD 25, 4.112

Dieses Seminar wird von den Mitgliedern der beiden Arbeitsgruppen als Forum der Diskussion und des Austauschs genutzt. Studenten und Gäste sind herzlich eingeladen.

Folgende Termine und Vorträge sind bisher vorgesehen:

Datum	Thema	Vortragende(r)
10.06.2010 15.00 c.t., RUD 25, 4.112	Prefix Tree Indexing for Similarity Search and Similarity Join on Genomic Data (Probevortrag SSDBM) Erkennung naher Duplikate von Nachrichten im Web	Astrid Rheinländer Cristian Müller
11.06.2010 11.00 c.t., RUD 25, 4.112	Effiziente Anfragebearbeitung in Peer-Daten-Management-Systemen	Armin Roth
11.06.2010 14.00 c.t., RUD 25, 4.112	Semantic Integration of Natural Person Schemata in the European Union	Martin Herzog
29.06.2010 11.00 c.t., RUD 26, 0'310	Probevortrag: Selecting Materialized Views for RDF Data	Roger Castillo
05.08.2010 11.00 c.t., RUD 25, 4.112	TBA	Johannes Starlinger

Zusammenfassungen

Prefix Tree Indexing for Similarity Search and Similarity Join on Genomic Data - Probevortrag SSDBM (Astrid Rheinländer)

Similarity search and similarity join on strings are important for applications such as duplicate detection, error detection, data cleans- ing, or comparison of biological sequences. Especially DNA sequencing produces large collections of erreneous strings which need to be searched, compared, and merged. However, current RDBMS offer similarity oper- ations only in a very limited and inefficient form that does not scale to the amount of data produced in Life Science projects. We present PETER, a prefix tree based indexing algorithm supporting approximate search and approximate joins. Our tool supports Hamming and edit distance as similarity measure and is available as C++ library, as Unix command line tool, and as cartridge for a commercial database. It combines an efficient implementation of compressed prefix trees with advanced pre-filtering techniques that exclude many candidate strings early. The achieved speed-ups are dramatic, especially for DNA with its small alphabet. We evaluate our tool on several collections of long strings containing up to 5,000,000 entries of length up to 3,500. We compare its performance to agrep, nrgrep, and user-defined functions inside a relational database. Our experiments reveal that PETER is faster by orders of magnitude compared to the command-line tools. Compared to RDBMS, it computes similarity joins in minutes for which UDFs did not finish within a day and outperforms the built-in join methods even in the exact case.

Erkennung naher Duplikate von Nachrichten im Web (Cristian Müller)

Das Wissen um Duplikate eröffnet Vorteile beim verarbeiten und speichern von großen Mengen aus Datenobjekten. Dies trifft ebenfalls zu, wenn es sich bei besagten Datenobjekten um Fließtext handelt. In diesem speziellen Fall sind weitere Anwendungsmöglichkeiten denkbar z.B. das Auffinden von Texten mit ähnlichen Themen oder das Auffinden von Plagiaten. Diese Anwendungsmöglichkeiten basieren auf der Fähigkeit außer echten Duplikaten auch nahe Duplikate zu erkennen. Also Duplikate, die sich nicht signifikant unterscheiden, aber keine Kopien voneinander sind. Ein beliebtes Mittel, um solche "nähe" zu bewerten, ist die Verwendung eines Ähnlichkeitsmaßes. Ein Ähnlichkeitsmaß bildet ein Paar von Objekten auf einen numerischen Wert ab. Liegt dieser Wert oberhalb eines Schwellwertes werden die beiden Objekte als Duplikate betrachtet. In der Studienarbeit wurde untersucht in wie weit sich ein Ähnlichkeitsmaß eignet, um nahe Duplikate in Nachrichten zu finden. Diese Nachrichten entsprangen HTML-Seiten. Zusätzlich zu dem Kernproblem des Auffindens von Duplikaten ergab sich das Problem die Nachrichten aus den HTML-Seiten zu extrahieren. Dieser Vortrag stellt die verwendeten Mittel, Vorgehensweisen und Ergebnisse vor.

Effiziente Anfragebearbeitung in Peer-Daten-Management-Systemen (Armin Roth)

Peer-Daten-Management-Systeme (PDMS) bestehen aus einer dynamischen Menge von Peers, die Anfragen sowohl unter Zugriff auf lokale Daten als auch durch Weiterreichen an benachbarte Peers beantworten. PDMS sind aufgrund ihrer dezentralen Natur hochflexibel, leiden aber aufgrund der massiven Redundanz in den beschrittenen Weiterreichungspfaden bei zunehmender Anzahl von Peers unter erheblichen Effizienzproblemen. Darüber hinaus führen die zum Weiterreichen notwendigen Anfragetrans- formationen oftmals zu einem unerwünschten Informationsverlust.
Die Dissertation basiert auf der Idee, die Vollständigkeit von Anfrage-ergebnissen als Optimierungsziel zu betrachten. Peers können dazu solche Pfade von der weiteren Anfragebearbeitung ausschliessen, von denen sie ein ungünstiges Verhältnis von Ergebnisgröße zu Kosten erwarten. Die Erwartungen basieren auf Schätzungen derErgebniskar-dinalität, die über selbstadaptive Histogramme implementiert werden. Die Aktualisierung dieser Histogramme basiert aber wiederum auf ausgeführten Weiterreichungen, was zu einem weiteren Zielkonflikt zwischen Schätzgenauigkeit und Zeitaufwand führt.
In der Arbeit werden verschiedene Verfahren entwickelt und evaluiert, die einen geeigneten Kompromiss zwischen Nutzen und Kosten der indivi-duellen Weiterreichungen suchen. In einer lokalen Optimierungsstrategie limitieren wir das insgesamt für die Anfragebearbeitung verwendete Zeit-Budget. In einem zweiten Optimierungsansatz nutzen wir mehrdimen-sionale Histogramme über die Überlappung zweier Datenquellen zur gezielten Verminderung der Redundanz in der Anfragebearbeitung. Experimente mit einem neu entwickelten PDMS, dem System P, zeigen Effizienzgewinne von einer Größenordnung und mehr.

Semantic Integration of Natural Person Schemata in the European Union (Martin Herzog)

In the European Union, the schemata used to describe a natural person are very different. Each member state is free to apply its own model to various administrative applications. As a result there is a lack of semantic interoperability between countries when personal data needs to be exchanged across national boundaries. The purpose of this work is to find a way to establish semantic interoperability among the different data about natural persons. To this end, the national personal schemata are mapped to a specific global schema. On this basis, a semi-automatic process for the semantic integration of personal schemata is developed. It is based on automatic schema matching on one hand and the manual modification of schema mappings on the other hand. The talk gives insights into the proposed process and shows the experimental results of a use case with four personal schemata.

Selecting Materialized Views for RDF Data (Roger Castillo)

In the design of a relational database, the administrator has to decide, given a fixed or estimated workload, which indexes should be created. This so called index selection problem is an non-trivial optimization problem in relational databases. We describe a novel approach for index selection on RDF data sets. We propose an algorithm to automatically suggest a set of indexes as materialized views based on a workload of SPARQL queries. The selected set of indexes aims to decrease the cost of the workload. We also provide a cost model to estimate the potential impact of candidate indexes on query performance and an algorithm to select an optimal set of indexes. This algorithm may be integrated into an existing SPARQL query engine.

TBA (Johannes Starlinger)

TBA

Kontakt: Samira Jaeger; sjaeger(at)informatik.hu-berlin.de