Humboldt-Universität zu Berlin - Mathematisch-Naturwissenschaftliche Fakultät - Wissensmanagement in der Bioinformatik

DBSI-WBI Forschungsseminar WS 2008/2009

Arbeitsgruppe Datenbanken und Informationssysteme | Arbeitsgruppe Wissensmanagement in der Bioinformatik

Neue Entwicklungen im Datenbankbereich und in der Bioinformatik

Prof. Johann-Christoph Freytag und Prof. Ulf Leser
  • wann? Montag, 15-17 c.t.
  • wo? RUD 25, 4.113

Dieses Seminar wird von den Mitgliedern der beiden Arbeitsgruppen als Forum der Diskussion und des Austauschs genutzt. Studenten und Gäste sind herzlich eingeladen.

Folgende Termine und Vorträge sind bisher vorgesehen:

Datum Thema Vortragende(r)
16.10.2008
14.00 c.t.,
RUD 26, 0'307

Distributed Calculation of Local Averages in Sensor Networks

Björn Schümann
23.10.2008
9.00 c.t.,
RUD 25, 3'101
Probevorträge ISWC-Workshop:
Automatic Component Selection with Semantic Technologies
The Semantic Web Client Library - Consuming Linked Data in Your Applications

Martin Kost
Olaf Hartig
27.10.2008
11.00 c.t.,
RUD 25, 4'113

Equator - Ein Wiki für die Task Force Erdbeben

Lars Döhling
03.11.2008
15.00 c.t.,
RUD 25, 4'113

Iterative Softwareentwicklung mit DESWAP

Steffen Brüntjen
17.11.2008
15.00 c.t.,
RUD 26, 1'306

Ansätze zur Generierung und Optimierung komplexer Anfragestrukturen

Holger Schwarz
24.11.2008
15.00 c.t.,
RUD 25, 4'113
Histogramme im Datenbankmanagementsystem SAP MaxDB

Graphbasierte Vorhersage von Proteinfunktionen
Thomas Trost

Christian Brandt
01.12.2008
15.00 c.t.,
RUD 25, 4'113
Entwicklung einer Benutzerschnittstelle für die Suche in linguistischen Mehrebenen-Korpora unter Betrachtung softwareergonomischer Gesichtspunkte
Anfrageübersetzungen in SPARQL für verteilte Quellen
Karsten Hütter

Alexander Musidlowski
08.12.2008
15.00 c.t.,
RUD 25, 4'113
Analyse sozialer Netzwerke mittels dynamischer Visualisierung am Beispiel MediaWiki-basierter Collaboration Networks
Maschinelles Lernen zur Schadensvorhersage bei Naturkatastrophen
Stefan Kröger

Franziska Brosy
15.12.2008
15.00 c.t.,
RUD 25, 4'113

Describing Differences between Overlapping Databases

Heiko Müller
05.01.2008
15.00 c.t.,
RUD 25, 4'113

Entwicklung einer Methode zur Vorhersage des zeitlichen Verlaufs chromatographischer Peaks

Benjamin Daeumlich
19.01.2009
15.00 c.t.,
RUD 25, 4'113

Data Quality in Sensor Data Streams

Anja Klein
26.01.2009
15.00 c.t.,
RUD 25, 4'113

MatView Index: Indexing RDF Data for SPARQL queries

Roger Castillo
02.02.2009
15.00 c.t.,
RUD 25, 4'113
Zur Integration von Krankenhausinformationssystemen am Beispiel vom Helios Klinikum Berlin Buch
Ein Workflow Management System für die parallele Sequenzdatenverarbeitung
Daniel Neumann

Steffen Scheer
16.02.2009
15.00 c.t.,
RUD 25, 4'113
Verknüpfung funktioneller Annotationen von Genprodukten mit Nachweistexten in wissenschaftlichen Artikeln
Identification of Complex Entities in Unstructured Content exploiting Structured Data
Nikolay Damyanliev

Falk Brauer
24.02.2009
13.00 c.t.,
RUD 25, 3'113

PTQL - Parse Tree Query Language

Jörg Hakenberg
19.03.2009
15.00 c.t.,
RUD 25, 3'113
Klassifikationsverfahren zur systematischen Fremdschlüsselbestimmung aus Inklusionsabhängigkeiten
Nutzung von Statistiken über Daten-Overlap zur Anfrageoptimierung in Peer Data Management Systemen
Alexandra Rostin

Véronique Tietz
02.04.2009
14.00 c.t.,
RUD 25, 3'113

A Search Engine for a Database Containing Structured Reports about Nosocomial Outbreaks (Outbreak Database)

Marco Eckstein






Zusammenfassungen

Distributed Calculation of Local Averages in Sensor Networks (Björn Schümann)

Wireless Sensor Netzwerke bestehen aus einer großen Anzahl kleiner unabhängiger Sensor-Knoten. Aktuelle Lösungen zur Anfragebearbeitung aus Sensornetzwerken nutzen die Prozessoren auf den Knoten um Teile der Anfragebearbeitung bereits im Netzwerk durchzuführen. Ziel ist es die Anzahl der über Funk zu übermitteln Nachrichten so weit wie möglich zu reduzieren und damit den Energieverbrauch zu senken. In meiner Studienarbeit habe ich verschiedene Möglichkeiten untersucht, wie man lokale Aggregationsanfragen möglichst energiesparend bearbeiten kann. Lokale Aggregationsanfragen benötigen die Daten aller Sensoren in einem gewissen Umkreis, um zum Beispiel den Durchschnitt in jedem 100m Kreis zu berechnen. Zu jeder möglichen Variante der Anfragebearbeitung habe ich ein Modell zur Abschätzung des nötigen Aufwands aufgestellt und diese Modell anschließend mit Hilfe von Simulationen validiert.

Automatic Component Selection with Semantic Technologies (Martin Kost)

Selecting a suitable set of available software components for a component-based software system is a laborious task, often too complex to perform manually. We present a novel approach to automatic component selection that respects dependencies between crucial properties of the required functionalities, an issue not considered by existing approaches. Our approach, which utilizes semantic technologies, is based on comprehensive semantic descriptions of software components and their functionalities.

The Semantic Web Client Library - Consuming Linked Data in Your Applications (Olaf Hartig)

This talk is part of the tutorial "How to Publish Linked Data on the Web" at the 7th International Semantic Web Conference (ISWC2008). The aim of this tutorial is to provide participants with a detailed conceptual understanding of how to publish Linked Data on the Web. The second focus of the tutorial will be applications that consume Linked Data from the Web. In the talk I will present the Semantic Web Client Library which enables applications to query the whole Web of data. I will describe the algorithm applied by the library to dynamically retrieve data from the Web during query execution and I will discuss the integration of the library in apllications.

Equator - Ein Wiki für die Task Force Erdbeben (Lars Döhling)

Das Deutsche Task Force Komitee Erdbeben beschäftigt sich mit der Erforschung von geophysikalischen Prozessen, welche während und nach einem schweren Erdbeben ablaufen. Um über einen konkreten Einsatz der Task Force zu entscheiden, müssen vorab Informationen - überwiegend aus Webquellen - über das Beben gesammelt werden. Dies geschieht bisher in Papierform. Um diesen Prozess zu vereinfachen wurde im Rahmen einer Studienarbeit ein Wiki implementiert, welches einerseits als zentraler Informationsspeicher fungiert, andererseits auch das automatische Einsammeln von Erdbebeninformationen und deren Visualisierung leistet.

Iterative Softwareentwicklung mit DESWAP (Steffen Brüntjen)

Das am Institut entwickelte DESWAP-Framework kann Softwareentwicklern bei der Suche nach fertigen Softwarekomponenten für Anwendungen aus dem Bereich des Semantic Web assistieren. Die in dieser Präsentation vorgestellte Diplomarbeit erweitert das Framework um die Fähigkeit, Softwaremodelle mit UML-Editoren austauschen zu können. Eine besondere Anforderung ergibt sich dabei aus dem Ziel, DESWAP in iterativen Entwicklungsprozessen einsetzen zu können. Die Erweiterung wurde mit Techniken aus dem Bereich der Modellgetriebenen Softwareentwicklung, etwa zur Transformation von Modellen, realisiert.

Ansätze zur Generierung und Optimierung komplexer Anfragestrukturen (Holger Schwarz)

Die Generierung von Datenbankanweisungen spielt in einer Vielzahl von Anwendungssystemen eine wichtige Rolle. In diesem Vortrag werden typische Anwendungsbereiche vorgestellt und klassifiziert sowie das Spektrum möglicher Generierungsansätze erläutert. Von besonderem Interesse sind Bereiche, in denen zusammenhängende Strukturen von Datenbankanweisungen generiert werden. Dies ist beispielsweise häufig bei Analysen auf der Basis eines Data Warehouse der Fall. Die generierten Strukturen weisen in der Regel ein erhebliches Optimierungspotential auf. Im Vortrag wird mit der Coarse-Grained Optimization ein Optimierungsansatz vorgestellt, der speziell auf Anfragesequenzen zugeschnitten ist. Ein zentraler Aspekt dieses Ansatzes ist die Transformation der Sequenzen wobei zur Steuerung des Transformationsprozesses Kostenschätzungen des ausführenden Datenbanksystems genutzt werden. Diese Kostenschätzungen können verbessert werden, wenn mit Hilfe der Propagation von Histogrammen durch Operatorgraphen wichtige Eigenschaften von Zwischenergebnissen innerhalb einer Sequenz von Datenbankanweisungen geeignet abgeschätzt werden. Darüber hinaus wird im Vortrag eine Erweiterung des Optimierungsansatzes erläutert, die es erlaubt, auch solche Anfragestrukturen zu optimieren, die durch heterogene Aktivitätstypen und komplexe Kontrollflussstrukturen gekennzeichnet sind. Durchgeführte Messungen zeigen, dass mit Hilfe der vorgestellten Ansätze eine erheblich effizientere Ausführung generierter Datenbankanweisungen erzielt werden kann.

Histogramme im Datenbankmanagementsystem SAP MaxDB (Thomas Trost)

Datenbankhersteller wie Oracle, Microsoft und IBM nutzen Historgamme für die Bestimmung der Selektivität. Das Datenbankmanagementsystem SAP MaxDB verfolgte bislang eine andere Strategie, die Selektivität wurde anhand von Stichproben zur Laufzeit bestimmt. Diese Bestimmung ist bei der SAP MaxDB nur möglich, wenn auf den interessierenden Attributen Indizes vorhanden sind. In der Diplomarbeit wurde die Möglichkeit der Integration von Histogrammen untersucht. Im Vortrag wird sowohl auf die verschiedenen Histogrammtypen als auch auf die Notwendigkeit von multidimensionalen Histogrammen eingegangen. Anschließend werden einige Aspekte der Implementierung aufgezeigt.

Graphbasierte Vorhersage von Proteinfunktionen (Christian Brandt)

Proteine erfüllen ihre Aufgabe in der Zelle fast nie isoliert, sondern im Verbund mit anderen. Viele Ansätze zur Vorhersage von Proteinfunktionen basieren daher auf der Analyse von biologischen Netzwerken. In dieser Diplomarbeit wurde ein speziesübergreifendes Graphmodell untersucht, in dem verschiedene Indizien für funktionale Ähnlichkeit als gewichtete Kanten zwischen den Proteinen dargestellt sind. Betrachtet wurden Protein-Protein-Interaktionen, die Ähnlichkeit der Proteinsequenz, Ähnlichkeit der Gene-Ontology-Annotation und die Nähe der entsprechenden Gene auf dem Chromosom. Mit Hilfe eines einfachen Clustering-Verfahrens wurden in dem resultierenden Graphen Teilnetzwerke gesucht, die in verschiedenen Organismen ähnliche Funktionen wahrnehmen. Die Cluster wurden zur Übertragung von GO-Annotationen genutzt.

Entwicklung einer Benutzerschnittstelle für die Suche in linguistischen Mehrebenen-Korpora unter Betrachtung softwareergonomischer Gesichtspunkte (Karsten Hütter)

Immer mehr Linguisten nutzen digitale, annotierten Textdaten (Korpora) für die Belegsuche und statistische Auswertungen. Die Mehrheit der derzeit verfügbaren Korpussuchen wurde für die Beantwortung spezifischer Forschungsfragen mit Grundlage einer bestimmten Datenbasis entwickelt.

Die Korpussuche ANNIS 2.0 geht einen anderen Weg. Ziel ist es eine allgemeine Suchplattform für unterschiedliche Annotationarten zur Verfügung zu stellen und parallel durchsuchbar zu machen. Ein solches Projekt erfordert ein besonderes Vorgehen sowohl bei der Implementierung der eigentlichen Suche als auch bei der Umsetzung der   Benutzerschnittstelle. Der Vortrag stellt die Benutzerschnittstelle sowie den Weg dahin vor.

Anfrageübersetzungen in SPARQL für verteilte Quellen (Alexander Musidlowski)

Zu den wichtigstens Anwendungen des Internet zählt das World Wide Web (WWW). Das Semantic Web ist eine Weiterentwicklung des WWW. Eine Idee dahinter ist, dass die Daten des WWW verständlich für einen Computer aufbereitet werden. Dazu müssen die Daten mit Hilfe des Resource Description Framework (RDF) annotiert werden. SPARQL ist eine Anfragesprache die ausgewählte Informationen aus diesen RDF-Quellen extrahieren kann.

In den HP Labs wurde die API ARQ entwickelt, die einen SPARQL-Prozessors implementiert. ARQ kann jedoch nur jeweils eine RDF-Quelle verarbeiten. Daher wurde von Bastian Quilitz DARQ entwickelt, wodurch der Zugriff auf mehrere, verteilte Quellen möglich ist. Jedoch ist DARQ immer noch auf ein homogenes RDF-Modell (Vokabular) angewiesen.

Diese Arbeit erweitert DARQ so, dass es heterogene Vokabulare verarbeiten kann. Dazu wird ein Mapping eingelesen, dass auf OWL und SWRL basiert. Dieses Mapping wird ausgewertet und die ursprüngliche Nutzeranfrage auf die verschiedenen Quellen "verteilt" und angepasst. Die zurückgelieferten Ergebnisse werden entsprechend des Mappings transformiert und ausgegeben. Zusätzlich wird ein Cache implementiert, der das Ergebnis einer Anfragen an eine Quelle zwischenspeichern kann. Dieses Ergebnis wird auf Anfrage erneut ausgegeben, ohne dass die ursprüngliche Quelle angefragt werden muss. Dadurch ergibt sich eine erhebliche Zeitersparnis als auch eine Reduzierung der Netzwerklast.

Analyse sozialer Netzwerke mittels dynamischer Visualisierung am Beispiel MediaWiki-basierter Collaboration Networks (Stefan Kröger)

In Unternehmen und im öffentlichen Raum gewinnen Wikis und andere soziale virtuelle Informationsräume seit einiger Zeit zunehmend an Bedeutung. Damit einhergehend verstärkt sich auch das Interesse an der Analyse dieser Informationsräume. Dabei steht neben den konkreten Inhalten und den Personen der Plattformen auch zunehmend das Netzwerk selbst als sich stetig weiterentwickelndes System im Fokus der Betrachtung.  Einen Beitrag zur Analyse kann die dynamische Visualisierung der Netzwerke geben. Dabei werden die Methoden und Techniken aus der Analyse sozialer Netzwerke (SNA) genutzt und unter dem Aspekt der Dynamik, das heißt unter Betrachtung der Veränderungen und Prozesse innerhalb der Netzwerke im Zeitverlauf, betrachtet. Es wird die These aufgestellt, dass die dynamische Visualisierung die Analyse MediaWiki-basierter sozialer Netzwerke unterstützt, indem Veränderungen und Entwicklungen in den Netzwerken nachvollzogen werden können. Ziel der Umsetzung ist eine konfigurierbare und flexible Visualisierung.

Maschinelles Lernen zur Schadensvorhersage bei Naturkatastrophen (Franziska Brosy)

Am GeoForschungsZentrum (GFZ) in Potsdam beschäftigt sich ein Teilprojekt der Sektion Ingenieurhydrologie mit dem Erfassen von Hochwasserschäden und dessen schadensbestimmenden Parametern. In einer Kooperation zwischen dem GFZ Potsdam und dem Institut für Informatik der Humboldt-Universität zu Berlin erfolgte eine Analyse der Daten vom Hochwasser im Elbe und Donau Gebiet im Jahre 2002 erstmals mit Methoden des maschinellen Lernens. Prototypisch wurde ein Prozess entwickelt, mit dem auf den Hochwasserdaten mit ihren über 600 Attributen, drei verschiedene Klassifikationsalgorithmen getestet und deren Vorhersageergebnisse evaluiert wurden. Die Schadensvorhersagen für Hausratschäden und Gebäudeschäden wurden in Abhängigkeit vom Typ des Hochwassers (Grundhochwasser, langsame Flussüberschwemmung, Sturzflut oder Deichbruch) getroffen. Dabei kamen die Methoden C4.5 als ein Algorithmus zum Entscheidungsbaum-Lernen, der Naiv Bayes Klassifikator zum Bayes’schen Lernen und eine Support Vector Machine zum Klassifikationslernen mit einer Kernel-Maschine zum Einsatz. Zuvor wurden besonders diskriminative Eigenschaften je für die Kombination aus Hochwassertyp und Schadenstyp aus den Daten gefiltert. Sowohl der Vorgang der Feature Selection als auch das Klassifizieren an sich sind innerhalb einer Software für maschinelles Lernen und Data Mining namens Weka durchgeführt worden. Ein Vergleich der vorhergesagten Schadensklassen mit den tatsächlichen Schadensklassen ergab, dass im Durchschnitt (über alle Methoden, alle Hochwassertypen und Schadenstypen) die richtige Klasse zu 50% und die richtige Klasse oder deren Nachbarklasse zu 86% vorhergesagt wurde. Anhand der einzelnen Vorhersageergebnisse wurden weitere Fragestellungen geklärt.

Describing Differences between Overlapping Databases (Heiko Müller)

Das Thema Datenqualität hat im Bereich der wissenschaftlichen Forschung in den vergangenen Jahren zunehmend an Bedeutung gewonnen. Existierende Verfahren zur Qualitätskontrolle und Datenbereinigung sind für wissenschaftliche Daten jedoch nur bedingt einsetzbar. Dies liegt zum einen an der höheren Komplexität der Daten und zum anderen an unserer oftmals noch unvollständigen und mit Unsicherheit behaftet Kenntnis der Regularien in den entsprechenden Domänen. Eine viel versprechender Ansatz zur Steigerung der Datenqualität wissenschaftlicher Daten ist die Integration überlappender Datenquellen. Überlappende Datenquellen zeigen Bereiche potentiell minderer Datenqualität in Form von Datenkonflikten zwischen den Quellen auf. Eine wichtige Voraussetzung für die Integration überlappender Datenquellen ist es, die Auftretenden Datenkonflikte (kurz Konflikte) gezielt aufzulösen. In vielen Fällen treten die Konflikte dabei nicht zufällig auf sondern folgen einer systematischen Ursache. Eine Kenntnis dieser Systematik erlaubt es, Konflikte mit gleicher Ursache gemeinsam zu lösen. Wir bezeichnen dies als kontextabhängige Konfliktlösung. Im Rahmen dieser Arbeit entwickeln wir eine Reihe von Algorithmen, die das Auffinden von systematischen Unterschieden in überlappenden Daten unterstützen. Wir präsentieren ein Modell für systematische Konflikte in überlappenden Daten und präsentieren Algorithmen zum Auffinden charakteristischer Muster in den überlappenden Daten, die im Zusammenhang mit Konflikten auftreten. Diese Widerspruchsmuster dienen einem Experten als Unterstützung bei der Festlegung von Konfliktlösungsstrategien im Rahmen der Datenintegration.

Entwicklung einer Methode zur Vorhersage des zeitlichen Verlaufs chromatographischer Peaks (Benjamin Daeumlich)

In der Proteomforschung wird der Aufbau, die Funktion und das Zusammenspiel von Proteinen und Peptiden untersucht. Dadurch werden Informationen gewonnen, die für das Leben einer Zelle von entscheidender Bedeutung sind. Diese Informationen sind beispielsweise für pharmazeutische Unternehmen interessant, da damit die Ursachen von Krankheiten ermittelt werden können. In den letzten Jahren haben sich leistungsfähige massenspektrometrische Verfahren zur Proteomanalyse immer stärker durchgesetzt. In Kooperation mit dem Lehrstuhl für Analytische Chemie hat der Lehrstuhl für Datenbanken und Informationssysteme das Projekt "Intelligente datenabhängige Massenspektrometrie" ins Leben gerufen, welches zum Ziel hat, die Analyseverfahren für Proteome zu optimieren. Bei der Analyse von Stoffgemischen (Peptidgemische in der Proteomforschung) werden vorgeschaltete Trennverfahren genutzt, um die einzelnen Stoffe des Gemisches zu separieren. Nach der Trennung können die separierten Stoffe in einem Analysegerät genauer untersucht werden. Durch die Kopplung von Trennsystem und Analysegerät sind einzelne Stoffe nur in einem bestimmten Zeitfenster verfügbar, welches von Stoff zu Stoff variiert. Aufgrund der Eigenschaften des Trennverfahrens sind mehrere Stoffe gleichzeitig in unterschiedlichen Konzentrationen verfügbar. Nach Möglichkeit sollen alle Stoffe genauer untersucht werden. Das Analysegerät kann allerdings nur einen Stoff zu einem Zeitpunkt genauer untersuchen. Somit ist eine Abschätzung der Zeit, in der ein Stoff für Untersuchungen verfügbar ist, notwendig, um eine Untersuchungsreihenfolge zu finden, in der möglichst viele Stoffe genauer untersucht werden können (im optimalen Fall alle Stoffe). Dieser Sachverhalt tritt auch bei der Massenspektrometrie auf, auf welche sich diese Studienarbeit bezieht. Aus den dabei gewonnenen Messdaten lässt sich für jeden auftretenden Stoff eine Kurve extrahieren, die den zeitlichen Verlauf der Intensität des Stoffes widerspiegelt. In der Studienarbeit wird eine Methode zur Vorhersage des zei tlichen Verlaufs dieser Intensitätskurve entwickelt. Dies ermöglicht es, die Verweildauer des Stoffes in der Untersuchungsanordnung abzuschätzen.

Data Quality in Sensor Data Streams (Anja Klein)

Smart monitoring systems use sensor data to guide automatic manufacturing processes as well as complex business decisions. The restricted quality of sensor data due to limited sensor precision and sensor failures poses a crucial problem, which is very often ignored by the application owners. In order to avoid wrong decisions due to dirty data, quality characteristics have to be captured, processed, and provided to the respective business task.

In my thesis, I address this problem by presenting a flexible model for the propagation and processing of data quality information. The comprehensive analysis of common data stream processing operators and their impact on data quality allows a fruitful data evaluation and diminishes incorrect business decisions. I developed the data quality model control to adapt the quality granularity to guarantee the correctness of provided quality information. Moreover, I propose the quality-driven optimization of data stream processing to improve the overall stream quality.

MatView Index: Indexing RDF Data for SPARQL queries (Roger Castillo)

The Semantic Web as an evolution of the World Wide Web is an important initiative which aims to organize information spread all over the web creating a universal medium for the exchange of data where data can be shared and processed by automated tools as well as by people. The idea of representing these information by means of directed labelled graphs, RDF, has been widely accepted by the scientific community, however querying RDF data sets to find the desired information may result difficult and highly time consuming. This is due to the number of comparisons that are needed to find the subgraphs that satisfy the query patterns in the RDF data set. This topic is closely related to the subgraph isomorphism problem. Our talk will discuss the use of indexes on SPARQL queries to reduce the response time and the search space for queries. Our approach will use materialized queries, i.e., precomputed query patterns and their occurrences in the data sets.

Zur Integration von Krankenhausinformationssystemen am Beispiel vom Helios Klinikum Berlin Buch (Daniel Neumann)

Krankenhausinformationssysteme (KIS) sind komplexe medizinische Informationssysteme, die aus einem Patientendatenverwaltungssystem, einem administrativen Informationssystem und Medizinische Informationssysteme bestehen. Ein KIS nach dieser Definition kann nicht gekauft werden, es stellt die Gesamtheit der einzelnen an das Krankenhaus angepassten Informationssysteme dar, deren integrative Kopplung ein einzigartiges, einem evolutionärem Prozess unterworfenes KIS ausbildet. Verschiedene KIS-Architektur-Konzepte versuchen dennoch, diese zu kategorisieren. Für die semantische Integration von Patientendaten aus verschiedenen Informationssystemen werden medizinische Kommunikationsprotokolle wie Health Level Seven (HL7) benötigt. Werden diese nicht „nativ gesprochen“ von den beteiligten Systemen, sind also keine übereinstimmenden Schnittstellen vorhanden, ist ein Kommunikationsserver für die Vermittlung zuständig. Ein Blick hinter die IT-Kulissen vom Helios Klinikum Berlin Buch soll zeigen, wie das dortige KIS aufgebaut ist, wie es entstand und welche zukünftigen Entwicklungen bereits abzusehen sind.

Ein Workflow Management System für die parallele Sequenzdatenverarbeitung (Steffen Scheer)

Die neuen Generationen der nicht Sanger-basierten DNA-Sequenziertechnologien haben das Potential, das Erbgut ganzer Organismen mit nur wenigen Geräteläufen zu bestimmen. Die Beurteilung der Qualität der Rohsequenzdaten nach unterschiedlichen Kriterien ist von großer Bedeutung, um Fehler bei der nachfolgenden Sequenzanalyse zu minimieren.

Zu diesem Zweck wird in diesem Vortrag ein Workflow Management System für die parallele Verarbeitung von Sequenzrohdaten der am Max Planck Institut für Molekulare Genetik verfügbaren Sequenzierplattformen vorgestellt. Durch das System wird es möglich, den gestiegenen Anforderungen in puncto Durchsatz gerecht zu werden und gleichzeitig das notwendige Abstraktionsniveau für den Entwurf beliebiger Programmkaskaden zu gewährleisten.

Verknüpfung funktioneller Annotationen von Genprodukten mit Nachweistexten in wissenschaftlichen Artikeln (Nikolay Damyanliev)

Es wird in wissenschaftlichen Artikeln nach Nachweistexten für die funktionellen Annotationen von Genprodukten gesucht. Dazu werden anhand der beim BioCreAtIvE I Wettbewerb, Teilaufgabe 2.1 bereitgestellten Daten mithilfe des Sentence-sliding-window Verfahrens Textausschnitte aus Artikeln vorgeschlagen, in denen die Funktionen von Genprodukten (Proteinen) beschrieben sein sollten. Die Bewertung der Textausschnitte erfolgt mithilfe von Listen von Proteinnamen und Listen von relevanten zu GO-Termen Wörtern, die nach TFIDF gewichtet werden (s.g. GO-Wolken). Als Eingabedaten werden die Daten, die bei dem BioCreAtIvE I Wettbewerb, Teilaufgabe 2.1 verwendet wurden, benutzt.

Identification of Complex Entities in Unstructured Content exploiting Structured Data (Falk Brauer)

Currently, valuable business information is increasingly stored as unstructured data, such as in documents, emails, etc, out side of enterprise systems. For example, the documents and emails exchanged between business partners captures information on transactions between them like purchases, sales, and payments. In order to make effective use of such information, relevant business entities such as products, customers, purchase orders, and their relationships need to be automatically identified from the unstructured data sources. As such entities are typically described by structured data stored in existing enterprise database, a major challenge is to correctly associate the entities recognized in unstructured data with the structured data stored in enterprise databases. The talk captures applications and techniques for exploiting knowledge, stored within enterprise databases, in order to identify entities within text.

PTQL - Parse Tree Query Language (Jörg Hakenberg)

In this Forschungsseminar, I want to discuss our previous and recent efforts regarding a deep annotation of PubMed, a collection of ca. 18 million abstracts, comprising around 100 million sentences. A syntactic parse with LinkGrammar forms the basis for this annotation. We added biomedical entities (genes, organisms, diseases, etc.) as predicted by an inhouse software and MetaMap (UMLS-based) plus grounding of some entity types. Key idea is a query language, which we call Parse Tree Query Language, that allows to query all such parsed and annotated sentences in a language similar to LPath, additionally covering entity types, linkages between constituents, and other constraints.

In the seminar, we shall look at implementation aspects, the database backend, performance issues, an information retrieval engine to speed up queries across the 100 million sentences, initial and future applications (that allow for precision/recall benchmarking), and a user-friendly adaptation of the notoriously nerdy QL. It shows that de-coupling the processes of deep parsing, entity annotation, storage, information retrieval, information extraction, and querying, alleviates the tasks of designing and adapting systems for different (text mining) goals easily.

Klassifikationsverfahren zur systematischen Fremdschlüsselbestimmung aus Inklusionsabhängigkeiten (Alexandra Rostin)

Diese Studienarbeit entstand im Rahmen des ALADIN-Projektes. Ziel dieses Projektes ist es, den Integrationsprozess von biomedizinischen Datenbanken so weit wie möglich zu automatisieren. Dieses erfordert unter anderem die Erkennung von semantischen Beziehungen der in ihnen enthaltenen Objekte. In einer relationalen Datenbank kann ein solcher semantischer Zusammenhang durch eine Fremdschlüsselbeziehung repräsentiert werden. Somit müssen für eine automatische Integration die Fremdschlüssel erkannt bzw. vorhergesagt werden. Ziel dieser Studienarbeit ist es, die Fremdschlüsselbestimmung als ein Klassifikationsproblem zu modellieren und die Eignung von Klassifikationsverfahren für diese Aufgabenstellung zu testen. Das entwickelte Verfahren erwartet Inklusionsabhängigkeiten als Eingabe, die zuvor mit dem SPIDER Algorithmus berechnet wurden. Als Werkzeug für Maschinelles Lernen - Verfahren wurde WEKA (Waikato Environment for Knowledge Analysis) verwendet.

Nutzung von Statistiken über Daten-Overlap zur Anfrageoptimierung in Peer Data Management Systemen (Véronique Tietz)

Ein Peer Data Management System (PDMS) ist ein verteiltes Informationssystem, das aus einem Netzwerk von autonomen Quellen (Peers) mit im Allgemeinen heterogenen Schemata besteht. In einem solchen System wird eine Anfrage von einem Peer bearbeitet, indem sie mithilfe von Mappings an andere, benachbarte Peers weitergeleitet und die Ergebnisse geeignet zusammengeführt werden. Je nach Verteilung der Daten in dem PDMS können diese Ergebnisse Überlappungen bezüglich Real-World-Entitäten aufweisen, was zu erheblichen Redundanzen sowohl im Datentransport als auch bei der Anfragebearbeitung führt. Ziel der Diplomarbeit war es, unter Nutzung von Statistiken diese Redundanzen zu vermeiden und damit zu einer weiteren Optimierung der Anfragebearbeitung beizutragen. Im Rahmen dieses Vortrags stellen wir den in der Diplomarbeit entwickelten, neuartigen Pruningansatz und hierauf aufbauende Strategien zur Anfrageoptimierung vor. Besondere Herausforderungen ergeben sich dabei aus dem Fehlen einer zentralen Instanz mit „globalem Wissen“ und dem Anspruch, die Autonomie der einzelnen Peers vollständig zu erhalten.

A Search Engine for a Database Containing Structured Reports about Nosocomial Outbreaks (Outbreak Database) (Marco Eckstein)

In der an der Charité gepflegten Datenbank Outbreak Database werden Artikel zu Krankheitsausbrüchen in medizinischen Einrichtungen gespeichert. Im Gegensatz zu den zu Grunde liegenden Originalartikeln (z. B. aus PubMed/MEDLINE) erfolgt die Speicherung in hierarchisch stark strukturierter Form. Der Datenbestand ist über die Webschnittstelle unter http://www.outbreak-database.com öffentlich zugänglich und durchsuchbar. Das Projekt soll medizinischem Personal ermöglichen, bei Ausbrüchen schnell effektive Gegenmaßnahmen finden zu können. Auch für Forschung und Weiterbildung ist Outbreak Database ein nützliches Werkzeug. Im Rahmen der Studienarbeit wurde der Großteil der Suchmaschine (inklusive Teilen der Webschnittstelle) für das Projekt entwickelt. Der Vortrag wird sich v. a. darauf konzentrieren, wie die Open Source-Suchmaschinenbibliothek Lucene verwendet und angepasst wurde um eine endnutzerfreundliche Schnittstelle zu implementieren: -Wie können hierarchische Daten durchsucht werden? -Wie können Volltextsuche, exakte Suche und Bereichssuche integriert werden? -Wie kann das Scoring angepasst werden, um eine sinnvolle Sortierung der Ergebnisse zu ermöglichen?

Kontakt: Samira Jaeger; sjaeger(at)informatik.hu-berlin.de