Humboldt-Universität zu Berlin - Mathematisch-Naturwissenschaftliche Fakultät - Wissensmanagement in der Bioinformatik

Forschungsseminar WBI

Arbeitsgruppe Wissensmanagement in der Bioinformatik

Neue Entwicklungen im Datenbankbereich und in der Bioinformatik

Prof. Ulf Leser

  • wann/wo? siehe Vortragsliste

Dieses Seminar wird von den Mitgliedern der Arbeitsgruppe als Forum der Diskussion und des Austauschs genutzt. Studierende und Gäste sind herzlich eingeladen.

Folgende Vorträge sind bisher vorgesehen:


Termin & Ort Thema Vortragende(r)
Mittwoch, 11.10.2015, 11 Uhr s.t., RUD 25, 4.410 Classifying Abstracts of Biomedical Literature for Stem Cell Research David Asher
Mittwoch, 11.11.2015, 11 Uhr c.t., RUD 25, 4.410 Vergleich von SciDB und Stratosphere zur Verarbeitung von Satellitenbildern Moritz Borgmann
Mittwoch, 11.11.2015, 12 Uhr, RUD 25, 4.410 Massiv parallele kNN-Suche auf der GPU im Performancevergleich zur kNN-Suche über Indexstrukturen David Salomon
Donnerstag, 12.11.2015, 10 Uhr c.t., RUD 25, 4.410 Parallele Set Containment Joins mit Präfixbäumen Anja Kunkel
Montag, 07.12.2015, 16 Uhr c.t., RUD 25, 4.410 The 'Mutational Signature Data-analysis' concept - A contextual introduction towards combining the somatic driver mutation and germline GWAS identification data-analysis concepts Raik Otto
Freitag, 11.12.2015, 10 Uhr c.t., RUD 25, 4.410 Aspektbasierte Meinungsanalyse von Bewertungen mobiler Applikationen Mario Sänger
Freitag, 11.12.2015, 11 Uhr c.t., RUD 25, 4.410 Model of Transcription Factor activity - Inference from gene expression and TF binding data Michael Rauer
Mittwoch, 16.12.2015, 10 Uhr c.t., RUD 25, 4.410 Hands on Saasfee: A Scalable Scientific Workflow Execution Environment Jörgen Brandt, Marc Bux
Donnerstag, 21.01.2016, 10 Uhr c.t., RUD 25, Humboldt-Kabinett Semantische Analyse von Tabellen in Volltexten Irina Glushanok
Donnerstag, 21.01.2016, 11 Uhr c.t., RUD 25, Humboldt-Kabinett Executing AQL on Apache Flink Max Schultze
Mittwoch, 02.03.2016, 10 Uhr c.t., RUD 25, 4.410 Systems biology of RAS oncogene-mediated transformation and therapy resistance: A Pan-omics approach Katharina Kasack
Montag, 14.03.2016, 10 Uhr c.t., RUD 25, 4.410 Data Flow Optimization Georgia Kougka
Mittwoch, 06.04.2016, 13 Uhr c.t., RUD 25, 4.410 Retrospective Publication Analysis - Validation and Improvements of the results Dennis Wagner
Mittwoch, 13.04.2016, 15 Uhr c.t., RUD 25, 4.410 Predicting the disease-causing potential of DNA variants with MutationTaster Dominik Seelow

Zusammenfassungen

Classifying Abstracts of Biomedical Literature for Stem Cell Research (David Asher)

Ziel der Studienarbeit war es einen Klassifizierer zu entwickeln, welcher anhand eines Abstracts von einem Artikeln entscheidet, ob dieser relevant für die Forschung an Stammzellen sind. Mögliches Einsatzgebiet eines solchen Klassifizierers ist beispielsweise die automatische Filterung von Suchergebnissen einer Anfrage an PubMed. Im Vortrag werden die Methoden beschrieben, welche bei der Entwicklung des Klassifizierers zum Einsatz kamen, die Beschreibung der durchgeführten Experimente sowie dessen Resultate. Der Abschluss des Vortrags bildet eine kleine Retrospektive, welche die während der Entwicklung gewonnen Erkenntnissen ("Lessons Learned") enthält.

Vergleich von SciDB und Stratosphere zur Verarbeitung von Satellitenbildern (Moritz Borgmann)

Wissenschaftliche Datensätze aus der Klimatologie, Physik, Astronomie oder Geofernerkundung sind häufig sehr groß und als Arrays strukturiert. Im Rahmen dieses Vortrag werden zwei Systeme vorgestellt, die geeignet scheinen Queries an einen solchen Datensatz zu verarbeiten: SciDB und Flink. Anhand reeller Daten aus den Landsat-Archiven werden zunächst Struktur und besondere Eigenheiten solcher Daten erläutert, bevor für beide System die Implementation eines Histograms präsentiert wird. Abschließend werden die Systeme unter den gegebenen Umständen gegenübergestellt.

Massiv parallele kNN-Suche auf der GPU im Performancevergleich zur kNN-Suche über Indexstrukturen (David Salomon)

Am Geoforschungszentrum(GFZ) Potsdam wurde eine Implementierung der Recurrence Quantification Analysis(RQA) entwickelt, welche mittels einer massiv parallelisierten Berechung auf GPUs sehr performant arbeitet. Für diese sollte evaluiert werden, ob der Einsatz von Indexstrukturen sinnvoll ist. Die Evaluation wurde mithilfe der k Nächsten Nachbarsuche(kNN-Suche) durchgeführt. Diese wurde mittels des gleichen massiv parallelen Ansatzes(wie die RQA) implementiert. Für die durchgeführten Tests wurden ausschließlich synthetische Daten verwendet. Die Laufzeiten der einzelnen Tests wurden mit der Laufzeit einer kNN-Suche innerhalb eines k-d-Trees verglichen.

Parallele Set Containment Joins mit Präfixbäumen (Anja Kunkel)

Ein Set Containment Join ist ein Join über mengenwertigen Attributen zweier Relationen, dessen Join-Bedingung durch eine Teilmengenbeziehung definiert ist. Der Labeling-Algorithmus baut für jede Relation einen Präfixbaum über die Mengenelemente als Indexstrukturen auf. Gegeben die beiden Wurzelknoten werden (1) zunächst alle Tupelpaare ausgegeben, die durch Tupel-Annotationen an diesen Knoten gebildet werden, und (2) für jedes Kind des inneren Knotens dann alle Knoten im Teilbaum unter dem äußeren Knoten gesucht, die denselben Namen tragen wie der innere Knoten. Die gefundenen Paare aus Kindknoten des inneren Knotens und passendem Knoten im äußeren Baum werden rekursiv auf dieselbe Weise betrachtetet. In meiner Diplomarbeit stelle ich im ersten Teil geeignete Datenstrukturen und Befüllungsstrategien vor, um die Laufzeit und den Speicherplatzverbrauch von Flat gering zu halten. Außerdem diskutiere ich zwei algorithmische Veränderungen, um den Ablauf zu beschleunigen. Im zweiten Teil untersuche ich verschiedene Parallelisierungsstrategien bei zentralem Datenspeicher. Hierbei zeigt sich insbesondere adaptive Parallelisierung in Abhängigkeit von der geschätzten Laufzeit einzelner Verarbeitungsabschnitte effektiv.

The 'Mutational Signature Data-analysis' concept - A contextual introduction towards combining the somatic driver mutation and germline GWAS identification data-analysis concepts (Raik Otto)

Modern precision medicine requires etiological understanding of Next-Generation Sequencing (NGS)-characterized patient data. Uncovering causative genomic alteration in a plethora of aberrations induces the need for equally robust and sensitive data-analysis concepts. Concepts that have to mediate between clinical interpretability as well as statistical power and technological constraints and the emerging ‚Mutational Signature Data-analysis‘ (MSD) currently is a strongly discussed concept under active research. MSD represents a hybrid between the current de-facto standard concepts of low-resolution germline, genome-wide association (GWA) studies and the high-resolution somatic driver-mutation identification concepts: it analyzes somatic mutations from the perspective of germline variants. The DNA-sequence context of somatic mutations can be associated with a single, particular mutation-causing process. Therefore, the presence of processes in a sample can be predicted by e.g. Non-negative matrix factorization (NMF) of the sample’s signature, i.e. sum of all processes that had impact on a sample. The mutation-causing and mutation-repair processes can be associated with a clinical interpretation what represents a main advantage. Therefore, the MSD concept facilitates refining the etiology of e.g. cancer and the discovery of new modes of treatment of diseases. An example analysis of 21 breast cancer samples based on publication in Nature Genetics 2014, Nature 2013 & Cell 2012 will be shown. Furthermore, one of several possible formalizations of a MSD based on Non-negative matrix factorization NMF will be outlined along with possible connection of the analysis concept to the research of AG Leser.

Aspektbasierte Meinungsanalyse von Bewertungen mobiler Applikationen (Mario Sänger)

Die computergestützte Analyse von Texten, die Meinungen oder Bewertungen von Produkten oder anderen Objekten enthalten, hat sich als eines der derzeit meist beachteten Themen im Bereich des Text Minings herausgebildet. Bestehende Arbeiten in diesem Bereich konzentrieren sich hauptsächlich auf die Untersuchung von Produktbewertungen, Twitter-Nachrichten und Filmkritiken. Die Analyse von Bewertungen mobiler Applikationen in App Stores wurde bisher hingegen nur wenig untersucht. Im Rahmen meiner Masterarbeit wird ein bestehendes Verfahren, welches ursprünglich zur Meinungsanalyse von Produktbewertungen entwickelt wurde, auf die fein-granulare Analyse von deutschsprachigen Applikationsbewertungen angewendet und dessen Leistung untersucht. Des Weiteren wird ein auf Conditional Random Fields (CRFs) basierendes Analysesystem dem bestehenden Ansatz gegenübergestellt. Die Analyseverfahren werden darüber hinaus um zusätzliche Features erweitert. Das Hauptaugenmerk liegt hierbei auf der Verwendung von Wortrepräsentationen zur Generierung von diskreten Merkmalen. Um die Durchführung der Untersuchungen und eine Evaluation der Verfahren zu ermöglichen, wird ein Korpus mit 1.760 deutschsprachigen Applikationsbewertungen annotiert. Im Zuge der Evaluation zeigt sich, dass die Erkennung von Meinungsäußerungen und Applikationsaspekten mit Hilfe des CRF-basierten Analysesystems prinzipiell am besten funktioniert. Durch die Integration der Wortrepräsentationen kann insbesondere eine Verbesserung der Trefferquote der Verfahren erzielt werden.

Model of Transcription Factor activity - Inference from gene expression and TF binding data (Michael Rauer)

Transcription factors (TFs) are - among other elements - key regulators of gene expression. The activity of TFs depend on their context, e.g. the association of co-factors or post-translational modifications, which we cannot measure at high-throughput. Thus, we use gene expression as a proxy to estimate the activity of TFs. The goal of our project is to model TF activity in cancer. To this end, we use tumor gene expression (acquired from TCGA, ICGC, and collaborations) and a TF-target network. In order to identify the target genes of the individual TFs (i.e. construction of the TF-target network), we use existing chromatin immunoprecipitation followed by deep-sequence (ChIP-seq) data of TFs. Computational analysis of ChIP-seq data allows to infer regions of TF binding sites genome-wide. However, TF binding sites do not directly indicate the regulated target gene. Here, we use a proximity measure. i.e. nucleotide distance between TF binding sites and each target gene, to infer the TF target network. In our approach, we infer TF activity based on linear modeling, i.e. we assume that the linear combi- nation of TFs determine - at least partially - the global gene expression. In order to estimate the TF activity, we apply a standard or robust linear model and use regularizations such as LASSO (the least absolute shrinkage and selection operator). LASSO allows us to select for those TFs, which have the highest activities, whereas the other TFs are assigned zero weights. Further, we created a data-driven framework in order to evaluate different modeling and scoring (TF- target network) approaches. We use gene expression studies of mouse embryonic stem cells, in which the expression of individual TFs have been either induced or knocked-down artificially. Altering the TF expression, and thus its activity leads to an altered expression of the respective target genes. The TF-target network was inferred from ChIP-seq of various TFs in mouse. Finally, we developed a rank-based scoring scheme to compare the different methods.

Hands on Saasfee: A Scalable Scientific Workflow Execution Environment (Jörgen Brandt, Marc Bux)

Across many fields of science, primary data sets like sensor read-outs, time series, and genomic sequences are analyzed by complex chains of specialized tools and scripts exchanging intermediate results in domain-specific file formats. Scientific workflow management systems (SWfMSs) support the development and execution of these tool chains by providing workflow specification languages, graphical editors, fault-tolerant execution engines, etc. However, many SWfMSs are not prepared to handle large data sets because of inadequate support for distributed computing. On the other hand, most SWfMSs that do support distributed computing only allow static task execution orders. We demonstrate Saasfee, a scalable scientific workflow execution environment. In Saasfee, workflows are specified in Cuneiform, a functional workflow language focusing on parallelization and easy integration of existing software. Cuneiform workflows are executed on Hi-WAY, a higher-level scheduler for running workflows on Hadoop YARN. Distinct features of Saasfee are the ability to execute iterative workflows, an adaptive task scheduler, re-executable provenance traces, and compatibility to selected other workflow systems. This hands-on demonstration comprises the following activities: (1) The setup of a Saasfee installation on Amazon EC2, (2) an introduction to Cuneiform’s rich set of language features, its command-line interface as well as its editor GUI, (3) the execution of a real-world Cuneiform workflow from computational biology on Hi-WAY / Hadoop, and (4) a showcase of how to run workflows specified in the SWfMS Galaxy on Saasfee. The demonstration will be complemented by a talk outlining the architecture of the system along with a comparative performance and scalability evaluation.

Semantische Analyse von Tabellen in Volltexten (Irina Glushanok)

abellen sind ein fester Bestandteil von wissenschaftlichen Publikationen und dienen oft einer kompakten Darstellung wissenschaftlicher Erkenntnisse bzw. Versuchsergebnisse. Mit dem stetigen Zuwachs an digitalen Dokumenten, insbesondere an wissenschaftlichen Artikeln, wurde die Notwendigkeit erkannt, Tabellen in diesen zu erkennen, zu extrahieren sowie die Volltextsuche und Analyse auf Tabellendaten zu unterstützen. Im Rahmen meiner Bachelorarbeit wurden Tabellen aus einem Korpus von biomedizinischen Publikationen extrahiert, statistisch beschrieben und zu semantisch einheitlichen Gruppen zusammengefasst. Das Letztere wurde mit Hilfe von Clustering, einem im Text-Mining etablierten Verfahren, realisiert. Im Vortrag werden einzelne Arbeitsschritte erläutert und Ergebnisse präsentiert.

Executing AQL on Apache Flink (Max Schultze)

Over the past few years the amount of unstructured or semi-structured data generated through social networks, business applications and scientific research has grown rapidly. Typical data base management systems were no longer or only insufficiently able to process all that data in a timely fashion, which lead to the development of advanced Big Data management systems. AsterixDB and Apache Flink are two such systems that were developed around the same time. They both run on data-parallel platforms and were built to target Big Data computation problems. While AsterixDB has its own query language AQL, Flink is embraced by a Java API and a Scala API. The goal of this diploma thesis was to develop a module that translates AQL queries into executable Scala code for Apache Flink as well as to compare the two systems with each other reagarding speed, stability and usability.

Systems biology of RAS oncogene-mediated transformation and therapy resistance: A Pan-omics approach (Katharina Kasack)

RAS proteins are key players in signal transduction and are frequently mutated proteins. RAS oncogenes play an essential role in tumor pathogenesis and resistance against anti-receptor tyrosine kinase therapy. Innovative concepts for therapeutic intervention try to focus on the multi-step biosynthesis of mature RAS proteins and the signaling network that couples RAS activity with the cellular transcriptome and proteome. Within this project we try to elucidate transcriptional (miRNA and mRNA level) and translational (proteome and phosphoproteome) effects of inducible RAS in human embryonic kidney cells in a time-resolved analysis. Subsequent analysis will focus on the kinetics of signaling processes within a single Omic-level and correlate the different Omic-levels to find novel regulators within RAS signaling. Further functional studies will help to elucidate the importance and therapeutic relevance of those regulators. Preliminary data have indicated that enhanced expression of HMGA2 and FOSL1 at the mRNA level is accompanied by protein phosphorylation. In addition, miRNAs targeting HMGA2 and FOSL1 mRNA are down-regulated in a MAPK-dependent manner. This suggests complex regulation at the transcriptional and post-translational level. Strategies for blocking the activity of the two regulators downstream of RAS could employ direct targeting by miRNA mimics or combinatorial inhibition of pathway branches controlling their transcription and/or post-translational modification.

Data Flow Optimization (Georgia Kougka)

In our days, workflow technology is rapidly evolving and becoming a key mechanism to perform advanced data management with data flows. The large volume of data, the complexity and variety of data types and operations performed on data and the long time such data flows take to compute give rise to the need for optimization. As the data flow optimization is in evolution, a lot of optimization problems remain open. This short talk will mostly focus on a specific optimization problem, namely ordering tasks in data flows running on a massively parallel system, such as stratosphere or Spark, so that the response time is minimized.

Retrospective Publication Analysis - Validation and Improvements of the results (Dennis Wagner)

The drug development process is a time consuming and expensive process. More often than not it does not lead to approval by the FDA. This outcome is not profitable for the investing pharma companies. Thus in collaboration with a pharma company, the chair of Knowledge Management in Bioinformatics at Humboldt-Universität zu Berlin has realized a project wherein trends in scientific publications, made over a time period before the date of the decision, are used to classify potential new drugs regarding their later approval. This thesis continues the project by utilizing properties of the time series representation of the data and different machine learning algorithms to improve the classification accuracy. The results indicate a possible improvement of approximately 4%.

Predicting the disease-causing potential of DNA variants with MutationTaster (Dominik Seelow)

High-throughput sequencing has revolutionised the elucidation of Mendelian disorders. However, Whole Exome/Genome Sequencing approaches reveal between 10,000s and millions of DNA variants – a number far too large to be experimentally studied. Our software MutationTaster is aimed at the in silico prediction of the disease-causing potential of DNA variants. It performs a variety of tests on DNA and protein level to assess the effect of a variant to the gene product/protein. Unlike similar tools such as PolyPhen or SIFT, MutationTaster is not limited to alterations causing the substitution of a single amino acids but can also predict the effect of non-coding variants and InDels. With an accuracy of ~90%, MutationTaster is already more precise than the other applications. By employing knowledge about common (harmless) polymorphisms and known disease mutations, it's real-life accuracy is even better with false positive rates of ~1%. In my presentation, I will give a short introduction to the study of monogenic (Mendelian) disorders for the non-geneticists in the audience. I will then briefly outline the history of MutationTaster, explain some of it's tests and the data(bases) we employ. After these rather biological topics, I will cover the 'technical' part, such as the different data preprocessing and prediction models we use as well as our IT infrastructure and performance issues. MutationTaster is freely available at http://www.mutationtaster.org/.

Kontakt: Astrid Rheinländer; rheinlae(at)informatik.hu-berlin.de