Forschung
Kernfragen unserer Forschung umfassen die Modellierung und automatische Gewinnung von generellem, linguistischen Weltwissen aus großen Textmengen, sowie die maschinelle Anwendung dieses Wissens zur Bewältigung von Aufgaben, die natürliche Sprachintelligenz erfordern.
Hierbei forschen wir uA am Transferlernen (transfer learning) aus neuronalen Sprachmodellen, am "Never-Ending Learning" für neuronale Netze die nie aufhören zu lernen, an Methoden zur Analyse von Textdaten in verschiedenen Sprachen, sowie an Formalismen für eine universelle Semantik.
Neuronale Sprachmodelle und Transferlernen
Wir erforschen den Einsatz von neuronalen Sprachmodellen (Engl. neural language models), um linguistisches Wissen aus großen Mengen von Textdaten zu erlernen und in Form von Worteinbettungen (Engl. word embeddings) in NLP Anwendungen einzusetzen. Unser kanonischer Ansatz nutzt Rekurrente Neuronale Netze (RNNs) wie in der Abbildung dargestellt:
Ein Satz wird als Folge von Buchstaben begriffen und in ein bidirektionales Sprachmodell gegeben, welches auf sehr großen Textmengen vortrainiert wurde. Die internen Zustände des neuronalen Netzes werden an den Wortgrenzen extrahiert und als Worteinbettungen für Endanwendungen verwendet. Unser Ansatz ist derzeit Stand der Kunst für viele NLP Sequenzlabelingtasks und aufgrund der Modellierung auf Buchstabenebene resourceneffizient zu trainieren. Daher wurden durch die Open Source Community bereits entsprechende Flair-Modelle für viele natürliche Sprachen trainiert.
Mehr Informationen in unserem Paper:
-
Contextual String Embeddings for Sequence Labeling. Alan Akbik, Duncan Blythe and Roland Vollgraf. 27th International Conference on Computational Linguistics, COLING 2018. [pdf]
Never-Ending Learning
Traditionelles Maschinelles Lernen unterscheidet zwischen einer Lernphase in der ein Modell trainiert wird, und einer Anwendungsphase in der das Modell verwendet wird, aber nicht mehr weiter lernt. Ein Fokus unserer Forschung sind neuronale Netze die nie aufhören zu lernen, also selbst bei Anwendung weiteres Weltwissen erlernen und verwenden.
Ein Beispiel dieser Forschung sind unsere Pooled Contextualized Embeddings (siehe Bild oben). Dieser Ansatz verfügt über einen Speicher (Engl. memory) in den alle Vorkommnisse eines Wortes fortlaufend geschrieben und aus dem Worteinbettungen ständig aktualisiert gewonnen werden. Das "Weltwissen" eines NLP Modells wird somit ständig aktualisiert - selbst außerhalb der Trainingsphase. Unser Paper enthält mehr Informationen dazu:
-
Pooled Contextualized Embeddings for Named Entity Recognition. Alan Akbik, Tanja Bergmann and Roland Vollgraf. Annual Conference of the North American Chapter of the Association for Computational Linguistics, NAACL 2019. [pdf]
Textanalyse in vielen Sprachen
Es existiert eine wunderbare Sprachenvielfalt in der Welt. Daher forschen wir an Modellen, die in der Lage sind, mehr als nur eine Sprache zu analysieren. Die folgende Abbildung zeigt beispielweise die Ausgabe eines mehrsprachigen Modells auf Text in drei Sprachen (Deutsch, Englisch und Französisch):
Wie die Abbildung zeigt, kann unser Modell Text in allen Sprachen analyisieren. So werden z.B. Nomen (grün) und Verben (rot) in allen Sprachen erkannt. Derartige mehrsprachige Modelle sind bereits im Flair Framework enthalten und werden im Rahmen unserer Forschung aktiv weiter entwickelt.
- Multilingual Sequence Labeling With One Model. Alan Akbik, Tanja Bergmann and Roland Vollgraf. Northern Lights Deep Learning Workshop, NLDL 2019. [pdf]
Universelle (sprachübergreifende) Semantik
Neben latenten Einbettungen erforschen wir auch neue symbolbasierte Repräsentationen von Semantik. Unser Kernprojekt sind hier die Universal Proposition Banks, wo wir zusammen mit IBM Research einen Formalismus entwickeln, der Semantik in verschiedenen Sprachen auf ein einheitliches System abbildet.
So zum Beispiel die drei Sätze auf Deutsch, Finnisch und Chinesisch in der Abbildung unten. Alle drei Beispielsätze verwenden das semantische Konzept des Bestellens (Engl. to order something). Unser Parsing-System kann diese Semantik in den Sätzen erkennen und die in der Abbildung unten gezeigten Strukturen erkennen:
Ergebnis dieser Forschung sind die Universal Proposition Banks, welche diesen Formalismus spezifizieren und es Forschern ermöglichen, derartige Parsing-Systeme zu trainieren.
Mehr Informationen dazu in unseren Papers:
- Generating High Quality Proposition Banks for Multilingual Semantic Role Labeling. Alan Akbik, Laura Chiticariu, Marina Danilevsky, Yunyao Li, Shivakumar Vaithyanathan and Huaiyu Zhu. 53rd Annual Meeting of the Association for Computational Linguistics, ACL 2015. [pdf]
- Towards Semi-Automatic Generation of Proposition Banks for Low-Resource Languages. Alan Akbik and Yunyao Li. 2016 Conference on Empirical Methods on Natural Language Processing, EMNLP 2016.
- Multilingual Aliasing for Auto-Generating Proposition Banks. Alan Akbik, Xinyu Guan and Yunyao Li. 26th International Conference on Computational Linguistics, COLING 2016. [pdf]
- The Projector: An Interactive Annotation Projection Visualization Tool. Alan Akbik and Roland Vollgraf. 2017 Conference on Empirical Methods on Natural Language Processing, EMNLP 2017. [pdf][video]