FiF-Workshop 2018 INCEpTION

Auf dem Weg zu einer interaktiven semantischen Annotation

Workshop im Rahmen des DFG-Projekts INCEpTION (Interactive distributed corpus exploration and annotation infrastructure for large corpus and knowledge bases) am UKPLab der TU Darmstadt

Das Bedürfnis nach semantisch annotierten Textcorpora ist größer denn je. Gefragt sind „smarte“, flexible und wiederverwendbare Annotationswerkzeuge, um zu annotierten Daten auf möglichst kostengünstigem Wege zu gelangen.

Die Untersuchung semantischer Phänomene in Texten ist an sich selbst eine interaktive Angelegenheit, bei der Wissen extrahiert und Einsicht über spezifische Phänomene aus dem Corpus gewonnen werden. Zur Unterstützung eines solchen Prozesses bedarf es der Integration verschiedener Werkzeuge mit ihren jeweiligen Funktionen: Corpussuche, Textannotation und Wissens“verwaltung“.

Der Workshop bot eine Gelegenheit, a) über den aktuellen Stand des DFG-Projekts INCEpTION zu informieren bzw. informiert zu werden, b) Annotationsfälle aus der Praxis vorzustellen und jeweilige Anforderungen zu artikulieren, c) eine Annotations-„Plattform“ gemeinsam zu entwerfen mit dem Ziel, neue, durch Techniken des interaktiven Maschinenlernens unterstützte Forschung in dem Feld zu ermöglichen.

Datum: 12.3.2018 nachmittags / 13.3.2018 vormittags

Ort: Lichtenberg-Haus der TU Darmstadt

Kontakt im UKPLab der TU Darmstadt:

Beto Boullosa (T.: 06151-16-25299, E-Mail: boullosa@ukp.informatik.tu-darmstadt.de).

Der Workshop INCEpTION am 12. und 13. März 2018 informierte über den Stand eines Projekts, das eine effiziente, modulare und erweiterbare Infrastruktur zur Analyse und Nutzung größerer Datenmengen zu implementieren sucht, die Korpus-basierte Informationsextraktion, Wissensverwaltung und Text-Annotationen integriert. Es galt daher, so Projektleiter Richard Eckart de Castilhoin der Einführung, den Dialog mit Nutzern von INCEpTION und potentiellen Nutzern aus den Bereichen Digital Humanities, Computational Neuroscience und Informatik zu führen, um potentielle Verwendungsfelder und spezifische Anforderungen an die Plattform in Übereinstimmung mit jeweiligen Nutzerbedürfnissen zu auszumachen. Die mannigfaltigen Eigenschaften einer idealen Plattform wurde durch die Präsentation unterschiedlicher Projekte und Forschungsvorhaben deutlich. So reichen potentielle Anforderungen von der Extraktion von sich aufeinander beziehenden Informationen in neurowissenschaftlichen Publikationen über die Sondierung und Sortierung „guter Beispiele“ aus der schier endlosen Fülle von Belegen für digitale Wörterbücher bis hin zur Analyse von Kundenabstimmungen in Hotelbewertungen. Neben der maschinellen Extraktion von Argumenten und Hypothesen sowie dem Vorhaben Gewissheit zu generieren, gibt es an anderer Stelle den Versuch, argumentbasierte Entscheidungshilfen zu kreieren, indem man einerseits Nutzer vorgeschlagene Hilfestellungen bewerten lässt und andererseits die Maschine lernt, spezifischere, hilfreichere Argumente für Entscheidungen zu liefern. Und wie lassen sich Annotationen zu Erwähnungen „verlorener Autoren“ in historischen Texten gestalten? Sieht man von der Rekonstruktion nur einer Textvariante ab, ließe sich ein Korpus mit primären und sekundären Quellen, bestehend aus Kommentaren und Übersetzungen in unterschiedlichen Sprachen, sowie mit moderner, digitaler Bibliographie erstellen, das dann multiple Versionen ein und desselben Textes darstellte und den Vergleich unterschiedlicher Interpretationen ermöglichte.Von besonderer Bedeutung ist auch die Vielfältigkeit der involvierten Daten. Neben der Bearbeitung englischer Texte soll INCEpTION effiziente Wege zur Verarbeitung altgriechischer oder lateinischer Texte ermöglichen und darüber hinaus Daten unterschiedlicher Formate wie Texte, Tabellen, Graphiken, PDF-Dokumente zusammenführen. Neben der Erstellung relevanter Korpora wird ein Format benötigt, welches eine Nutzung aller Informationen für die teils unterschiedlichen Anforderungen der Modellierung ermöglicht und dabei auch noch nachvollziehbar ist. Bestehende Herausforderungen sind neben technischer Realisierung vor allem die Integration des Nutzers bei Prozessen des Maschinenlernens. Sowohl Active Learning als auch Reinforcement Learningoder deren Kombinationweisen Chancen und Herausforderungen gleichermaßen auf. Wie geht man etwa damit um, dass unterschiedliche Nutzer Bewertungssysteme unterschiedlich verstehen und sie daher auch unterschiedlich nutzen? Schließlich lässt sich zwar ein Nutzerprofil erstellen, der Mensch dahinter lässt sich aber nicht durchleuchten. Eine besonders große Datenmenge ist für maschinelles Lernen nicht unbedingt notwendig und kann unter Umständen mit kleineren Mengen effektiver und erfolgreicher trainiert werden. Dennoch erweist sich die Interaktion mit der Umwelt nur ertragreich durch stetige Wiederholung.Wie ist hier die Schnittstelle zum Menschen zu gestalten? Die Verwendungsfelder von INCEpTION sind schier unerschöpflich und je nach Intention der Forschung unterschiedlich. Wie unterschiedliche Werkzeuge gestaltet werden und ob man allen Bedürfnissen gerecht werden kann, bleibt abzuwarten. Offener Zugang, eine nutzerfreundliche Oberfläche sowie Effizienz des Werkzeugs scheinen der kleinste gemeinsame Nenner zu sein. Welche neuen Wege beim automatischen Listen und Sortieren gegangen werden, wie die Bewertung durch Nutzer selbst wiederum bewertet wird und wie das Maschinenlernen über den Nutzer weiterhin gestaltet werden kann – das alles sind Fragen, die künftig weiter diskutiert werden sollen.