Wissensgraphen sind strukturierte Wissenssammlungen, die Faktenüber die allgemeine Welt oder eine bestimmte Domäne in Form von Entitäten und deren Beziehungen speichern. Aufgrund der Heterogenität der Anwendungsfälle, für die sie verwendet werden, besteht ein Bedarf an der automatischen Erstellung von domänenspezifischen Wissensgraphen aus Texten. Obwohl es viele Forschungsbemühungen in Richtung offener Informationsextraktion für die automatische Konstruktion von Wissensgraphen gegeben hat, sind diese Techniken in domänenspezifischen Umgebungen nicht sehr leistungsfähig. Darüber hinaus leiden alle Wissensgraphen, unabhängig davon, ob sie automatisch aus spezifischen Texten oder auf der Grundlage realer Fakten, die sich ständig weiterentwickeln, konstruiert werden, unter Unvollständigkeit und Fehlern in den darin enthaltenen Informationen.
Diese Arbeit untersucht die Herausforderungen, die bei der Konstruktion von Wissensgraphen auftreten, und schlägt Techniken zu ihrer Kuratierung (auch bekannt als Verfeinerung) vor, einschließlich der Korrektur semantischer Mehrdeutigkeiten und der Vervollständigung fehlender Fakten. Zunächst nutzen wir bestehende Ansätze für die automatische Erstellung eines Wissensgraphen im Kunstbereich mit offenen Informationsextraktionstechniken und analysieren deren Grenzen. Insbesondere konzentrieren wir uns auf die anspruchsvolle Aufgabe der Named Entity Recognition für Kunstwerke und zeigen empirische Belege für eine Leistungsverbesserung mit der von uns vorgeschlagenen Lösung für die Generierung von annotierten Trainingsdaten.
Im Hinblick auf die Kuratierung bestehender Wissensgraphen identifizieren wir das Problem polysemer Relationen, die je nach Kontext unterschiedliche Semantiken repräsentieren. Konkrete Semantiken für Relationen sind wichtig für nachgelagerte Anwendungen (z.B. Fragenbeantwortung), die durch Wissensgraphen unterstützt werden. Daher definieren wir die neuartige Aufgabe, feinkörnige Relationssemantiken in Wissensgraphen zu finden und schlagen FineGReS vor, eine datengesteuerte Technik, die eine datengesteuerte Technik, die potenzielle Unterbeziehungen mit feinkörniger Bedeutung aus bestehenden polysemen Beziehungen entdeckt. Wir nutzen Lernmethoden zur Wissensrepräsentation, die niedrigdimensionale Vektoren (oder Einbettungen) für Wissensgraphen erzeugen, um deren Semantik und Struktur zu erfassen. Die Wirksamkeit und Nützlichkeit der vorgeschlagenen Technik wird durch den Vergleich mit verschiedenen Basisverfahren im Anwendungsfall der Entitätsklassifizierung demonstriert.
Darüber hinaus untersuchen wir die semantischen Repräsentationen in Modellen zur Einbettung von Wissensgraphen. In den letzten zehn Jahren haben diese Modelle in den letzten zehn Jahren die besten Ergebnisse bei der Vorhersage von Links im Zusammenhang mit der Vervollständigung von Wissensgraphen erzielt. Angesichts der Popularität und der weit verbreiteten Anwendung der Einbettungstechniken nicht nur für die Linkvorhersage, sondern auch für andere semantische Aufgaben, wird in dieser Arbeit eine kritische Analyse der Einbettungen durch quantitative Messung ihrer semantischen Fähigkeiten vorgenommen. Wir untersuchen und diskutieren die Gründe für die Unzulänglichkeiten von Einbettungen in Bezug auf die Eigenschaften der zugrundeliegenden Wissensgraphen-Datensätze und die von den populären Modellen verwendeten Trainingstechniken.
Darauf aufbauend schlagen wir ReasonKGE vor, eine neuartige Methode zur Erzeugung semantisch angereicherter Wissensgrapheneinbettungen durch Berücksichtigung der Semantik der Fakten, die durch eine den Wissensgraphen begleitende Ontologie gekapselt sind. Mit einer gezielten, schlussfolgernden Methode zur Erzeugung von Negativproben während des Trainings der Modelle ist ReasonKGE in der Lage, nicht nur die Leistung der Link-Vorhersage zu verbessern, sondern auch die Anzahl der semantisch inkonsistenten Vorhersagen der resultierenden Einbettungen zu reduzieren und damit die Qualität der Wissensgraphen zu verbessern.