Grafisches und semantisches Explorieren von Information am Beispiel von Filmen

Semantische Technologien stellen ein neues Paradigma für die intelligente Informationsverarbeitung von morgen dar. Sie ermöglichen, Wissen automatisch zu interpretieren sowie neues Wissen abzuleiten. Als zukunftsweisende Schlüsseltechnologien werden sie auch durch das Bundesministeriums für Wirtschaft und Technologie (BMWi)
z. B. Informationsgesellschaft Deutschland 2010 gefördert. Im Folgenden stellen wir diese neuartigen Methoden und Verfahren am Beispiel einer Anwendung zur semantischen Analyse und Exploration von Filmdaten vor.

Semantic Web Technologien an der Uni Ulm ausgezeichnet

Die Semantic Web Gruppe am Institut für Künstliche Intelligenz entwickelt Lösungsansätze im Umfeld von semantischen Technologien. Diese umfassen beispielsweise neben mobilen Anwendungen der nächsten Generation und Schlussfolgerungssystemen zur maschinellen Verarbeitung von Wissen auch das zunehmend an Bedeutung gewinnende Thema der visuellen Analyse und Darstellung von Wissensnetzen. Letzteres soll das Verständnis und Erkennen beispielsweise von abgeleiteten Wissenszusammenhängen verbessern. Semantische Technologien umfassen Methoden und Werkzeuge, welche den semantischen, d. h. inhaltsbezogenen Zugang zu Informationen ermöglichen: Nicht die Daten alleine stehen im Vordergrund sondern ihre Bedeutung und ihr Zusammenhang. Die Beherrschbarkeit großer Wissensbestände stellt dabei eine Herausforderung an diese Technologien dar und erfordert neuartige Lösungen. Kernkomponenten semantischer Technologien sind Sprachstandards wie die
Web Ontology Language, Wissensnetze, Logik und formal fundierte Schlussfolgerungssysteme, die es ermöglichen, neue Wissenszusammenhänge automatisch abzuleiten und Wissensnetze aufzubauen. Unser Ansatz wurde im Rahmen des international renommierten IEEE Information Visualization Contest 2007 ausgezeichnet.

Internet Movie Database

Die Datengrundlage des Wettbewerbs war die Internet Movie Database, eine populäre Quelle für Filminformationen. Diese frei verfügbare und von vielen Nutzern gepflegte Sammlung katalogisiert Informationen zu Filmen und umfasst neben Daten über Personen (Regisseur, Autor, Film- & Kameracrew etc.), den Film (Genre, Filmplot, Nominierungen und Preise, Datum der Filmpremiere etc.) auch Daten über Einspielergebnisse und Rankings. Selbst der relativ kleine Ausschnitt an Filmen der letzten sieben Jahre enthält über 160 000 Einträge. Dabei sind Zusammenhänge, Korrelationen und Unterschiede beispielsweise zwischen Schauspielern für den menschlichen Benutzer nur schwer erkennbar (in welchen Filmen spielt eine gewisse Gruppe von Schauspielern mit?). Herkömmliche, auf syntaktischer Bearbeitung beruhende Ansätze führen in vielen Fällen nicht weiter: Ihnen fehlt die Semantik, die es ermöglicht, implizites Wissen explizit zu machen und dadurch neue Bedeutungen und Zusammenhänge automatisch abzuleiten.

Semantische Filminformation

Zur semantischen Verarbeitung wurden die ursprünglich tabellarisch organisierten Filmdaten in ein Wissensnetz überführt. Hierzu wurde ein Basisvokabular definiert, das Konzepte wie Movie, Person, Genre sowie Beziehungen wie hasGenre, cast, directedBy formal charakterisiert.
Genres, Schauspieler und Regisseure wurden dadurch mit Filmen in Beziehung gesetzt. Die maschinell verarbeitbare, wohl definierte Semantik des dabei entstanden Netzwerkes über Filme ist Voraussetzung für logische Schlussfolgerungen und wurde durch weitere Beschreibungen verfeinert. So beschreibt das eingeführte Konzept OscarMovie (siehe Abbildung 1) einen Film, der entweder selbst eine Oscar-Auszeichnung erhielt (sog. best picture movie) oder der mindestens einen Schauspieler aufweist, der für diesen Film eine Oscar-Auszeichnung bekommen hat (sog. leading actor/actress). Automatische Schlussfolgerungsmechanismem finden Unter- und Oberkonzepte und können beispielsweise genau die Filme identifizieren, die die Konzeptbeschreibung OscarMovie erfüllen.

Analyse und interaktive Exploration

Um große Wissensnetze mit allen ihren abgeleiteten Beziehungen zu verstehen und zu analysieren, hat die Ulmer Gruppe das Verfahren der semantischen Clusterung und Abstraktion eingeführt. Damit werden ausgewiesene Beziehungen zwischen einzelnen oder ganzen Mengen von Filmen, Personen etc. mit Hinblick auf ihre Semantik übersichtlich dargestellt. Neue Konzeptdefinitionen können jederzeit in das Wissensnetz eingefügt werden und erlauben, eine Vielzahl von verschiedenen Fragestellungen auf visuelle Weise einfach und effizient zu beantworten.
Benutzergesteuertes Explorieren kann vielfältige Fragestellungen beantworten. Dabei wird der Benutzer durch den Dschungel aller Verknüpfungen im Wissensnetz geleitet. Um beispielsweise die Frage zu beantworten, aus welchen Genres die meisten oscarprämierten Filme kommen, zieht der Benutzer das Konzept OscarMovie via drag-n-drop Operation aus der graphischen Darstellung des Vokabulars auf die Analyseoberfläche (siehe Abbildung 1).

Abbildung 1: Interaktives Explorieren

Abbildung 1: Interaktives Explorieren

Cluster werden als Kreise und deren Inhalt (z. B. konkrete Filme, Genres etc.) als kleine Scheiben dargestellt, wobei es sich hierbei um geschlussfolgerte Information handelt. Jederzeit stehen Detailinformationen für alle grafischen Repräsentationsobjekte zur Verfügung. Filme wie auch Cluster als Vereinigung ihrer Inhaltselemente können bezüglich der vorhandenen Beziehungen wie hasGenre weiterexpandiert werden, was durch Keulenverbindungen visualisiert wird. Abbildung 2 zeigt als Ergebnis dieses Vorgangs, dass 29 oscarprämierte Filme (bei einer Beschränkung des Datensatzes auf die Jahre 2000 - 2007) dem Genre Drama zuzurechnen sind.

Abbildung 2: Aus welchen Genres tendieren Oscarprämierte Filme zu kommen?

Abbildung 2: Aus welchen Genres tendieren oscarprämierte Filme zu kommen?

Der Benutzer kann jederzeit neue Konzepte definieren, die sofort klassifiziert und mit all ihren logischen Konsequenzen in das Wissensnetz eingefügt werden. Clusterelemente können beliebig durch drag-n-drop Operationen gefiltert werden. Um beispielsweise die Frage zu beantworten, welche Regisseure bei einem Oscarfilm Regie führten und auch selber in einem Oscarfilm mitgespielt haben, wird die Menge aller Oscarfilme bezüglich ihrer Regie und die Menge der Regisseure dann bezüglich ihrer Schauspielertätigkeit expandiert. Diese letztgenannte Menge kann dann auf Oscarfilme eingeschränkt werden.

 

Abbildung 3: Welche Regisseure führten bei einem Oscarfilm Regie und spielten selber auch in einem Oscarfilm mit (in den Jahren 2000 bis 2007)?

Abbildung 3: Welche Regisseure führten bei einem Oscarfilm Regie und spielten selber auch in einem Oscarfilm mit (in den Jahren 2000 bis 2007)?

Die Möglichkeiten der Analyse und Exploration unseres Systems sind vielfältig. Weitere Techniken betreffen Filtermöglichkeiten nach weiteren Daten wie Datumsangaben, Erkennen von unsinnigen (d. h. inkonsistenten) Fragestellungen, Expansionsvergleiche etc. Eine Auswahl an weiteren Fragestellungen und deren visuelle Antworten können unter InfoVis 2007 Contest - Interactive Exploration of the Movie DB on a Semantical Level eingesehen werden.

Ausblick

Das hier vorgestellte Beispiel der Analyse und Exploration von Filminformation ist nur eine mögliche Anwendung der noch jungen Kombination von semantischen Technologien und grafischer Analyse und Exploration. So wurde der Ansatz beispielsweise auf Informationen aus dem CIA Worldfactbook und einer großen Sammlung an Publikationen, Forschungsgruppen und Mitgliedern im Rahmen des EU-Projekt ReSIST  erfolgreich angewandt. Aufgrund des anwendungsunabhängigen logikbasierten Paradigmas eröffnet sich ein weites Spektrum an Anwendungen im Bereich des Wissensmanagements.

Kontakt