Vorlesung

Vorlesungsinhalt

Information-Retrieval ist eine Disziplin, die zentrale Aspekte der Dokumentenverarbeitung, der automatischen Ranglistengenerierung sowie der skalierbaren Datenanalyse miteinander verbindet. Ein Kernthema im Information-Retrieval ist die effektive und effiziente und Bearbeitung von Stichwortanfragen. Dabei sind moderne Verfahren im Information-Retrieval weder auf reine Stichwortanfragen noch auf Textdokumente beschränkt, sondern können zunehmend flexibel mit den verschiedensten Datenformaten sowie mit natürlichsprachlichen Benutzeranfragen umgehen.

Der Bereich Web-Mining fokusiert auf eine Art der Informationsverarbeitung, die unabhängig von spezifischen Benutzeranfragen nach charakteristischen Mustern in großen Sammlungen von Webdokumenten sucht. Bekannte Beispiele hierfür sind wohl Google's PageRank Algorithmus oder Produktempfehlungen bei Amazon. Aktuelle Ansätze im Information-Retrieval und Web-Mining verfolgen dabei zunehmend Techniken, die aus dem maschinellen Lernen bzw. der automatischen Sprachverarbeitung stammen, um gezielt strukturierte Informationen aus Textinhalten zu extrahieren und in Form von semantischen Wissensrepräsentationen zu speichern. Wissensbasierte Systeme, wie beispielsweise Google's Knowledge Graph, greifen dabei auf reichhaltige Wissensbasen zurück, die aus Milliarden von Webdokumenten automatisch extrahiert wurden.

Zusammenfassend bietet der Kurs den Studierenden einen Einblick in folgende Fragestellungen:

  • Wie funktionieren moderne Suchmaschinen?
  • Welche Algorithmen unterliegen der Ähnlichkeitssuche und Ranglistengenerierung?
  • Wie können wir diese Algorithmen für individuelle Benutzer personalisieren?
  • Wie können wir diese Algorithmen skalierbar auf verteilte Rechnerarchitekturen abbilden?
  • Wie können wir möglichst effizient komplexe Muster in großen Webdatensammlungen erkennen?

Das Modul ist neu im DBIS-Programm und wird als theorieorientierte Vorlesung mit vertiefenden Übungen angeboten. Die Vorlesung ist eine ideale Vorbereitung für weitere Seminare und Praktika im Vertiefungsfach Informationssysteme.

Inhaltsübersicht:

  • Grundlagen aus der Wahrscheinlichkeitstheorie und statistischen Modellierung
  • Boolesche Auswertung von Suchanfragen und Vektorraummodell
  • Probabilistische Auswertungsverfahren zur Ranglistengenerierung (Probabilistic-IR, Okapi BM25)
  • Personalisierte Suche mit Relevanzfeedback (Robertson/Sparck-Jones, Rocchio)
  • Evaluation von Suchmaschinen (Precision/Recall, MAP, NDCG, etc.)
  • Indexierung und effiziente Anfrageauswertung (Quit&Continue, verschiedene Top-k Algorithmen)
  • Linkanalyse (PageRank, HITS, TrustRank, SpamRank)
  • Clustering und automatische Klassifikation von Objekten (k-NN, k-Means, Naive Bayes, SVMs)
  • Informationsextraktion mit Hilfe maschineller Lernverfahren sowie Grundlegende Techniken zur Verarbeitung natürlicher Sprache (POS-Tagging, Named-Entity-Detection, Dependenzparsing)

Voraussetzungen

  • Grundlagenwissen zu Stochastik, wie in der Vorlesung Angewandte Stochastik I vermittelt, ist von Vorteil, aber nicht zwingend erforderlich
  • Grundkenntnisse zu Datenbanken und Informationssystemen sind von Vorteil

Lernziele

  • Die Studierenden erkennen, wie moderne Suchmaschinen funktionieren.

  • Die Studierenden analysieren, welche Algorithmen der Ähnlichkeitssuche und
    Ranglistengenerierung unterliegen

  • Die Studierenden analysieren, wie diese Algorithmen für die Interessen individueller Benutzer personalisiert werden können

  • Die Studierenden erkennen, wie diese Algorithmen skalierbar auf verteilte Rechnerarchitekturen abgebildet werden können.

  • Des Weiteren erkennen die Studierenden, wie große Webdatensammlungen zur
    Klassifikation und Ähnlichkeitssuche von Dokumenten effizient analysiert werden können

Skript zur Vorlesung (uni-intern)

Die Vorlesungsfolien sind über das Skriptdrucksystem beziehbar (auch zum Download).

Weitere Literatur (nur uni-intern)

Übungen

Übungen und weitere Vorlesungsmaterialien sind im entsprechenden Moodle-Kurs zu finden. 

Zeit und Ort

Vorlesung
Dienstag, 14:00 bis 16:00 Uhr in O28/1002
Mittwoch, 14:00 bis 16:00 in O27/121

Erste Vorlesung ist am 14.04.2015.

Übungen
Mittwoch, 14:00 bis 16:00 in O27/121 (alle 2 Wochen anstatt der Vorlesung)

Erste Übung ist am 29.04.2015.

Umfang

3+1 SWS, LP 6

Turnus

Sommersemester

Prüfung

Die Vorlesung wird am Ende des Semesters in Form einer schriftlichen Klausur prüfbar sein.

Zuordnung PO 2013/2014

Medien-/Informatik & Software Engineering Master:
Kernfach "Praktische und Angewandte Informatik"
Vertiefungsfach "Informationssysteme"

Informatik Lehramt:
Wahlmodul

Cogitive Systems Master:
Special Subjects/Vertiefungsfach
Applied Subjects/Anwendungsfach Data Science

Zuordnung PO 2010

Medien-/Informatik und Software Engineering Master:
Kernmodul "Praktische und Angewandte Informatik"
Vertiefungsmodul "Informationssysteme"

Informatik Lehramt:
Wahlmodul

Cogitive Systems Master:
Special Subjects/Vertiefungsfach
Applied Subjects/Anwendungsfach Data Science

Weitere Informationen

LSF