Big (Social) Data Analytics - Seminar (Master)

Seminar

Big (Social) Data Analytics (Master)

Dauer

ein Semester (WS 18/19)

Themenvergabe

02.07. – 07.07.2018:
Präferenzeingaben durch die Studierenden im Tool

08.07.2018:
Hauptrunde des Seminarmatchings

12.07.2018:
Zweite Runde des Seminarmatchings

Leitung

Prof. Dr. Mathias Klier
Annette Felgenhauer
Maximilian Förster
Roland Graef
Katharina Kaufmann
Kilian Kluge
Andreas Obermeier

Inhalte

Das Seminar Big (Social) Data Analytics baut auf den Veranstaltungen „Big Data Analytics – Methoden und Konzepte“ sowie „Social Network Analysis – Methoden, Konzepte und Anwendungen“ auf und ist inhaltlich dem Schwerpunkt „Technologie- und Prozessmanagement“ zugeordnet.

Im Rahmen der Arbeit sollen Lösungsansätze für spezifische Fragestellungen aus dem Bereich Big (Social) Data Analytics beleuchtet und (weiter-)entwickelt werden. Hierfür sind in der Regel zunächst ein strukturierter Literaturüberblick zum Thema zu erarbeiten und Best Practices zu recherchieren. Ein kritischer Vergleich von Theorie und Praxis, eigene Ideen und Handlungsempfehlungen sowie ggf. auch der Einsatz bzw. die Evaluation von Software-Tools runden das Seminar ab.

Anmerkungen

Vorkenntnisse oder Voraussetzungen, die bestimmte Themen erfordern, werden durch den Betreuer bzw. die Betreuerin des Seminars nach der Vergabe (z. B. auf Basis des Notenspiegels) überprüft. Bitte melden Sie sich nur für Themen, deren Voraussetzungen Sie erfüllen. Sofern nicht anders vermerkt, wird jedes Thema nur einmal vergeben.

Thema 1

Social Media Analytics – Kann User-Generated-Content genutzt werden, um Aktienkurse vorhersagen?

Über soziale Medien, wie beispielsweise Online Social Networks, Microblogs, Wikis, Bewertungs-Communities sowie Diskussionsforen, stehen heutzutage enorme Datenmengen zur Verfügung. Die zielgerichtete und fundierte Analyse dieser Daten ermöglicht eine verbesserte Entscheidungsunterstützung und birgt großes Potenzial im Hinblick auf die Prognose von Aktienkursen. Social Media Analytics bietet dabei eine Vielzahl an Methoden und Anwendungen wie beispielsweise Textanalysen sowie soziale Netzwerkanalysen, um unter anderem Meinungen und Stimmungen in sozialen Medien zu erfassen.

Im Rahmen der Seminararbeit soll ein strukturierter Überblick über die wissenschaftliche Literatur zu den wichtigsten Modellen sowie zugrundeliegenden Methoden von Social Media Analytics gegeben werden. Anschließend sollen die Einsatzpotenziale in der Aktienkursprognose anhand von aktuellen wissenschaftlichen Beiträgen beleuchtet und kritisch hinterfragt werden.

Voraussetzung: Eine der Veranstaltungen „Social Network Analysis – Methoden, Konzepte und Anwendungen“, „Big Data Analytics – Methoden und Anwendungen“
Thema 2

Information Extraction – Wie können Geschäftsberichte automatisiert analysiert werden?

Geschäftsberichte und Jahresabschlüsse informieren über den Geschäftsverlauf bei Unternehmen und beinhalten wichtige Kennzahlen in strukturierter und unstrukturierter Form. Beispielsweise beinhalten sogenannte "Solvency and Financial Condition Reports" (SFCR) Informationen über Finanzlage, Risiken und allgemeine Geschäftsentwicklung von Versicherungsunternehmen. Die manuelle Auswertung solcher Berichte ist zeitaufwändig und potenziell subjektiv. Daher werden neue Ansätze zur (automatisierten) Analyse und Aufbereitung von Geschäftsberichten gesucht.

Im Rahmen der Seminararbeit soll ein strukturierter Überblick über die wissenschaftliche Literatur zu den wichtigsten Modellen sowie zugrundeliegenden Methoden der (automatisierten) Analyse von Texten (insbesondere Geschäftsberichten) gegeben werden. Eine kritische Überprüfung der Anwendbarkeit auf SFCRs, beispielsweise auch bzgl. vorhandener Software-Tools, runden die Arbeit ab.

Voraussetzung: Veranstaltung „Big Data Analytics – Methoden und Anwendungen“
Thema 3

Item2Vec – Können Neural Embeddings Recommender-Systeme verbessern?

Viele Recommender-Systeme sind Item-basiert in dem Sinne, dass sie Beziehungen zwischen Items analysieren, um Ähnlichkeiten unter ihnen aufzudecken. Innerhalb des Natural Language Processing (NLP) wurde in neueren Arbeiten vorgeschlagen, Wörtern unter Verwendung von neuronalen Netzen eine vektorielle Repräsentation zuzuordnen, die ihre Bedeutung berücksichtigt („Word2Vec“). Dabei repräsentieren „ähnliche“ Vektoren einen „ähnlichen“ Inhalt. Diese Methodik lässt sich von Texten auch auf Items übertragen („Item2Vec“).

Im Rahmen der Seminararbeit soll ein strukturierter Überblick über die wissenschaftliche Literatur zu den wichtigsten Modellen sowie zugrundeliegenden Methoden von Neural Embeddings mit Bezug auf Recommender-Systeme gegeben werden. Anschließend soll der aktuelle Stand von Neural (Item) Embeddings in der Unternehmenspraxis anhand von Best Practices aufgezeigt werden. Ein kritischer Vergleich zwischen Theorie und Praxis rundet die Arbeit ab.

Voraussetzung: Veranstaltung „Big Data Analytics – Methoden und Anwendungen“
Thema 4

Quantencomputer – das „Next-Big-Thing“ in der künstlichen Intelligenz?

Neuronale Netze sind zu einer der revolutionärsten und umwälzendsten Technologien des 21. Jahrhunderts geworden. Inzwischen schlagen entsprechende Programme selbst professionelle Schachspieler, erkennen hochpräzise Gesichter, übersetzen Texte oder beantworten in Sekundenschnelle Kundenanfragen. Quantencomputern wird von Forschern eine ähnlich große Bedeutung prophezeit. Zwar stehen sie noch fast am Anfang ihrer Entwicklung, jedoch passen die heutigen rudimentären Quantenprozessoren schon auf erstaunliche Weise zum maschinellen Lernen. Sie manipulieren große Matrizen (was beim Training neuronaler Netze essentiell ist) in einer einzigen Operation und scheitern beispielsweise nicht bei einer unvollständigen oder unsicheren Datenlage.

Im Rahmen der Seminararbeit soll ein strukturierter Überblick über die wissenschaftliche Literatur zu neuronalen Netzen, Quantencomputern und insbesondere deren Synergien gegeben werden. Anschließend sollen anhand aktueller Beispiele aus Wissenschaft und Praxis die Einsatzpotenziale aufgezeigt werden. Eine kritische Reflexion rundet die Arbeit ab.

Voraussetzung: Veranstaltung „Big Data Analytics – Methoden und Anwendungen“
Thema 5

Explainable Artificial Intelligence – Lassen sich die Entscheidungen künstlicher Intelligenzen für Verbraucher verständlich machen?

Eine aktuelle Studie der Bertelsmann-Stiftung zeigt, dass in Deutschland mehr als drei Viertel der Befragten vollautomatisierte Entscheidungen ablehnen, während nur 31 Prozent der Bevölkerung darin Chancen erkennen. Vor dem Hintergrund, dass intelligente Systeme in vielen Alltagsbereichen (beispielweise in der medizinischen Diagnostik oder bei der Beurteilung der Kreditwürdigkeit) bereits erfolgreich eingesetzt werden und eine immer zentralere Bedeutung erhalten, ist es insbesondere für Unternehmen, die diese Systeme einsetzen, wichtig, deren Akzeptanz bei ihren Kunden zu erhöhen. Hierzu ist nicht in erster Linie „Algorithmentransparenz“ gefragt, wie sie seit einiger Zeit von der Politik diskutiert und gefordert wird. Gesucht sind vielmehr für Laien verständliche Erklärungen, die die von künstlichen Intelligenzen im Einzelfall getroffenen Entscheidungen nachvollziehbar und verständlich machen.

Im Rahmen der Seminararbeit soll anhand wissenschaftlicher Literatur ein strukturierter Überblick über die Anforderungen an solche Erklärungen und Methoden zu ihrer Erzeugung gegeben werden. Eine Veranschaulichung und Diskussion an einem konkreten Beispiel aus der Unternehmenspraxis rundet die Arbeit ab.

Voraussetzung: Veranstaltung „Big Data Analytics – Methoden und Anwendungen“
Thema 6

Informationsausbreitung in Online Social Networks – Modelle und Anwendungen

Nachrichten und Informationen verbreiten sich heutzutage längst nicht mehr nur über die klassischen Medien, sondern auch über Online Social Networks (OSN) wie beispielsweise Twitter. Durch die Möglichkeit, eine Nachricht zu „retweeten“, d. h. erneut weiterzuversenden, können sich dort Nachrichten innerhalb kürzester Zeit über große Teile des Netzwerks ausbreiten. Doch wie genau funktioniert diese Verbreitung?

Im Rahmen der Seminararbeit soll ein strukturierter Überblick über die wissenschaftliche Literatur zu den wichtigsten Modellen sowie zugrundeliegenden Methoden zur Beschreibung der Informationsverbreitung in OSN gegeben werden. Nicht zuletzt auch vor dem Hintergrund praktischer Anwendungsbeispiele sollen diese anschließend verglichen und kritisch diskutiert werden.

Voraussetzung: Eine der Veranstaltungen „Social Network Analysis – Methoden, Konzepte und Anwendungen“, „Big Data Analytics – Methoden und Anwendungen“
Thema 7

Förderung von Integration – Wie müsste die perfekte App für Flüchtlinge aussehen?

2016 wurden in Deutschland mehr als 700.000 Asylanträge gestellt, im vergangenen Jahr waren es immerhin noch knapp über 200.000 Anträge. Die Integration von Menschen, die ein Bleiberecht haben, stellt Politik, Gesellschaft und Behörden vor enorme Herausforderungen. Hilfsorganisationen, private Gruppen, aber auch Politiker auf Landes- und Bundesebene versuchen hierfür Lösungen zu finden. „Moin“, eine App für Flüchtlinge in Bremen, ist eine Antwort hierauf. Doch ist sie schon die „perfekte“ App zur Förderung der Integration?

Im Rahmen der Seminararbeit soll nach einem kurzen Überblick über den Begriff Integration und seine Bestandteile aus der Literatur ein Ansatz für die „optimale“ App zur ganzheitlichen Förderung der Integration von Flüchtlingen in Deutschland entwickelt werden, der mit wissenschaftlichen Erkenntnissen untermauert wird. Ein Vergleich zu bestehenden Apps in diesem Kontext und eine Diskussion zu Herausforderungen bei der Entwicklung einer solchen App runden die Arbeit ab.

Voraussetzung: keine
Thema 8

Green Information Systems – Herausforderungen und Potenziale für Unternehmen

Das Thema Klimawandel und damit einhergehend ökologische Nachhaltigkeit ist in aller Munde. Ein Teilbereich des Information Systems Research beschäftigt sich genau hiermit: Green Information Systems sollen die ökologische Nachhaltigkeit verbessern. Auch für Unternehmen sind solche Ansätze inzwischen attraktiv. Eine Studie aus dem Jahr 2016 zeigte, dass Nachhaltigkeit bis zu 13 Prozent des Umsatzes erklären kann. Aber wie viel Potenzial bieten Green Information Systems für Unternehmen tatsächlich und wie groß sind die Herausforderungen, die mit ihnen einhergehen?

Im Rahmen der Seminararbeit soll zunächst ein Überblick über Green Information Systems mit Fokus auf der Anwendung in Unternehmen gegeben werden. Anschließend soll der aktuelle Stand von Green Information Systems in der Unternehmenspraxis gegeben werden. Ein Vergleich zwischen Theorie und Praxis sowie eine kritische Diskussion unter Betrachtung der Herausforderungen und Potenziale für Unternehmen runden die Arbeit ab.

Voraussetzung: keine
Thema 9

Produktinnovation mit Recommender Systemen – Welche Anwendungsfelder gibt es schon?

Jeden Tag werden pro Minute 26.380 Reviews auf Yelp veröffentlicht, 4.000.000 Suchanfragen auf Google gestellt und 277.000 Tweets auf Twitter gesendet. In Summe werden im Internet täglich 2,5 Trillionen Bytes an Daten generiert. Unternehmen haben längst das enorme betriebswirtschaftliche Potenzial dieser Daten erkannt. Empfehlungssysteme spielen dabei eine zentrale Rolle. Bereits 1992 haben Forscher festgestellt: „Informationsfilter sind effektiver, wenn Menschen im Filterprozess involviert sind.“ Seitdem wurden Methoden für Empfehlungssysteme ständig verbessert. Netflix etwa schrieb 2006 einen Preis von 1 Million US-Dollar für einen Algorithmus aus, der die Performance ihres damaligen Empfehlungssystems CineMatch um 10% übertraf. Heute sind Empfehlungen allgegenwärtig – und die Anwendungsmöglichkeiten von Empfehlungssystemen scheinen kein Ende zu nehmen.

Im Rahmen der Seminararbeit soll neben einem kurzen Überblick über die wichtigsten Methoden von Empfehlungssystemen aus der Literatur analysiert und (kritisch) diskutiert werden, welche Anwendungsfelder diese Verfahren heute bereits aufweisen. Das exemplarische Aufzeigen von Best Practices sowie ein Ausblick zu potenziellen neuen Anwendungsfeldern runden die Arbeit ab.

Voraussetzung: Die Veranstaltung „Big Data Analytics – Methoden und Anwendungen“
Thema 10

Recommender Systeme bei Spotify – Wie entsteht der Mix der Woche?

Der Musikstreamingdienst Spotify hat die Musikbranche revolutioniert: Kunden müssen sich keine Platten mehr kaufen, sondern bezahlen mit einem monatlichen Abo eine „Musik-Flatrate“. Künstler und Plattenfirmen werden anteilig pro abgespielten Song bezahlt. Rund 159 Millionen Nutzer pro Monat zählt Spotify zur Jahreswende 2018. Obwohl der Musikanbieter von Tech-Riesen wie Apple, Amazon und Google nach Umsatz und Wert um ein Vielfaches überragt wird, hält er die Konkurrenz mit einem weltweiten Marktanteil von 40% auf Abstand. Maßgeblichen Anteil an diesem Erfolg haben die Empfehlungen neuer Songs. Immer montags erscheint der nutzerindividuelle „Mix der Woche“ mit 30 neuen, aber sehr wahrscheinlich beim Nutzer beliebten Songs. Spotify hat sein Empfehlungssystem perfektioniert: „Der einzige, der mich versteht, ist der spotify-algorithmus“, ist etwa auf Twitter zu lesen.

Im Rahmen der Seminararbeit soll neben einem kurzen Überblick über die wichtigsten Methoden von Empfehlungssystemen aus der Literatur analysiert und (kritisch) diskutiert werden, welche Potenziale diese Verfahren im Kontext der Musikbranche aufweisen. Das exemplarische Aufzeigen eines Best Practices anhand des Empfehlungssystems von Spotify rundet die Arbeit ab.

Voraussetzung: Die Veranstaltung „Big Data Analytics – Methoden und Anwendungen“
Thema 11

Word Embeddings – Lässt sich die Semantik eines Textes maschinell erfassen?

Word Embeddings sind mathematische Vektoren die Wörter, Sätze oder Dokumente anhand ihres Inhaltes so darstellen, dass „ähnliche“ Vektoren einen „ähnlichen“ Inhalt repräsentieren. In der Wissenschaft gibt es einige Ansätze, um Word Embeddings zu erzeugen, die sich je nach Anwendung mehr oder weniger eignen, den Inhalt eines Textes zu erfassen.

Im Rahmen der Seminararbeit soll ein strukturierter Überblick über die wissenschaftliche Literatur zu Word Embeddings gegeben werden. Best Practices und aktuelle Beispiele aus der Unternehmenspraxis sowie ein (kritischer) Vergleich zwischen Theorie und Praxis runden die Arbeit ab.

Voraussetzung: „Big Data Analytics – Methoden und Anwendungen“
Thema 12

Speech Recognition – Methoden zur maschinellen Verarbeitung von Sprache

Bei intelligenten Systemen (wie bspw. Alexa, Siri oder Google Home) ist ein enormer Fortschritt hinsichtlich der automatisierten Erkennung von Sprachbefehlen erkennbar, um alltägliche Aktivitäten sowie Aufgaben besser und effektiver zu erledigen. Dabei greifen diese Systeme auf Methoden aus dem Bereich der Speech Recognition zurück, um natürliche Sprache maschinenlesbar zu übersetzen. Aber wie genau funktionieren diese Methoden und wo liegen Ihre Grenzen?

Im Rahmen der Seminararbeit soll ein strukturierter Überblick über die wissenschaftliche Literatur zu Speech Recognition gegeben werden. Best Practices und aktuelle Beispiele aus der Unternehmenspraxis sowie ein (kritischer) Vergleich zwischen Theorie und Praxis runden die Arbeit ab.

Voraussetzung: Eine der Veranstaltungen „Social Network Analysis – Methoden, Konzepte und Anwendungen“, „Big Data Analytics – Methoden und Anwendungen“
Thema 13

Image Recognition – Wie gut lässt sich der Inhalt von Bildern computerbasiert interpretieren?

Für den Menschen ist es eine Leichtigkeit semantische Informationen auf Bildern wie bspw. zu Personen, Umgebung, Gegenständen etc. zu interpretieren und zu beschreiben. Diese Informationen automatisiert auszulesen geht mit einem deutlich größeren Aufwand einher und fällt unter den Bereich der Image Recognition, welcher ein breites Forschungsgebiet sowie eine Vielzahl von Anwendungen aufweist.

Im Rahmen der Seminararbeit soll ein wissenschaftlicher Literaturüberblick zu Image Recognition gegeben werden. Best Practices und aktuelle Beispiele aus der Unternehmenspraxis sowie ein kritischer Vergleich zwischen Theorie und Praxis runden die Arbeit ab.

Voraussetzung: Eine der Veranstaltungen „Social Network Analysis – Methoden, Konzepte und Anwendungen“ oder „Big Data Analytics – Methoden und Anwendungen“
Thema 14

Programmierprojekt Künstliche Intelligenz

Künstliche Intelligenz (Abk.: KI) (engl.: Artificial Intelligence (Abk.: AI)) ist die Wissenschaft, Computer Dinge tun zu lassen, die Intelligenz erfordern, wenn sie von Menschen getan werden (vgl. AlanTurin.net). Teilbereiche der künstlichen Intelligenz sind bspw. Machine Learning, Text Mining, Sprach- und Bilderkennung sowie Case-based Reasoning.

Im Rahmen der Seminararbeit soll eine künstliche Intelligenz mit Hilfe von Tools (bspw. Knime) und/oder einer beliebigen Programmiersprache (bspw. Java, Python, Scala, R oder Matlab) auf Basis von Methoden aus der Literatur entwickelt und evaluiert werden. Die ausgewählten Methoden sowie die Entwicklung und Evaluation der künstlichen Intelligenz sollen anschließend im Rahmen der Seminararbeit beschrieben werden.

Voraussetzungen: Grundlegende Informatikkenntnisse oder "Big Data Analytics - Methoden und Anwendungen"
Thema 15

Recurrent Neural Networks – Inwiefern lässt sich ein künstliches Gedächtnis modellieren?

Recurrent Neural Networks sind eine Art von Artificial Neural Networks, die eine Rückkopplung zwischen einzelnen Zellen erlauben. Daher sind diese insbesondere für die Analyse von aufeinanderfolgenden Sequenzen wie bspw. Zeitreihenanalysen oder auch für die Schrifterkennung geeignet. Durch diesen Umstand suggerieren Recurrent Neural Networks eine Art von "Gedächtnis". Doch inwiefern können Recurrent Neural Networks besser lernen als herkömmliche Feedforward Neural Networks?

Im Rahmen der Seminararbeit soll ein wissenschaftlicher Literaturüberblick zu Recurrent Neural Networks gegeben werden. Best Practices und aktuelle Beispiele aus der Unternehmenspraxis sowie ein kritischer Vergleich zwischen Theorie und Praxis runden die Arbeit ab.

Voraussetzung: „Big Data Analytics – Methoden und Anwendungen“
Bearbeitung Die Themen können nur alleine bearbeitet werden. Zur Erlangung des Leistungsnachweises ist die Anfertigung einer Seminararbeit sowie einer Präsentation (10 Minuten) mit anschließender Diskussion (5 Minuten) notwendig.
Meilensteine

Themenvergabe mit Hilfe des zentralen Tools:

·         Deutsche Version:
econ.mathematik.uni-ulm.de/semapps/stud_de/

·         Englische Version:
econ.mathematik.uni-ulm.de/semapps/stud_en/

Abgabe der Seminararbeiten:
Termin wird rechtzeitig bekannt gegeben

Endpräsentation:
Zeitpunkt und Ort werden rechtzeitig bekannt gegeben
Allgemeine Anforderungen  
  • analytische und konzeptionelle Fähigkeiten
  • selbständige, zielorientierte und systematische Arbeitsweise

 

Weitere Informationen siehe Webpage
www.uni-ulm.de/mawi/itop.html