Konzeptentwicklung zum Crawlen und Analysieren von Kundenwebsites an einem Anwendungsbeispiel in der Pharmaindustrie

Universität Ulm

BA Abschlussvortrag, Tobias Kugler, Ort: Online, Datum: 9.12.2020, Zeit: 11:00 Uhr

Mit der zunehmenden Informationsvielfalt des World Wide Web (WWW) steigt das Interesse der Geschäftswelt, Informationen über Kunden und Geschäftspartner über das Internet auszulesen und zu analysieren. Mit Hilfe eines Webcrawlers können diese Aufgaben automatisiert und dadurch wesentlich schneller, effizienter und umfangreicher übernommen werden. Eine ausführliche Literaturrecherche zeigt, dass es bereits zahlreiche Möglichkeiten gibt einen solchen Webcrawler zu realisieren - etwa über existierende Anwendungen und Anbieter oder selbst implementiert. In dieser Arbeit wird ein Konzept entwickelt, um das Webcrawling für die Analyse großer Mengen an Kundenwebsites zu nutzen. Ziel der Aufgabenstellung ist die Entwicklung einer lauffähigen Anwendung, welche Kundenwebsites auf das Vorkommen bestimmter Keywords untersucht und das Ergebnis in einer Excel-Tabelle präsentiert. Die Umsetzung der Aufgabenstellung erfolgt in Form eines Softwareentwicklungsprojektes unter der Verwendung einer agilen Vorgehensweise mit Scrum. Es werden Grundlagen zu den benötigten Technologien recherchiert, ein Anforderungskatalog in Form von User Stories erstellt und ein Entwurf formuliert, welcher als ausführbareres Programm implementiert wird. Zur Implementierung werden die Programmiersprache Python sowie einige hilfreiche Pakete wie Scrapy, Pandas und Flask verwendet. In dem Anwendungsbeispiel bei der Teva GmbH zeigt das entwickelte Webcrawling-Konzept, dass nicht nur Kosten und Aufwände eingespart werden können. Durch das flexiblere und skalierbare Design ist die Applikation für eine größere Anzahl an Mitarbeitern nutzbar und einfach erweiterbar.