Moderne Methoden des Text-Mining
Kundenservice-Anfragen, die kategorisiert werden müssen, Verträge ohne automatisiertes Ablagesystem, Leserkommentare in einer Online Community – all das sind Beispiele für unstrukturierte Textdaten, die oft manuell verarbeitet werden müssen.
Fortgeschrittene Methoden der automatisierten Textanalyse helfen, bisher manuell durchgeführte, zeitaufwändige und fehlerbehaftete Prozesse effizienter zu gestalten oder erst zu ermöglichen. Zusätzlich bieten sie großes Potenzial, Kosten einzusparen oder sich einen Wettbewerbsvorsprung durch neues Wissen zu erarbeiten – und dabei die Nerven der eigenen Mitarbeiter zu schonen.
NLP, Clustering, Topic Modelling, Klassifikation, Universal Embeddings – bei den KI-Technologien für die automatisierte Verarbeitung von Textmengen gibt es im Moment viele verschiedene Entwicklungsrichtungen, die teils ganz unterschiedliche Probleme lösen und sich besonders in Kombination zu ihrer größten Leistungsfähigkeit entfalten können.
Im Workshop zeigen wir, wie man die gesamte Textverarbeitungspipeline automatisiert – von der reinen Texterfassung, der Bereinigung der Texte, der Anreicherung mit Hilfe von Machine Learning bis zur visuellen Darstellung. Anhand eines Beispielprojekts lernen die Teilnehmer alle Stufen kennen und erlangen Praxiswissen in den wichtigsten State-of-the-Art-Technologien zur automatisierten Textanalyse.
Vorkenntnisse
* Der Workshop richtet sich an alle Entwickler, Architekten und Data Scientists, die sich mit der Massenverarbeitung von Text auf dem Level der Architektur, der Implementierung und dem laufenden Betrieb beschäftigen möchten.
* Vorkenntnisse in Python und in Machine Learning sind hilfreich.
* Auf den Computern der Teilnehmer sollten Python, Jupyter, Pandas, spaCy, scikit-learn und gensim installiert sein. Wir stellen vorab ein Python-Programm zur Verfügung, mit dem die korrekte Installation überprüft werden kann.
Lernziele
Teilnehmer können nach dem Workshop eigene Textanalyse-Projekte mit der vorgestellten Pipeline starten und kennen sich mit den verwendeten Techniken (NLP, Vektorisierung, Klassifikation, Topic Modelling, Embeddings) aus.