Zurück

Moderne Methoden des Text-Mining

Kundenservice-Anfragen, die kategorisiert werden müssen, Verträge ohne automatisiertes Ablagesystem, Leserkommentare in einer Online Community – all das sind Beispiele für unstrukturierte Textdaten, die oft manuell verarbeitet werden müssen.

Fortgeschrittene Methoden der automatisierten Textanalyse helfen, bisher manuell durchgeführte, zeitaufwändige und fehlerbehaftete Prozesse effizienter zu gestalten oder erst zu ermöglichen. Zusätzlich bieten sie großes Potenzial, Kosten einzusparen oder sich einen Wettbewerbsvorsprung durch neues Wissen zu erarbeiten – und dabei die Nerven der eigenen Mitarbeiter zu schonen.

NLP, Clustering, Topic Modelling, Klassifikation, Universal Embeddings – bei den KI-Technologien für die automatisierte Verarbeitung von Textmengen gibt es im Moment viele verschiedene Entwicklungsrichtungen, die teils ganz unterschiedliche Probleme lösen und sich besonders in Kombination zu ihrer größten Leistungsfähigkeit entfalten können.

Im Workshop zeigen wir, wie man die gesamte Textverarbeitungspipeline automatisiert – von der reinen Texterfassung, der Bereinigung der Texte, der Anreicherung mit Hilfe von Machine Learning bis zur visuellen Darstellung. Anhand eines Beispielprojekts lernen die Teilnehmer alle Stufen kennen und erlangen Praxiswissen in den wichtigsten State-of-the-Art-Technologien zur automatisierten Textanalyse.

Vorkenntnisse

* Der Workshop richtet sich an alle Entwickler, Architekten und Data Scientists, die sich mit der Massenverarbeitung von Text auf dem Level der Architektur, der Implementierung und dem laufenden Betrieb beschäftigen möchten.
* Vorkenntnisse in Python und in Machine Learning sind hilfreich.
* Auf den Computern der Teilnehmer sollten Python, Jupyter, Pandas, spaCy, scikit-learn und gensim installiert sein. Wir stellen vorab ein Python-Programm zur Verfügung, mit dem die korrekte Installation überprüft werden kann.

Lernziele

Teilnehmer können nach dem Workshop eigene Textanalyse-Projekte mit der vorgestellten Pipeline starten und kennen sich mit den verwendeten Techniken (NLP, Vektorisierung, Klassifikation, Topic Modelling, Embeddings) aus.

Agenda

Textakquisition und -cleaning
Vektorisierung von Texten (Feature-Engineering)
Unsupervised Learning und Topic Modeling
Supervised Learning (Klassifikation)
Word Embeddings

Pausenzeiten
ab 10.00 Registrierung und Begrüßungskaffee
11.00 Beginn
12.30 - 13.30: Mittagspause
15.00 - 15.15: Kaffeepause
16.30 - 16.45: Kaffeepause
ca. 18 Uhr: Ende

Technische Anforderungen

Hier eine Anleitung, wie die Laptops idealerweise vorbereitet werden müssten:

Als Start sollte am besten ein Arbeitsverzeichnis für den Workshop angelegt werden.

Zunächst sollte die Anaconda-Distribution für Python 3 installiert werden (https://www.anaconda.com/distribution/#download-section), am besten als User-Installation.

Anschließend bitte den Anaconda-Prompt öffnen (bei Bedarf als Administrator) und folgende Befehle eingeben:

conda install -y pip
conda install -y -c conda-forge ipython-sql
conda install -y -c anaconda beautifulsoup4
conda install -y -c anaconda gensim
pip install pyLDAvis
conda install -y -c anaconda word2vec
conda install -y -c anaconda requests
conda install -y -c anaconda nltk
conda install -y -c conda-forge spacy
python -m spacy download en
python -m spacy download de
conda install -y -c conda-forge wordcloud

Außerdem sollte das Programm Gephi installiert werden. Ein Client für SQLite ist hilfreich, z.B. DB Browser for SQLite

Bitte die Google-Wortvektoren von https://drive.google.com/file/d/0B7XkCwpI5KDYNlNUTTlSS21pQmM/edit in das Arbeits-Verzeichnis laden und entpacken.

Ebenso bitte die Facebook-Wortvektoren von https://dl.fbaipublicfiles.com/fasttext/vectors-english/wiki-news-300d-1M.vec.zip sollten in das Arbeits-Verzeichnis entpacken sowie https://dl.fbaipublicfiles.com/fasttext/vectors-crawl/cc.de.300.bin.gz

Für die Landesspracherkennung sollte https://dl.fbaipublicfiles.com/fasttext/supervised-models/lid.176.bin heruntergeladen und im Arbeitsverzeichnis abgelegt werden.

Speaker

Christian Winkler ist ein Gründer der datanizing GmbH und promovierte an der FAU Erlangen Nürnberg. Er arbeitet seit 20 Jahren in der Softwareentwicklung im Bereich Big Data/KI, insbesondere mit Fokus auf intelligente Algorithmen zur Massendatenverarbeitung im Bereich des maschinellen Lernens, der Geodatenverarbeitung und Statistik. Als Data Scientist und Solution Architect begleitet Dr. Winkler Projekte in den Bereichen Text Mining, Netzwerkanalyse, Forum Analytics und Sentiment Analyse. Er ist Speaker auf Konferenzen und Autor von Artikeln zu Big Data/KI.

Jetzt Tickets sichern

heise-devSec-Newsletter

Sie möchten über die heise devSec
auf dem Laufenden gehalten werden?

Anmelden