Information Retrieval und Natural Language Processing (WS 2019/2020)
Inhalt
Einführung und Überblick über die Gebiete:
- Information Retrieval
- Natural Language Processing
Inhaltsverzeichnis:
- Natural Language Processing Pipeline
- Sprachidentifikation
- Segmentierung
- POS-Tagging
- Stamm- und Grundformreduktion
- Dependenzen
- Stoppworteliminierung
- Thesaurus
- NLP-Werkzeuge im Detail
- Hidden Markov Modelle
- POS-Tagger im Detail
- Named Entity Recognition
- Natural Language Annotation
- Annotation Circle
- Guidelines
- Inter-Annotator Agreement
- Information Retrieval
- Evaluationsmaße
- Grundlegende formale Modelle
- Retrieval Modelle
- Fuzzy-Set Modell
- Distributional Semantics
- Word Embeddings
- Character Embeddings
- Contextualized Embeddings
- Latent Semantic Indexing (LSI)
- Explicit Semantic Analysis (ESA)
Anwedungsgebiete:
- Sentiment Analysis, Opinion Mining
- Plagiatserkennung
- Phonetische Suche
Organisation
- Umfang: 2 SWS (Vorlesung) + 2 SWS (Übung)
- Vorlesung: Prof. Dr. Stefan Conrad
- Übung: Julia Romberg, Philipp Grawe, Thomas Germer
- Beginn der Vorlesung: Mo, 7.10.2019
- Beginn der Übung: organisatorische Übung: Do, 17.10.2019
Veranstaltung | Zeit | Ort |
Vorlesung | Mo, 14:30 - 16 Uhr | Hörsaal 5H |
Übung | Do, 14:30 - 16 Uhr | Raum 25.12.02.33 |
Projekt | Ausgabe | Abgabe |
1 | 21.10.2019 | 04.11.2019 |
2 | 11.11.2019 | 09.12.2019 |
3 | 19.12.2019 | 13.01.2020 |
Übung
Begleitend zur Vorlesung soll in der Übung von und mit den Studierenden ein Projekt umgesetzt werden, welches sowohl auf grundlegende Bausteine einer Natural Language Pipeline eingeht, als auch die Problematiken und Herangehensweisen von Datenannotationen thematisiert. Die erfolgreiche Umsetzung des Projekts soll den Studenten das selbstständige und praxisorientierte Arbeiten mit NLP-Ressourcen näher bringen.
Das Projekt gliedert sich in 3 Teile auf, welche jeweils zu bestehen sind. Programmieraufgaben sind in Python umzusetzen.
Übungsmaterialien finden sich im Ilias:
Folien / Skript
Zu der Vorlesung gibt es eine umfangreiche Sammlung von Folien, die im Laufe des Semesters sukzessive (möglichst rechtzeitig vor der jeweiligen Vorlesungsstunde) in Ilias zur Verfügung gestellt werden.
Literatur
Eine Auswahl:- A. Henrich: Information Retrieval 1 - Grundlagen, Modelle und Anwendungen, eBook (Creative Commons), http://www.uni-bamberg.de/?id=23516, 2008
- R. Baeza-Yates, B. Ribeiro-Neto: Modern Information Retrieval, Addison-Wesley, Boston, 1999
- C. Manning, H. Schütze: Foundations of Statistical Natural Language Processing, MIT Press, Cambridge, 1999
- D. Jurafsky, J. Martin: Speech and Language Processing, Prentice-Hall, Inc., 2009