Information Retrieval und Natural Language Processing (WS 2019/2020)

Inhalt

Einführung und Überblick über die Gebiete:
  • Information Retrieval
  • Natural Language Processing

Inhaltsverzeichnis:
  • Natural Language Processing Pipeline
    • Sprachidentifikation
    • Segmentierung
    • POS-Tagging
    • Stamm- und Grundformreduktion
    • Dependenzen
    • Stoppworteliminierung
    • Thesaurus
  • NLP-Werkzeuge im Detail
    • Hidden Markov Modelle
    • POS-Tagger im Detail
    • Named Entity Recognition
  • Natural Language Annotation
    • Annotation Circle
    • Guidelines
    • Inter-Annotator Agreement
  • Information Retrieval
    • Evaluationsmaße
    • Grundlegende formale Modelle
    • Retrieval Modelle
    • Fuzzy-Set Modell
  • Distributional Semantics
    • Word Embeddings
    • Character Embeddings
    • Contextualized Embeddings
    • Latent Semantic Indexing (LSI)
    • Explicit Semantic Analysis (ESA)

Anwedungsgebiete:
  • Sentiment Analysis, Opinion Mining
  • Plagiatserkennung
  • Phonetische Suche


Organisation

Veranstaltung Zeit Ort
Vorlesung Mo, 14:30 - 16 Uhr
Hörsaal 5H
Übung Do, 14:30 - 16 Uhr
Raum 25.12.02.33

Projekt Ausgabe Abgabe
1 21.10.2019 04.11.2019
2 11.11.2019 09.12.2019
3 19.12.201913.01.2020


Übung

Begleitend zur Vorlesung soll in der Übung von und mit den Studierenden ein Projekt umgesetzt werden, welches sowohl auf grundlegende Bausteine einer Natural Language Pipeline eingeht, als auch die Problematiken und Herangehensweisen von Datenannotationen thematisiert. Die erfolgreiche Umsetzung des Projekts soll den Studenten das selbstständige und praxisorientierte Arbeiten mit NLP-Ressourcen näher bringen. Das Projekt gliedert sich in 3 Teile auf, welche jeweils zu bestehen sind. Programmieraufgaben sind in Python umzusetzen.

Übungsmaterialien finden sich im Ilias:
https://ilias.hhu.de/ilias/goto.php?target=crs_714612&client_id=UniRZ

Folien / Skript

Zu der Vorlesung gibt es eine umfangreiche Sammlung von Folien, die im Laufe des Semesters sukzessive (möglichst rechtzeitig vor der jeweiligen Vorlesungsstunde) in Ilias zur Verfügung gestellt werden.


Literatur

Eine Auswahl:

Heinrich Heine Universität

Datenbanken und Informationssysteme

Lehrstuhlinhaber

Prof. Dr. Stefan Conrad


Universitätsstr. 1
40225 Düsseldorf
Gebäude: 25.12
Etage/Raum: 02.24
Tel.: +49 211 81-14088

Sekretariat

Lisa Lorenz



Universitätsstr. 1
40225 Düsseldorf
Gebäude: 25.12
Etage/Raum: 02.22
Tel.: +49 211 81-11312
Verantwortlich für den Inhalt:  E-Mail senden Datenbanken & Informationssysteme