Information Extraction - Seminar (WS 2021-2022)

Summary

Bei der Informationsextraktion (IE) geht es um die automatische Extraktion von Information aus Volltexten. Die Anwendungen erstrecken sich von der Unterstützung von Internet-Suchmaschinen bis hin zum automatischen Aufbau von Fachdatenbanken. Die Methoden reichen von der Analyse natürlicher Sprache über automatische Termerkennung bis zu automatischen Lernverfahren, wobei symbolische, statistische und hybride Methoden zum Einsatz kommen. Komplexe Informationsstrukturen können mit sogenannten Templates (Informationsmustern) repräsentiert werden. In der Veranstaltung werden verschiedene Anwendungen und Methoden für diverse Anwendungsdomänen betrachtet.

Inhalte:

Das Seminar behandelt Ansätze, Verfahren und Werkzeuge der Informationsextraktion und legt einen besonderen Fokus auf die Erkennung von Eigennamen und von domänen- bzw. fachspezifischer Information. Auch sollen Fragestellungen der Evaluation derartiger Verfahren diskutiert werden.

Lernziele:

Die Teilnehmer sollen lernen, wie sie Ressourcen für IE Systeme bewerten können. Außerdem sollen sie befähigt werden, dass sie bei der Entwicklung, beim Einsatz und bei der Bewertung von IE-Systemen mitwirken können.

Here is a link to the Lecture

Instructor

Alexander Fraser

Email Address: SubstituteMyLastName@cis.uni-muenchen.de

CIS, LMU Munich

Schedule

There are *two separate seminars*. You EITHER go on Wednesdays, OR you go on Thursdays, NOT BOTH!

Wed: 10:00 c.t., ZOOM ONLINE (was previously 061)

Thurs: 10:00 c.t., ZOOM ONLINE (was previously changed to 061)

For a LaTeX template for the Hausarbeit, click here.

If this web page does not seem to be up to date, use the refresh button in your browser.

Date Topic Materials

November 3rd Referat Topics Alexander Fraser
Viktor Hangya
Jindrich Libovicky
Katharina Hämmerl
Alexandra Chronopoulou (slides)
Alexandra Chronopoulou (video)

November 10th and 11th Exercise: CMU Seminars (Annotation and Manual Rules) IE_1_example1.txt IE_1_example2.txt IE_1_annotate.txt
IE_exercise1.tar.xz IE_exercise1_README.txt
Best F1 so far in WS21: 41%

November 17th and 18th Sentiment Analysis and a few comments on the Referat sentiment
Referat

December 15th and January 27th Sentiment Analysis Part 2 sentiment part 2

WEDNESDAY Referatsthemen (name: topic)

Date Topic Language Materials Hausarbeit Received

November 24th Kateryna Hamii, Iana Makhonina, Daniil Kirillov: Toxic Span Detection (VH) EN yes//yes

December 1st Serif Hamzic, Monica Riedler, Nina Schmierer: Fake Reviews (JL) EN yes/yes/yes

December 8th Sophie Schuhbauer, Anna Pably: Bias in Toxic Language (AC) EN yes/yes

December 15th (See above)

January 12th -, Van Nguyen: Song Lyric Segmentation (KH) DE yes/yes

January 19th Lazaros Koutsianos, Yusuf Arigboga, Ioannis Partalas: Open IE (AF) EN yes/yes/yes

January 26th Fabian Woll, Lucia Guerrero, Jonas Engesser: Language Models as Domain Experts (AC) EN yes/yes/yes

February 2nd Office Hours

THURSDAY Referatsthemen (name: topic)

Date Topic Language Materials Hausarbeit Received

November 25th Annika Haase, Julius Kroiß, Tatiana Shulga: History of IE (AF) EN yes/yes/yes

December 2nd Clara Görlach, Karen Luna, Sebastian Loftus: Multilingual NER (JL) EN yes/yes/yes

December 9th Shuqi Wang, Anna Masiuta, and Marko Bierlich: Depressions in Online Forums (JL) EN yes/yes/yes

December 16th Martin Ivanov, Tatev Gevorgyan, Rukiye Duran: Human-in-the-loop IE (KH) DE yes/yes/yes

January 13th Antoaneta Mihaljevich, Stefan Volk, Barbara Kovacic: IE from Code-switched Data (VH) EN yes//yes

January 20th Lea Hirlimann, Xaver Krückl, Simon Stürzebecher: Creating Training Data with Weak Supervision (AF) EN yes/yes/yes
January 27th (see above)

February 3rd Office Hours

Date	Topic	Materials
November 3rd	Referat Topics	Alexander Fraser Viktor Hangya Jindrich Libovicky Katharina Hämmerl Alexandra Chronopoulou (slides) Alexandra Chronopoulou (video)
November 10th and 11th	Exercise: CMU Seminars (Annotation and Manual Rules)	IE_1_example1.txt IE_1_example2.txt IE_1_annotate.txt IE_exercise1.tar.xz IE_exercise1_README.txt Best F1 so far in WS21: 41%
November 17th and 18th	Sentiment Analysis and a few comments on the Referat	sentiment Referat
December 15th and January 27th	Sentiment Analysis Part 2	sentiment part 2

Date	Topic	Language	Materials	Hausarbeit Received
November 24th	Kateryna Hamii, Iana Makhonina, Daniil Kirillov: Toxic Span Detection (VH)	EN		yes//yes
December 1st	Serif Hamzic, Monica Riedler, Nina Schmierer: Fake Reviews (JL)	EN		yes/yes/yes
December 8th	Sophie Schuhbauer, Anna Pably: Bias in Toxic Language (AC)	EN		yes/yes
December 15th	(See above)
January 12th	-, Van Nguyen: Song Lyric Segmentation (KH)	DE		yes/yes
January 19th	Lazaros Koutsianos, Yusuf Arigboga, Ioannis Partalas: Open IE (AF)	EN		yes/yes/yes
January 26th	Fabian Woll, Lucia Guerrero, Jonas Engesser: Language Models as Domain Experts (AC)	EN		yes/yes/yes
February 2nd	Office Hours