Title

Co-reference annotation and resources: A multilingual corpus of typologically diverse languages

Authors

Felix Sasaki (Universität Bielefeld Fakultät für Linguistik und Literaturwissenschaft - Computerlinguistik und Texttechnologie - Postfach 10 01 31D-33501 Bielefeld)

Claudia Wegener (Universität Bielefeld Fakultät für Linguistik und Literaturwissenschaft - Computerlinguistik und Texttechnologie - Postfach 10 01 31D-33501 Bielefeld)

Andreas Witt (Universität Bielefeld Fakultät für Linguistik und Literaturwissenschaft - Computerlinguistik und Texttechnologie - Postfach 10 01 31D-33501 Bielefeld)

Dieter Metzing (Universität Bielefeld Fakultät für Linguistik und Literaturwissenschaft - Computerlinguistik und Texttechnologie - Postfach 10 01 31D-33501 Bielefeld)

Jens Pönninghaus (Universität Bielefeld Fakultät für Linguistik und Literaturwissenschaft - Computerlinguistik und Texttechnologie - Postfach 10 01 31D-33501 Bielefeld)

Session

WO12: Coreference

Abstract

This article introduces a dialogue corpus containing data from two typologically different languages, Japanese and Kilivila. The corpus is annotated in accordance with language specific annotation schemes for co-referential and similar relations. The article describes the corpus data, the properties of language specific co-reference in the two languages and a methodology for its annotation. Examples from the corpus show how this methodology is used in the workflow of the annotation process.

Keywords

Coreference, Multilingual corpus, Multiple annotations, Interrelated document grammars

Full Paper

35.pdf