Title |
Co-reference annotation and resources: A multilingual corpus of typologically diverse languages |
Authors |
Felix Sasaki (Universität Bielefeld Fakultät für Linguistik und Literaturwissenschaft - Computerlinguistik und Texttechnologie - Postfach 10 01 31D-33501 Bielefeld) Claudia Wegener (Universität Bielefeld Fakultät für Linguistik und Literaturwissenschaft - Computerlinguistik und Texttechnologie - Postfach 10 01 31D-33501 Bielefeld) Andreas Witt (Universität Bielefeld Fakultät für Linguistik und Literaturwissenschaft - Computerlinguistik und Texttechnologie - Postfach 10 01 31D-33501 Bielefeld) Dieter Metzing (Universität Bielefeld Fakultät für Linguistik und Literaturwissenschaft - Computerlinguistik und Texttechnologie - Postfach 10 01 31D-33501 Bielefeld) Jens Pönninghaus (Universität Bielefeld Fakultät für Linguistik und Literaturwissenschaft - Computerlinguistik und Texttechnologie - Postfach 10 01 31D-33501 Bielefeld) |
Session |
WO12: Coreference |
Abstract |
This article introduces a dialogue corpus containing data from two typologically different languages, Japanese and Kilivila. The corpus is annotated in accordance with language specific annotation schemes for co-referential and similar relations. The article describes the corpus data, the properties of language specific co-reference in the two languages and a methodology for its annotation. Examples from the corpus show how this methodology is used in the workflow of the annotation process. |
Keywords |
Coreference, Multilingual corpus, Multiple annotations, Interrelated document grammars |
Full Paper |