Informace o publikaci

DMoG : A Data-Based Morphological Guesser

Autoři

KOVÁŘ Vojtěch RYCHLÝ Pavel

Rok publikování 2021
Druh Článek ve sborníku
Konference Recent Advances in Slavonic Natural Language Processing (RASLAN 2021)
Fakulta / Pracoviště MU

Fakulta informatiky

Citace
www
Klíčová slova Lemmatization; Morphological guesser; Morphological analysis; Morphological guessing
Popis We present a novel corpus-based approach to lemmatization of unknown words. The tool learns a?ix patterns from annotated data, and based on these patterns, it predicts other word forms that should be present in the corpus. A lemma candidate then comes from the pattern whose predictions are really found in the corpus. We present a prototype implementation and an initial evaluation on Czech, which shows promising results.
Související projekty:

Používáte starou verzi internetového prohlížeče. Doporučujeme aktualizovat Váš prohlížeč na nejnovější verzi.

Další info