Extrakce korpusových příkladů pro valenční slovník

Informace o publikaci

Autoři	BAISA Vít
Rok publikování	2011
Druh	Článek ve sborníku
Konference	Korpusová lingvistika, 3: Gramatika a značkování korpusů
Fakulta / Pracoviště MU	Fakulta informatiky
Citace
Obor	Jazykověda
Klíčová slova	valency lexicon; VerbaLex; corpus; valency frame; CQL
Popis	Valenční slovník VerbaLex je vytvářen na základě několika různých zdrojů, mezi nimiž chybí reálná korpusová data. V současné době obsahuje VerbaLex asi 10 000 slovesných lemmat, 20 000 literálů (dvojice sloveso a jeho význam) a zhruba stejný počet valenčních rámců. Ve většině případů byly příklady pro jednotlivé valenční rámce vymyšleny. Naším cílem je doplnit tento bohatý lexikografický zdroj o reálné příklady z korpusu. Článek popisuje proceduru, při níž se valenční rámce VerbaLexu transformují na dotazy v jazyce CQL, které slouží pro hledání příkladů reálných vět pro daný valenční rámec. Tato procedura je jednoduchá, ale relativně účinná. V článku se podrobně věnujeme jednotlivým krokům procedury, výsledkům, jejich kvalitě a obtížím, na které jsme při vyhledávání realizací valenčních rámců v korpusu narazili.
Související projekty:	Centrum komputační lingvistiky

Studijní programy