Informace o publikaci

Možnosti a meze korpusového výzkumu proprií

Autoři

ŽIŽKOVÁ Hana OSOLSOBĚ Klára

Rok publikování 2024
Druh Vyžádané přednášky
Fakulta / Pracoviště MU

Filozofická fakulta

Citace
Popis V příspěvku bychom chtěli na základě zkušeností s českými jazykovými korpusy ukázat meze a možnosti výzkumu proprií, a to s ohledem na stav morfologického značkování užívaného v českém prostředí. Objasníme, jak jednotlivé kroky automatické morfologické analýzy ovlivňují stav lemmatizace a značkování v případě proprií. Dotkneme se problému tokenizace a víceslovných proprií, problému doplňování morfologického slovníku ve vztahu k propriím, zvláštností flexe proprií a jejich homonymie s apelativy ve vztahu k značkování a disambiguaci. Upozorníme na případy, kdy není vhodné při výzkumu spoléhat na morfologické značkování, na konkrétních příkladech ukážeme zkreslení výzkumných dat způsobené chybným morfologickým značkováním. Nastíníme možnosti, jak se zkreslení analyzovaných dat vyhnout. V příspěvku dále ukážeme možnosti využití různých počítačových nástrojů na konkrétních příkladech onomastického výzkumu. Představíme rozdíly v použití získávání dat z korpusů ČNK, SketchEngine a Aranea, ukážeme možnosti složitějších CQL dotazů při třídění dat. Představíme méně známé kategorie značkování v korpusech Aranea a ukážeme jeho efektivní využití při získávání onomastických dat.
Související projekty:

Používáte starou verzi internetového prohlížeče. Doporučujeme aktualizovat Váš prohlížeč na nejnovější verzi.

Další info