Zde se nacházíte:
Informace o publikaci
Možnosti a meze korpusového výzkumu proprií
Autoři | |
---|---|
Rok publikování | 2024 |
Druh | Vyžádané přednášky |
Fakulta / Pracoviště MU | |
Citace | |
Popis | V příspěvku bychom chtěli na základě zkušeností s českými jazykovými korpusy ukázat meze a možnosti výzkumu proprií, a to s ohledem na stav morfologického značkování užívaného v českém prostředí. Objasníme, jak jednotlivé kroky automatické morfologické analýzy ovlivňují stav lemmatizace a značkování v případě proprií. Dotkneme se problému tokenizace a víceslovných proprií, problému doplňování morfologického slovníku ve vztahu k propriím, zvláštností flexe proprií a jejich homonymie s apelativy ve vztahu k značkování a disambiguaci. Upozorníme na případy, kdy není vhodné při výzkumu spoléhat na morfologické značkování, na konkrétních příkladech ukážeme zkreslení výzkumných dat způsobené chybným morfologickým značkováním. Nastíníme možnosti, jak se zkreslení analyzovaných dat vyhnout. V příspěvku dále ukážeme možnosti využití různých počítačových nástrojů na konkrétních příkladech onomastického výzkumu. Představíme rozdíly v použití získávání dat z korpusů ČNK, SketchEngine a Aranea, ukážeme možnosti složitějších CQL dotazů při třídění dat. Představíme méně známé kategorie značkování v korpusech Aranea a ukážeme jeho efektivní využití při získávání onomastických dat. |
Související projekty: |