Informace o projektu
Velké jazykové korpusy a jejich automatická analýza

Logo poskytovatele
Kód projektu
GA405/03/0913
Období řešení
1/2003 - 12/2005
Investor / Programový rámec / typ projektu
Grantová agentura ČR
Fakulta / Pracoviště MU
Fakulta informatiky
Klíčová slova
Very Large Corpora; Natural Language Processing; Statistical Methods in NLP
Spolupracující organizace
Univerzita Karlova

Jazykové korpusy jsou nezastupitelnou součástí lingvistického výzkumu. Používají se za různým účelem, od jednoduchého vyhledávání daných slov až po přímé využití pro tzv. trénování v metodách automatického strojového učení; tyto metody se používají např. pro pravděpodobnostní jazykové modelování či automatickou počítačovou analýzu vět přirozeného jazyka. Použitelnost a užitečnost jazykových textových a řečových korpusů (včetně vícejazyčných) je umocněna jejich lingvistickou analýzou (anotováním). Anotace může odrážet jak formu, strukturu i funkci jazykových jednotek obsažených v anotovaném textu.Základním cílem projektu je obohatit naše dosavadní znalosti o jazykovém systému obecně a češtině zvlášť, a to ve smyslu vyvinutí takových metod (zejména metod statistického strojového učení a metod symbolických, a jejich kombinací), aby bylo možno s vysokou přesností analyzovat velké jazykové korpusy jak psaného, tak mluveného textu. Bude se přitom využívat výsledků dosažených v předchozích projektech a grantech s obdobnou tématikou (především data a metody). Role velkých jazykových korpusů přitom bude dvojí: jako zdroj materiálu pro vývoj těchto metod, a jako cílový materiál, na kterém budou nově vyvinuté metody vyzkoušeny a aplikovány. Anotované korpusy tak budou moci být využity např. pro tvorbu nových slovníků, které jsou pro češtinu již nezbytně potřeba. Výsledky projektu budou publikovány, a to včetně vytvořených programových nástrojů a dat.

Publikace

Počet publikací: 3


Používáte starou verzi internetového prohlížeče. Doporučujeme aktualizovat Váš prohlížeč na nejnovější verzi.

Další info