Informace o projektu
Velké jazykové korpusy a jejich automatická analýza
- Kód projektu
- GA405/03/0913
- Období řešení
- 1/2003 - 12/2005
- Investor / Programový rámec / typ projektu
-
Grantová agentura ČR
- Standardní projekty
- Fakulta / Pracoviště MU
- Fakulta informatiky
- Klíčová slova
- Very Large Corpora; Natural Language Processing; Statistical Methods in NLP
- Spolupracující organizace
-
Univerzita Karlova
- Odpovědná osoba prof. RNDr. Jan Hajič, Dr.
Jazykové korpusy jsou nezastupitelnou součástí lingvistického výzkumu. Používají se za různým účelem, od jednoduchého vyhledávání daných slov až po přímé využití pro tzv. trénování v metodách automatického strojového učení; tyto metody se používají např. pro pravděpodobnostní jazykové modelování či automatickou počítačovou analýzu vět přirozeného jazyka. Použitelnost a užitečnost jazykových textových a řečových korpusů (včetně vícejazyčných) je umocněna jejich lingvistickou analýzou (anotováním). Anotace může odrážet jak formu, strukturu i funkci jazykových jednotek obsažených v anotovaném textu.Základním cílem projektu je obohatit naše dosavadní znalosti o jazykovém systému obecně a češtině zvlášť, a to ve smyslu vyvinutí takových metod (zejména metod statistického strojového učení a metod symbolických, a jejich kombinací), aby bylo možno s vysokou přesností analyzovat velké jazykové korpusy jak psaného, tak mluveného textu. Bude se přitom využívat výsledků dosažených v předchozích projektech a grantech s obdobnou tématikou (především data a metody). Role velkých jazykových korpusů přitom bude dvojí: jako zdroj materiálu pro vývoj těchto metod, a jako cílový materiál, na kterém budou nově vyvinuté metody vyzkoušeny a aplikovány. Anotované korpusy tak budou moci být využity např. pro tvorbu nových slovníků, které jsou pro češtinu již nezbytně potřeba. Výsledky projektu budou publikovány, a to včetně vytvořených programových nástrojů a dat.
Publikace
Počet publikací: 3
2004
-
Corpus Analysis for Lexical Database Construction: A Case of Russian and Czech Wordnets
Proceedings of the 33th International Conference on Linguistics, rok: 2004
-
Grammatical Heads Optimized for Parsing and Their Comparison with Linguistic Intuition
Proceedings of the Seventh International Conference on Text, Speech and Dialogue, TSD 2004, rok: 2004
-
Syntactic analysis of natural languages based on context free grammar backbone
Proceedings of the 21th Workshop on Information Technologies, MIS 2004, rok: 2004