Informace o projektu
Velké jazykové korpusy a jejich automatická analýza

Kód projektu

GA405/03/0913

Období řešení

1/2003 - 12/2005

Investor / Programový rámec / typ projektu

Grantová agentura ČR

Standardní projekty

Fakulta / Pracoviště MU

Fakulta informatiky

prof. PhDr. Karel Pala, CSc.

Klíčová slova

Very Large Corpora; Natural Language Processing; Statistical Methods in NLP

Spolupracující organizace

Univerzita Karlova

Odpovědná osoba prof. RNDr. Jan Hajič, Dr.

Jazykové korpusy jsou nezastupitelnou součástí lingvistického výzkumu. Používají se za různým účelem, od jednoduchého vyhledávání daných slov až po přímé využití pro tzv. trénování v metodách automatického strojového učení; tyto metody se používají např. pro pravděpodobnostní jazykové modelování či automatickou počítačovou analýzu vět přirozeného jazyka. Použitelnost a užitečnost jazykových textových a řečových korpusů (včetně vícejazyčných) je umocněna jejich lingvistickou analýzou (anotováním). Anotace může odrážet jak formu, strukturu i funkci jazykových jednotek obsažených v anotovaném textu.Základním cílem projektu je obohatit naše dosavadní znalosti o jazykovém systému obecně a češtině zvlášť, a to ve smyslu vyvinutí takových metod (zejména metod statistického strojového učení a metod symbolických, a jejich kombinací), aby bylo možno s vysokou přesností analyzovat velké jazykové korpusy jak psaného, tak mluveného textu. Bude se přitom využívat výsledků dosažených v předchozích projektech a grantech s obdobnou tématikou (především data a metody). Role velkých jazykových korpusů přitom bude dvojí: jako zdroj materiálu pro vývoj těchto metod, a jako cílový materiál, na kterém budou nově vyvinuté metody vyzkoušeny a aplikovány. Anotované korpusy tak budou moci být využity např. pro tvorbu nových slovníků, které jsou pro češtinu již nezbytně potřeba. Výsledky projektu budou publikovány, a to včetně vytvořených programových nástrojů a dat.

Publikace

Počet publikací: 3

2004

Corpus Analysis for Lexical Database Construction: A Case of Russian and Czech Wordnets

SMRŽ Pavel SINOPALNIKOVA Anna

Článek ve sborníku

Proceedings of the 33th International Conference on Linguistics, rok: 2004
Grammatical Heads Optimized for Parsing and Their Comparison with Linguistic Intuition

KADLEC Vladimír SMRŽ Pavel

Článek ve sborníku

Proceedings of the Seventh International Conference on Text, Speech and Dialogue, TSD 2004, rok: 2004
Syntactic analysis of natural languages based on context free grammar backbone

KADLEC Vladimír SMRŽ Pavel

Článek ve sborníku

Proceedings of the 21th Workshop on Information Technologies, MIS 2004, rok: 2004

Studijní programy

Přijímačky a TSP

Přečtěte si o výzkumu na MU

Informace o projektu
Velké jazykové korpusy a jejich automatická analýza

Publikace

2004

Corpus Analysis for Lexical Database Construction: A Case of Russian and Czech Wordnets

Grammatical Heads Optimized for Parsing and Their Comparison with Linguistic Intuition

Syntactic analysis of natural languages based on context free grammar backbone

Studijní programy

Přijímačky a TSP

Přečtěte si o výzkumu na MU

Informace o projektuVelké jazykové korpusy a jejich automatická analýza

Publikace

2004

Corpus Analysis for Lexical Database Construction: A Case of Russian and Czech Wordnets

Grammatical Heads Optimized for Parsing and Their Comparison with Linguistic Intuition

Syntactic analysis of natural languages based on context free grammar backbone

Informace o projektu
Velké jazykové korpusy a jejich automatická analýza