Informace o projektu
LINDAT/CLARIN - Výzkumná infrastruktura pro jazykové technologie
- Kód projektu
- CZ.02.1.01/0.0/0.0/16_013/0001781 (kod CEP: EF16_013/0001781)
- Období řešení
- 1/2017 - 12/2020
- Investor / Programový rámec / typ projektu
-
Ministerstvo školství, mládeže a tělovýchovy ČR
- OP Výzkum, vývoj a vzdělávání (OP VVV)
- PO 1 Posilování kapacit pro kvalitní výzkum
- Fakulta / Pracoviště MU
-
Fakulta informatiky
- prof. PhDr. Karel Pala, CSc.
- Mgr. Ing. Veronika Bumbálková
- doc. RNDr. Aleš Horák, Ph.D.
- doc. Mgr. Pavel Rychlý, Ph.D.
- Spolupracující organizace
-
Ústav pro jazyk český AV ČR, v. v. i.
Univerzita Karlova
- Odpovědná osoba prof. RNDr. Jan Hajič, Dr.
Projekt navazuje na běžící projekt LINDAT-Clarin, který koncipován jako český „uzel“ mezinárodní sítě Clarin (Common Language Resources and Technology Infrastructure). Centrum LINDAT-Clarin bude tedy v českém jazykovém prostředí zaměřeno na sběr jazykových dat a především jejich anotaci (tj. formální manuální, poloautomatickou a automatickou jazykovou analýzu). Sběr a anotace budou probíhat v takovém rozsahu, kvalitě a technologické přípravě (specifikace, schémata, formáty), která bude přímo využitelná jak v humanitní oblasti (jazykovědný a mezioborový výzkum, kde přirozený jazyk hraje podstatnou roli), tak i pro výzkum a vývoj v oblasti jazykových technologií za použití moderních statistických a hybridních metod. Náplň práce centra a jeho výsledky se dotýkají žady oborů – v humanitních vědách to jsou jazykověda obecná a jazykověda zabývající se konkrétními jazyky, zejména češtinou, dále překladatelství, lexikografie, sociolingvistika, částečně i obory příbuzné (psychologie, sociologie, knihovnictví, neurovědy, cognitive science) s významným přechodem do informatiky (computer science, computational linguistics), matematiky (statistika a pravděpodobnost) a elektrotechniky (zpracování akustického signálu).
Publikace
Počet publikací: 9
2019
-
A Distributional Multi-word Thesaurus in Sketch Engine
Proceedings of the Thirteenth Workshop on Recent Advances in Slavonic Natural Languages Processing, RASLAN 2019, rok: 2019
-
Neural Tagger for Czech Language: Capturing Linguistic Phenomena in Web Corpora
Proceedings of the Thirteenth Workshop on Recent Advances in Slavonic Natural Language Processing, RASLAN 2019, rok: 2019
-
Structured Information Extraction from Pharmaceutical Records
Proceedings of the Thirteenth Workshop on Recent Advances in Slavonic Natural Language Processing, RASLAN 2019, rok: 2019
-
VerbaLex - Comprehensive Dictionary of Czech Verb Valencies
Korpus - gramatika - axiologie, rok: 2019, ročník: 2019, vydání: 19
-
Word Sense Induction Using Word Sketches
Proceedings of the 7th International Conference on Statistical Language and Speech Processing, rok: 2019
2018
-
Comments on Czech Morphological Tagset
Proceedings of the Twelfth Workshop on Recent Advances in Slavonic Natural Languages Processing, RASLAN 2018, rok: 2018
-
Discovering Continuous Multi-word Expressions in Czech
Computación y Sistemas, rok: 2018, ročník: 22, vydání: 3, DOI
-
Multiple Instance Terminological Thesaurus with Central Management
Proceedings of the Twelfth Workshop on Recent Advances in Slavonic Natural Languages Processing, RASLAN 2018, rok: 2018
-
Understanding Search Queries in Natural Language
Proceedings of Recent Advances in Slavonic Natural Language Processing, RASLAN 2018, rok: 2018