Project information
Projekt LINDAT-Clarin - Vybudování a provoz českého uzlu pan-evropské infrastruktury pro výzkum
(LINDAT-Clarin)
- Project Identification
- LM2015071
- Project Period
- 1/2016 - 12/2019
- Investor / Pogramme / Project type
-
Ministry of Education, Youth and Sports of the CR
- Large Infrastructures for Research, Development and Innovation
- MU Faculty or unit
- Faculty of Informatics
- Cooperating Organization
-
The Academy of Sciences of the Czech Republic
Charles University
- Responsible person prof. RNDr. Jan Hajič, Dr.
Projekt LINDAT-Clarin je koncipován jako český „uzel“ mezinárodní sítě Clarin (Common Language Resources and Technology Infrastructure. Centrum LINDAT-Clarin bude tedy v českém jazykovém prostředí zaměřeno na sběr jazykových dat a především jejich anotaci (tj. formální manuální, poloautomatickou a automatickou jazykovou analýzu). Sběr a anotace budou probíhat v takovém rozsahu, kvalitě a technologické přípravě (specifikace, schémata, formáty), která bude přímo využitelná jak v humanitní oblasti (jazykovědný a mezioborový výzkum, kde přirozený jazyk hraje podstatnou roli), tak i pro výzkum a vývoj v oblasti jazykových technologií za použití moderních statistických a hybridních metod.
Náplň práce centra a jeho výsledky se dotýkají řady oborů – v humanitních vědách to jsou jazykověda obecná a pro jazykověda zabývající se konkrétními jazyky, zejména češtinou, dále překladatelství, lexikografie, sociolingvistika, částečně i obory příbuzné (psychologie, sociologie, knihovnictví, neurovědy, cognitive science) s významným přesahem do informatiky (computer science, computational linguistics), matematiky (statistika a pravděpodobnost), a elektrotechniky (zpracování akustického signálu).
Publications
Total number of publications: 39
2019
-
A Distributional Multi-word Thesaurus in Sketch Engine
Proceedings of the Thirteenth Workshop on Recent Advances in Slavonic Natural Languages Processing, RASLAN 2019, year: 2019
-
Automatically Created Noun Explanations for English
Proceedings of the Thirteenth Workshop on Recent Advances in Slavonic Natural Language Processing, RASLAN 2019, year: 2019
-
Automating dictionary production: a Tagalog-English-Korean dictionary from scratch
Proceedings of the 6th Biennial Conference on Electronic Lexicography, year: 2019
-
Discriminating Between Similar Languages Using Large Web Corpora
Proceedings of the Thirteenth Workshop on Recent Advances in Slavonic Natural Languages Processing, RASLAN 2019, year: 2019
-
Evaluation and Error Analysis of Rule-based Paraphrase Generation for Czech
Proceedings of the Thirteenth Workshop on Recent Advances in Slavonic Natural Language Processing, RASLAN 2019, year: 2019
-
Neural Tagger for Czech Language: Capturing Linguistic Phenomena in Web Corpora
Proceedings of the Thirteenth Workshop on Recent Advances in Slavonic Natural Language Processing, RASLAN 2019, year: 2019
-
SiLi Index: Data Structure for Fast Vector Space Searching
Proceedings of the Thirteenth Workshop on Recent Advances in Slavonic Natural Languages Processing, RASLAN 2019, year: 2019
-
SkELL Corpora as a Part of the Language Portal Sonaveeb: Problems and Perspectives
Proceedings of the 6th Biennial Conference on Electronic Lexicography, year: 2019
-
Structured Information Extraction from Pharmaceutical Records
Proceedings of the Thirteenth Workshop on Recent Advances in Slavonic Natural Language Processing, RASLAN 2019, year: 2019
-
VerbaLex - Comprehensive Dictionary of Czech Verb Valencies
Korpus - gramatika - axiologie, year: 2019, volume: 2019, edition: 19