Informace o projektu
Harvesting big text data for under-resourced languages (HaBiT)

Kód projektu

7F14047

Období řešení

6/2014 - 4/2017

Investor / Programový rámec / typ projektu

Ministerstvo školství, mládeže a tělovýchovy ČR

Česko-norský výzkumný program (CZ09)

Fakulta / Pracoviště MU

Fakulta informatiky

Spolupracující organizace

Norwegian University of Science and Technology

Cílem projektu je získat z webu velká textová data (korpusy) pro jazyky s nedostatečnými zdroji, mezi něž patří norština, zčásti čeština a také některé etiopské jazyky (amharština, afaan oromština, tigrinština, somálština). Data budou anotována, parsována tak, aby byla použitelná pro různé aplikace v oblasti počítačového zpracování přirozeného jazyka, např. extrakce informací, strojový překlad a další. Konsorcium bude tvořeno jedním norským týmem (NTNU Trondheim a přidruženou Universitou v Oslo), které se budou věnovat zpracování vzniklých korpusů, a jedním českým týmem (MU Brno), který využije iiž svých existujících nástrojů pro budování korpusů z webu. Projekt bude koordinován brněnským týmem.
Jedním cílem projektu bude vytvoření velkého norského korpusu čítajícího miliardy slovních tvarů s použitím nástrojů vyvinutých v rámci spolupráce s NTNU v EU projektu PRESEMT ("PRESEMT: Pattern REcognition-based Statistically Enhanced MT", 2010-2012). Za druhé, NTNU spolupracuje s Universitou v Oslo a dvěma etiopskými universitami v projektu na podporujícím budování jazykových zdrojů a fundovaném organizací Norad ("Linguistic Capacity Building – tools for the inclusive development of Ethiopia", NORHED 2013-2018). Je tedy přirozené propojit tyto aktivity a zahrnout zpracování čtyř velkých etiopských jazyků do předkládaného projektu: projekt HaBiT tak může podpořit a posílit projekt NORHED
důkladným testováním technologií a tím adresovat témata evaluace a verifikace a také splnit společenskou výzvu pro informační technologie (ICT). Takto získáme relevantní přidanou hodnotu rovněž po politické stránce díky kooperaci s méně rozvinutou zemí. Za třetí, budou vytvořeny aplikace pro povrchové zpracování češtiny a norštiny a aspoň jednoho etiopského jazyka, umožňující vyčlenění a zkoumání mnohoznačnosti slov v korpusech, tj. indukci slovních významů a také tvorbu vícevektorových prostorů a paralelních multilinguálních prostorů pro desambiguaci významů slov při překladu.

Publikace

Počet publikací: 41

2016

Evaluating Natural Language Processing Tasks with Low Inter-Annotator Agreement: The Case of Corpus Applications

KOVÁŘ Vojtěch

Článek ve sborníku

Tenth Workshop on Recent Advances in Slavonic Natural Language Processing, RASLAN 2016, rok: 2016
Evaluation and Improvements in Punctuation Detection for Czech

KOVÁŘ Vojtěch MACHURA Jakub ZEMKOVÁ Kristýna ROTT Michal

Článek ve sborníku

Text, Speech, and Dialogue 19th International Conference, TSD 2016 Brno, Czech Republic, September 12–16, 2016 Proceedings, rok: 2016
Finding Definitions in Large Corpora with Sketch Engine

KOVÁŘ Vojtěch MOČIARIKOVÁ Monika RYCHLÝ Pavel

Článek ve sborníku

Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016), rok: 2016
Graded and Word-Sense-Disambiguation Decisions in Corpus Pattern Analysis: a Pilot Study

CINKOVA Silvie KREJČOVÁ Ema VERNEROVÁ Anna BAISA Vít

Článek ve sborníku

Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016), rok: 2016
Large Scale Keyword Extraction using a Finite State Backend

JAKUBÍČEK Miloš ŠMERK Pavel

Článek ve sborníku

Tenth Workshop on Recent Advances in Slavonic Natural Language Processing, RASLAN 2016, rok: 2016
Lexicographic Tools to Build New Encyclopaedia of the Czech Language

HORÁK Aleš RAMBOUSEK Adam

Článek v odborném periodiku

The Prague Bulletin of Mathematical Linguistics, rok: 2016, ročník: 2016, vydání: 106, DOI
Multilingual CPA: Linking Verb Patterns across Languages

BAISA Vít MOŽE Sara RENAU Irene

Článek ve sborníku

Proceedings of the XVII EURALEX International congress, rok: 2016
On Evaluation of Natural Language Processing Tasks: Is Gold Standard Evaluation Methodology a Good Solution?

KOVÁŘ Vojtěch JAKUBÍČEK Miloš HORÁK Aleš

Článek ve sborníku

Proceedings of the 8th International Conference on Agents and Artificial Intelligence, rok: 2016
RuSkELL: Online Language Learning Tool for Russian Language

APRESJAN Valentina BAISA Vít BUIVOLOVA Olga KULTEPINA Olga

Článek ve sborníku

Proceedings of the XVII EURALEX International congress, rok: 2016
Set of Ethiopian Web Corpora

SUCHOMEL Vít RYCHLÝ Pavel

Software

Rok: 2016

Jak na přijímačky

Důležité termíny

Přečtěte si o výzkumu na MU

Jak na přijímačky

Důležité termíny

Přečtěte si o výzkumu na MU

Informace o projektu
Harvesting big text data for under-resourced languages (HaBiT)

Publikace

2016

Evaluating Natural Language Processing Tasks with Low Inter-Annotator Agreement: The Case of Corpus Applications

Evaluation and Improvements in Punctuation Detection for Czech

Finding Definitions in Large Corpora with Sketch Engine

Graded and Word-Sense-Disambiguation Decisions in Corpus Pattern Analysis: a Pilot Study

Large Scale Keyword Extraction using a Finite State Backend

Lexicographic Tools to Build New Encyclopaedia of the Czech Language

Multilingual CPA: Linking Verb Patterns across Languages

On Evaluation of Natural Language Processing Tasks: Is Gold Standard Evaluation Methodology a Good Solution?

RuSkELL: Online Language Learning Tool for Russian Language

Set of Ethiopian Web Corpora

Jak na přijímačky

Důležité termíny

Přečtěte si o výzkumu na MU

Informace o projektuHarvesting big text data for under-resourced languages (HaBiT)

Publikace

2016

Informace o projektu
Harvesting big text data for under-resourced languages (HaBiT)