Informace o projektu
Ověření úspěšnosti technik zpracování přirozeného jazyka pro extrakci informací ze skenovaných dokumentů

Kód projektu

MUNI/33/55939/2017

Období řešení

4/2017 - 8/2018

Investor / Programový rámec / typ projektu

Masarykova univerzita

Interní projekty CTT

Fakulta / Pracoviště MU

Fakulta informatiky

Cílem projektu je ověřit možnost automatického vytěžování informací ze skenovaných textů - finančních dokumentů (faktur) a smluvních dokumentů. Ze vstupu v podobě sledu naskenovaných dokumentů ve formě částečně strukturované textu bude nejprve každý dokument automaticky klasifikován do určité kategorie. U finančních dokumentů budou extrahovány informace o dodavateli a odběrateli, datu splatnosti, jednotlivých položkách faktury (cena a popis), místu vydání faktury, číslu objednávky a faktury a také o čísle účtu a dalších platebních parametrech. U smluvních dokumentů se budou extrahovat informace o jednotlivých smluvních stranách (jména, adresy, ...), datu podpisu, typy smlouvy, závazcích smluvních stran a spisovém číslu dokumentu. Veškeré tyto informace je zatím možné efektivně získávat pouze ručně. Navrhovaný tým má v současnosti k dispozici vlastní podpůrné jazykové nástroje a v rámci projektu plánuje ověřit jejich efektivitu při zmíněných procesech automatické extrakce informací.

Publikace

Počet publikací: 3

2018

Corpus Annotation Pipeline for Non-standard Texts

PELIKÁNOVÁ Zuzana NEVĚŘILOVÁ Zuzana

Článek ve sborníku

Text, Speech, and Dialogue, 21st International Conference, TSD 2018, rok: 2018
Recognition of OCR Invoice Metadata Block Types

HA Hien Thi HORÁK Aleš MEDVEĎ Marek NEVĚŘILOVÁ Zuzana

Článek ve sborníku

Text, Speech, and Dialogue, 21st International Conference, TSD 2018, rok: 2018

2017

Recognition of Invoices from Scanned Documents

HA Hien Thi

Článek ve sborníku

RASLAN 2017 Recent Advances in Slavonic Natural Language Processing, rok: 2017

Studijní programy

Přijímačky a TSP

Přečtěte si o výzkumu na MU

Informace o projektu
Ověření úspěšnosti technik zpracování přirozeného jazyka pro extrakci informací ze skenovaných dokumentů

Publikace

2018

Corpus Annotation Pipeline for Non-standard Texts

Recognition of OCR Invoice Metadata Block Types

2017

Recognition of Invoices from Scanned Documents

Studijní programy

Přijímačky a TSP

Přečtěte si o výzkumu na MU

Informace o projektuOvěření úspěšnosti technik zpracování přirozeného jazyka pro extrakci informací ze skenovaných dokumentů

Publikace

2018

Corpus Annotation Pipeline for Non-standard Texts

Recognition of OCR Invoice Metadata Block Types

2017

Recognition of Invoices from Scanned Documents

Informace o projektu
Ověření úspěšnosti technik zpracování přirozeného jazyka pro extrakci informací ze skenovaných dokumentů