Project information
Ověření úspěšnosti technik zpracování přirozeného jazyka pro extrakci informací ze skenovaných dokumentů

Project Identification

MUNI/33/55939/2017

Project Period

4/2017 - 8/2018

Investor / Pogramme / Project type

Masaryk University

Internal projects of TTO

MU Faculty or unit

Faculty of Informatics

Cílem projektu je ověřit možnost automatického vytěžování informací ze skenovaných textů - finančních dokumentů (faktur) a smluvních dokumentů. Ze vstupu v podobě sledu naskenovaných dokumentů ve formě částečně strukturované textu bude nejprve každý dokument automaticky klasifikován do určité kategorie. U finančních dokumentů budou extrahovány informace o dodavateli a odběrateli, datu splatnosti, jednotlivých položkách faktury (cena a popis), místu vydání faktury, číslu objednávky a faktury a také o čísle účtu a dalších platebních parametrech. U smluvních dokumentů se budou extrahovat informace o jednotlivých smluvních stranách (jména, adresy, ...), datu podpisu, typy smlouvy, závazcích smluvních stran a spisovém číslu dokumentu. Veškeré tyto informace je zatím možné efektivně získávat pouze ručně. Navrhovaný tým má v současnosti k dispozici vlastní podpůrné jazykové nástroje a v rámci projektu plánuje ověřit jejich efektivitu při zmíněných procesech automatické extrakce informací.

Publications

Total number of publications: 3

2018

Corpus Annotation Pipeline for Non-standard Texts

PELIKÁNOVÁ Zuzana NEVĚŘILOVÁ Zuzana

Article in Proceedings

Text, Speech, and Dialogue, 21st International Conference, TSD 2018, year: 2018
Recognition of OCR Invoice Metadata Block Types

HA Hien Thi HORÁK Aleš MEDVEĎ Marek NEVĚŘILOVÁ Zuzana

Article in Proceedings

Text, Speech, and Dialogue, 21st International Conference, TSD 2018, year: 2018

2017

Recognition of Invoices from Scanned Documents

HA Hien Thi

Article in Proceedings

RASLAN 2017 Recent Advances in Slavonic Natural Language Processing, year: 2017

10 reasons why you will fall in love with MU

Ask our ambassador

Read about research at MU

Project information
Ověření úspěšnosti technik zpracování přirozeného jazyka pro extrakci informací ze skenovaných dokumentů

Publications

2018

Corpus Annotation Pipeline for Non-standard Texts

Recognition of OCR Invoice Metadata Block Types

2017

Recognition of Invoices from Scanned Documents

10 reasons why you will fall in love with MU

Ask our ambassador

Read about research at MU

Project informationOvěření úspěšnosti technik zpracování přirozeného jazyka pro extrakci informací ze skenovaných dokumentů

Publications

2018

Corpus Annotation Pipeline for Non-standard Texts

Recognition of OCR Invoice Metadata Block Types

2017

Recognition of Invoices from Scanned Documents

Project information
Ověření úspěšnosti technik zpracování přirozeného jazyka pro extrakci informací ze skenovaných dokumentů