Practical Web Crawling for Text Corpora

Suchomel,  Vít; Pomikálek,  Jan

Informace o publikaci

Practical Web Crawling for Text Corpora

Název česky	Praktické automatické stahování z webu pro textové korpusy
Autoři	SUCHOMEL Vít POMIKÁLEK Jan
Rok publikování	2011
Druh	Článek ve sborníku
Konference	Proceedings of Recent Advances in Slavonic Natural Language Processing, RASLAN 2011
Fakulta / Pracoviště MU	Fakulta informatiky
Citace	SUCHOMEL, Vít a Jan POMIKÁLEK. Practical Web Crawling for Text Corpora. In A. Horák, P. Rychlý. Proceedings of Recent Advances in Slavonic Natural Language Processing, RASLAN 2011. Brno: Tribun EU, 2011, s. 97-108. ISBN 978-80-263-0077-9.
www	https://nlp.fi.muni.cz/raslan/2011/paper09.pdf
Obor	Informatika
Klíčová slova	crawler; web crawling; corpus; web corpus; text corpus
Popis	SpiderLing -- automatický stahovač dokumentů z internetu pro lingvistiku -- je nový software pro tvorbu textových korpusů z webu, který uvádíme v tomto článku. Mnoho dokumentů na webu obsahuje pouze materiál, který není vhodný pro textové korpusy, jako seznamy seznamy odkazů, seznamy produktů a dalších druhy textů neskládající se z celých vět. Ve skutečnosti tyto stránky představují drtivou většinu webu. Nepřizpůsobeným stahováním jsme zpravidla získali velké množství dat, která byla odfiltrována při následném zpracování. To činí proces získávání webových textů neefektivním. Cílem naší práce je zaměřit se na stahování částí internetu bohatých na text a maximalizovat počet slov ve výsledném souboru na stažený megabyte. Prezentujeme předběžné výsledky dosažené při vytváření textových webových korpusů v češtině a tádžické perštině.
Související projekty:	Centrum komputační lingvistiky Pattern Recognition-based Statistically Enhanced MT Temporální aspekty znalostí a informací

Jak na přijímačky

Důležité termíny

Přečtěte si o výzkumu na MU

Jak na přijímačky

Důležité termíny

Přečtěte si o výzkumu na MU

Practical Web Crawling for Text Corpora