Automatic Web Page Classification

Informace o publikaci

Název česky	Automatické určení domény a klíčových slov stránky
Autoři	MATERNA Jiří
Rok publikování	2008
Druh	Článek ve sborníku
Konference	Recent Advances in Slavonic Natural Language Processing
Fakulta / Pracoviště MU	Fakulta informatiky
Citace
www	https://nlp.fi.muni.cz/raslan/2008/papers/6.pdf
Obor	Informatika
Klíčová slova	automatic classification; machine learning; thesaurus
Popis	Cílem této práce je navrhnout a otestovat přístup, který umožní automatickou klasifikaci webových stránek do domén a určení klíčových slov stránky. Klasifikace stránek je založena na použití strojového učení. Hlavním problémem je však malý rozsah webových stránek, který užití metod strojového učení znesnadňuje. V práci jsou navrženy dva přístupy, které se snaží tento nedostatek minimalizovat. Prvním z nich je zohledňování širšího kontextu webové stránky, to znamená, že se analyzují i stránky, umístěné ve stejné internetové doméně, které jsou ze zkoumané stránky odkazovány. Druhou metodou je shlukování termů dokumentu na základě jejich podobného gramatického kontextu. Pro tyto účely je vytvořen poměrně rozsáhlý thesaurus a z něho shlukový slovník.
Související projekty:	Centrum komputační lingvistiky

Studijní programy