Informace o publikaci

Určování autorství anonymních textů na základě automaticky nalezených charakteristických znaků

Autoři

RYGL Jan

Rok publikování 2011
Druh Účelové publikace
Fakulta / Pracoviště MU

Fakulta informatiky

Citace
Popis Magisterská diplomová práce. V práci vycházíme z řady osvědčených postupů pro určování autorství anonymních dokumentů a vytváříme nové. Již existující a používané techniky kombinujeme, optimalizujeme a inovujeme pro tři hlavní úlohy: Automatické přiřazení autora podle dané množiny autorských dokumentů, Verifikace autorství daného dokumentu vybraným autorem, Shlukování dokumentů podle autorství. Námi implementované algoritmy jsou testovány na češtině, systém je však navržen modulárně a pokud vypustíme či nahradíme několik jazykově závislých komponent, lze v tuto chvíli pracovat s dokumenty napsanými v libovolném jazyce. Vše je naprogramováno ve skriptovacím jazyce Python. Součástí systému jsou i nástroje pro předzpracování vstupních dat pro češtinu a jejich správu v databázi PostgreSQL. Dalším přínosem práce kromě vývoje systému pro řešení tří zmíněných úloh jsou empiricky podložená pozorování, jak se chovají nejpoužívanější algoritmy na určování autorství dokumentů na dokumentech v češtině. Dosud se většina měření prováděla na anglicky psaných textech (knihy, novinové články, zřídka e-maily) a chyběla možnost srovnání při vývoji aplikací pro češtinu a jí podobné jazyky.
Související projekty:

Používáte starou verzi internetového prohlížeče. Doporučujeme aktualizovat Váš prohlížeč na nejnovější verzi.

Další info