Zde se nacházíte:
Informace o publikaci
Určování autorství anonymních textů na základě automaticky nalezených charakteristických znaků
Autoři | |
---|---|
Rok publikování | 2011 |
Druh | Účelové publikace |
Fakulta / Pracoviště MU | |
Citace | |
Popis | Magisterská diplomová práce. V práci vycházíme z řady osvědčených postupů pro určování autorství anonymních dokumentů a vytváříme nové. Již existující a používané techniky kombinujeme, optimalizujeme a inovujeme pro tři hlavní úlohy: Automatické přiřazení autora podle dané množiny autorských dokumentů, Verifikace autorství daného dokumentu vybraným autorem, Shlukování dokumentů podle autorství. Námi implementované algoritmy jsou testovány na češtině, systém je však navržen modulárně a pokud vypustíme či nahradíme několik jazykově závislých komponent, lze v tuto chvíli pracovat s dokumenty napsanými v libovolném jazyce. Vše je naprogramováno ve skriptovacím jazyce Python. Součástí systému jsou i nástroje pro předzpracování vstupních dat pro češtinu a jejich správu v databázi PostgreSQL. Dalším přínosem práce kromě vývoje systému pro řešení tří zmíněných úloh jsou empiricky podložená pozorování, jak se chovají nejpoužívanější algoritmy na určování autorství dokumentů na dokumentech v češtině. Dosud se většina měření prováděla na anglicky psaných textech (knihy, novinové články, zřídka e-maily) a chyběla možnost srovnání při vývoji aplikací pro češtinu a jí podobné jazyky. |
Související projekty: |