Zde se nacházíte:
Informace o publikaci
The Unreasonable Effectiveness of Pattern Generation
Autoři | |
---|---|
Rok publikování | 2019 |
Druh | Článek v odborném periodiku |
Časopis / Zdroj | TUGboat: The Communications of the TeX Users Group |
Fakulta / Pracoviště MU | |
Citace | |
www | |
Klíčová slova | hyphenation; pattern generation; word list database; multilingual typesetting; patgen |
Popis | Jazyky se neustále vyvíjejí, stejně jako jejich pravidla a potřeby dělení slov. Účinnost a užitečnost dělení slov TeX byla prokázána jeho použitím v téměř všech dnes používaných sazecích systémech. Aktuální vzory dělení slov v České republice byly vytvořeny v roce 1995 a nebyla zveřejněna použitá primární databáze rozdělených slov. Vyvinuli jsme a zveřejnili novou českou databázi slov a pomocí programu patgen jsme efektivně generovali nové efektivní české vzory dělení slov a hodnotili jejich generalizační kvality. Dosáhli jsme plného pokrytí tréninkovým datovým souborem 3?000?000 slov a vytvořili jsme ověřovací postup nových vzorů pro češtinu na základě testovací databáze 105?000 slov schválené lingvisty České akademie věd. Naše případová studie generování vzorů je příkladem praktického řešení rozšířeného problému se slovníkem. Studie prokázala univerzálnost, účinnost a rozšiřitelnost Liangova přístupu k dělení slov vyvinutého pro TeX. Nepřiměřená účinnost technologie vzorů vedla k aplikacím, které jsou a budou používány, a to i v širším měřítku, téměř 40 let po svém vzniku. |
Související projekty: |