Title: The Unreasonable Effectiveness of Pattern Generation (English)
Title: Nepochopitelná efektivita generování vzorů dělení slov (Czech)
Author: Sojka, Petr
Author: Sojka, Ondřej
Language: English
Journal: Zpravodaj Československého sdružení uživatelů TeXu
ISSN: 1211-6661 (print)
ISSN: 1213-8185 (online)
Volume: 29
Issue: 1
Year: 2019
Pages: 73-86
Summary lang: English
Category: informatics
Summary: Languages are constantly evolving, and so are their hyphenation rules and needs. The effectiveness and utility of TeX's hyphenation have been proven by its usage in almost all typesetting systems in use today. The current Czech hyphenation patterns were generated in 1995, and no hyphenated word database was freely available. We have developed a new Czech word database and have used the patgen program to generate new effective Czech hyphenation patterns efficiently and evaluated their generalization qualities. We have achieved full coverage on the training dataset of 3,000,000 words, and developed a validation procedure of new patterns for Czech based on the testing database of 105,000 words approved by the Czech Academy of Science linguists. Our pattern generation case study exemplifies a practical solution to the widespread dictionary problem. The study has proven the versatility, effectiveness, and extensibility of Liang's approach to hyphenation developed for TeX. The unreasonable effectiveness of the pattern technology has led to applications that are and will be used, even more widely now, nearly 40 years after its inception. (English)
Summary: Jazyky se vyvíjí a spolu s nimi i jejich potřeby a pravidla dělení slov. Mechanismus vzorů dělení slov v TeXu převzala většina dnešních sazebních systémů, což prokazuje jeho efektivitu a užitečnost. Současné vzory dělení slov pro češtinu ale vznikly v roce 1995, kdy ještě neexistovala žádná volně šiřitelná databáze slov. Vyvinuli jsme novou českou databázi slov, použili jsme program patgen k vygenerování nových efektivních vzorů dělení slov pro češtinu a vyhodnotili jsme jejich generalizační schopnosti. Na trénovací datové sadě 3 milionů slov jsme dosáhli plného pokrytí. Dále jsme vyvinuli postup pro validaci nových vzorů dělení slov pro češtinu s využitím databáze 105 tisíc slov schválených lingvisty Akademie věd České republiky. Naše případová studie generování vzorů dělení slov představuje praktické řešení častého slovníkového problému. Studie dokazuje pružnost, efektivitu a rozšiřitelnost Liangova přístupu k dělení slov vyvinutého pro TeX. Nepochopitelná efektivita mechanismu vzorů dělení slov dala vzniknout aplikacím, které ho využívají i téměř 40 let po jeho vzniku. (Czech)
Keyword: hyphenation patterns
Keyword: patgen
Keyword: unreasonable effectiveness
Keyword: Czech
Keyword: patgen
Keyword: vzory dělení slov
Keyword: nepochopitelná efektivita
Keyword: čeština
DOI: 10.5300/2019-1-4/73
Date available: 2022-04-13T11:32:04Z
Last updated: 2024-12-15
Stable URL:
