Title:
|
Generování vzorů pomocí knihovny PatLib a programu OPatGen (Czech) |
Title:
|
Pattern Generation using PatLib Library and Program OPatGen (English) |
Author:
|
Antoš, David |
Author:
|
Sojka, Petr |
Language:
|
Czech |
Journal:
|
Zpravodaj Československého sdružení uživatelů TeXu |
ISSN:
|
1211-6661 (print) |
ISSN:
|
1213-8185 (online) |
Volume:
|
12 |
Issue:
|
1 |
Year:
|
2002 |
Pages:
|
3-12 |
Summary lang:
|
Czech |
. |
Category:
|
informatics |
. |
Summary:
|
Článek popisuje techniku generování vzorů jako prostředek pro získávání informace z rozsáhlých dat. Typickou aplikací této techniky je vytvoření časově i prostorově velmi efektivního algoritmu dělení slov ze seznamu již rozdělených slov. Doposud chyběl generátor vzorů dělení pro UNICODE (pro systémΩ) a rozšíření dosud užívaného programu PatGen, omezeného osmibitovým ASCII, nebylo již nadále únosné. Proto vyvíjíme knihovnu PatLib pro obecnou manipulaci se vzory a na ní postavený generátor vzorů dělení slov OPatGen. Popíšeme architekturu tohoto systému. Vzory lze použít i pro rozpoznávání hranic složených slov, proto zmíníme návrhy na rozšíření následníků TeXu o klasifikované dělení s více typy dělicích bodů a o automatické potlačování ligatur na švech složených slov. (Czech) |
Summary:
|
Paper describes technique of competing patterns as a method for data mining and effective storage. Development of time- and space-effective hyphenation algorithm from already hyphenated word list is a typical application. The program PatGen, being nearly twenty years old, doesn't suit today's needs (limitation to eight-bit encodings, monolithic, hard to maintain code, etc.). A new pattern generator, OPatGen, suitable for system Ω, has been designed and implemented from scratch in object-oriented manner. An architecture of OPatGen is outlined. It is based on genericlibrary PatLib for pattern handling. Possible applications of the pattern technology are listed (multi-level and compound word hyphenation, Thai segmentation, optical character recognition . (English) |
DOI:
|
10.5300/2002-1/3 |
. |
Date available:
|
2022-04-13T09:38:40Z |
Last updated:
|
2024-12-15 |
Stable URL:
|
http://hdl.handle.net/10338.dmlcz/149876 |
. |
Reference:
|
[1] Câmpeanu, Cezar, Sânteau, Nicolae, Yu, Sheng: Minimal cover-automata for finite languages.In Champarnaud et al. [2], pages 43-46. |
Reference:
|
[2] : Automata Implementation, Third International Workshop on Implementing Automata, WIA '98.Berlin, Heidelberg, 1999. Springer-Verlag. |
Reference:
|
[3] Antoš, David, Sojka, Petr: Generování vzorů dělení slov v UNICODE.Str. 23-32, Brno, Czech Republic, Feb 2001. Konvoj. |
Reference:
|
[4] : The New Oxford Dictionary of English.Oxford University Press, Oxford, 1998. |
Reference:
|
[5] Haralambous, Yannis: A Small Tutorial on the Multilingual Features of PATGEN2.in electronic form, available from CTAN as info/patgen2.tutorial, January 1994. |
Reference:
|
[6] Haralambous, Yannis, Plaice, John: Methods for Processing Languages with Omega.1997. available as http://genepi.louis-jean.com/omega/tsukuba-methods97.pdf |
Reference:
|
[7] Hars, Florian: Typo-I email discussion list.4 January 1999. |
Reference:
|
[8] Hein, Piet: Grooks.MIT Press, Cambridge, Massachusetts, 1966. |
Reference:
|
[9] Hofstadter, Douglas R.: Gödel, Escher, Bach: An Eternal Golden Braid.Basic Books, 1979. MR 0530196 |
Reference:
|
[10] Jiang, Tao, Salomaa, Arto, Salomaa, Kai, Yu, Sheng: Decision problems for patterns.Journal of Computer and Systems Sciences, 50(1):53-63, 1995. MR 1322633 |
Reference:
|
[11] Karttunen, Lauri, Gaál, Tamás, Kempe, André: Xerox finite-state tool.Technical report, Xerox research Centre Europe, Grenoble, June 1997. http://www.xrce.xerox.com/research/mltt/fssoft/docs/fst-97/xfst97.html. |
Reference:
|
[12] Knuth, Donald E.: The TeXbook.Addison-Wesley, Reading, MA, USA, 1986. |
Reference:
|
[13] Kornai, András: Extended Finite State Models of Language.Cambridge University Press, 1999. MR 1739880 |
Reference:
|
[14] Breitenlohner, Peter, Liang, Franklin M.: PATtern GENeration program for the TeX82 hyphenator.Electronic documentation of PATGEN programversion 2.3 fromweb2c distribution on CTAN, 1999. |
Reference:
|
[15] Mohri, Mehryar, Pereira, Fernando C. N., Riley, Michael D.: FSM Library - General-purpose finite-state machine software tools.FSM Library — General-purpose finite-state machine software tools, 1998. http://www.research.att.com/sw/tools/fsm/. |
Reference:
|
[16] Roche, Emmanuel, Schabes, Yves: Finite-State Language Processing.MIT Press, 1997. |
Reference:
|
[17] Sojka, Petr: Notes on Compound Word Hyphenation in TeX.TUGboat, 16(3):290–297, 1995. |
Reference:
|
[18] Sojka, Petr: Hyphenation on Demand.TUGboat, 20(3):241-247, 1999. |
Reference:
|
[19] Sojka, Petr: Competing Patterns for Language Engineering.Lecture Notes in Artificial Intelligence LNCS/LNAI 1902, pages 157–162, Brno, Czech Republic, Sep 2000. Springer-Verlag. |
Reference:
|
[20] Sojka, Petr, Ševeček, Pavel: Hyphenation in TeX - Quo Vadis?.TUGboat, 16(3):280–289, 1995. |
Reference:
|
[21] Turing, Alan: Computing machinery and intelligence.Mind, (59):433-460, 1950. MR 0037064 |
. |