Leksikografia ordo

Por samtitola artikolo vidu la paĝon Leksikografia ordo (matematiko).

La leksikografian ordon oni ne konfuzu kun alfabeta ordo, kiu koncernas nur malgrandan aron da literoj, dum la leksikografia ordo koncernas diverslongajn vortojn, da kiuj povas esti tre multe, miloj aŭ milionoj.

Leksikografia ordo estas uzata en vortaroj, enciklopedioj, diversaj datumbazoj (listoj da klientoj aŭ varoj ktp). Detaloj de la ordodifino varias laŭ la lingvoj kaj aplikoj.

Laŭkoda ordo redakti

La plej simpla varianto estas la matematikeca ordo leksikografia surbaze de la kodaj signonumeroj. Ekz-e

$ export LC_COLLATE=C; echo -e "arbo\nFundamento\nZamenhofo" | sort
Fundamento
Zamenhofo
arbo
$

(La kodnumeroj de la majuskloj en Askio antaŭas ĉiujn minusklojn; tial arbo aperas post la vortoj nomusklaj.)

Tian ordon oni ofte povas vidi en listoj da dosiernomoj entenataj en dosierujo. Interalie, iuj programistoj speciale nomas dosierujojn per vortoj kun komenca majusklo (kaj ordinarajn dosierojn minuskle), por ke la dosiernomoj aperu komence de la listo.

Ordo senuskla redakti

Tamen por iuj aplikoj pli oportunas ignori la usklon:

$ export LC_COLLATE=C; echo -e "arbo\nFundamento\nZamenhofo\nArbo" | sort -f
Arbo
arbo
Fundamento
Zamenhofo
$

Diakritaĵoj redakti

Ĉe la laŭkoda ordo litero kun diakrita signo trafas post ĉiujn signojn askiajn:

$ export LC_COLLATE=C; echo -e "sumo\nŝaŭmo\nsako\nzumo" | sort
sako
sumo
zumo
ŝaŭmo
$

Tamen eblas apliki nian ordon esperantan per indiko de esperanta lokaĵo LC_COLLATE=eo.UTF-8:

$ export LC_COLLATE=eo.UTF-8; echo -e "sumo\nŝaŭmo\nsako\nzumo" | sort
sako
sumo
ŝaŭmo
zumo
$

Aliflanke, en multaj lingvoj (interalie, angla, franca, germana) oni preferas ignori la diakritajn signojn:

$ export LC_COLLATE=en_US.UTF-8; echo -e "rôle\nrock\nrose" | sort
rock
rôle
rose
$ echo -e "sumo\nŝaŭmo\nsako\nzumo" | sort
sako
ŝaŭmo
sumo
zumo
$

Kurioze, la Universala Vortaro de Esperanto uzas ĝuste tian (nun por Esperanto tute arĥaikan) ordon angla-franca-germanan.

Cetere, iam oni bezonas atenti la diakritaĵojn por la vortoj kies bazaj signoĉenoj egalas; tiel ekz‑e en la franca:

$ export LC_COLLATE=fr_FR.UTF-8
$ echo -e "cote\ncoter\ncoté\ncôte\ncôté" | sort
cote
côte
coté
côté
coter
$

Grafemoj plurliteraj redakti

En iuj lingvoj oni donas apartan lokon al plurliteraj grafemoj; ekz-e en la ĉeĥa lingvo la duliteraĵo ch signas unu fonemon /x/, kaj estas traktata kiel unu grafemo, situanta inter h kaj i; tio estas tre simila al la esperanta surogata skribo, se oni uzas hh anstataŭ ĥ, kp:

cs: h < ch < i
eo: h < hh < i
eo: h < ĥ < i

Cetere, la ĉeĥa ordo leksikografia estas miksita: la dekstran kornon (kiu indikas longecon de vokalo) oni atentas duarange (á≈a); sed la dukorno kreas apartan literon: s<š<t, samkiel en Esperanto s<ŝ<t:

$ export LC_COLLATE=cs_CZ.UTF-8
$ echo -e "Ta\nEcho\nEgypt\nEjhle\nŠála\nSála\nSatira" | sort
Egypt
Echo
Ejhle
Sála
Satira
Šála
Ta
$

Vidu ankaŭ redakti