Literofteco
Literofteco estas la ofteco de la diversaj literoj de la alfabeto en teksto. Tia ofteco ege varias — unue de litero al litero ene de la apliko de specifa alfabeto por specifa lingvo, due la literoftecoj range malsamas de lingvo al lingvo. Ekzemple en Esperantaj tekstoj la plej ofta litero estas A. Tre malofta estas aliflanke la litero Ĥ. Kontraste, en Anglaj kaj Francaj[1] tekstoj la plej ofta litero estas E. Do oni devas pritrakti literoftecon por ĉiu lingvo aparte.
Graveco
redaktiKoni la literoftecon de lingvo estas utile, se oni volas malĉifri tre simplan litersubstituan ĉifron. La angla aŭtoro Arthur Conan Doyle lasas sian protagoniston Sherlock Holmes en la rakonto La aventuro de la dancantoj[Vidu 1] fari ĝuste tion.
La saman malĉifradan metodon oni povas apliki por solvi la proverboĉifrojn, kiuj iam kaj iam aperas en kelkaj E-gazetoj, ekz. Monato, La Gazeto. Tie kaŝiĝas konata proverbo malantaŭ simpla litersubstitua kodo. Jen ekzemplo:
Ω▼♀☺♣€₤ €→ †☼♂₤ #₤♫→§@☼Ø♣± €→ ∩ #♣Ω₤
Aldone estas menciinde, ke la Morsa kodo baziĝas sur la Anglaj literoftecoj. Pro tio la plej mallongdaŭra kodero — unusola punkto — estas uzata por la ege ofta litero E. Post tio venas — unusola streko — por T.
Literofteco rolis ankaŭ en la presado. En la epoko de pure meĥanika relieftipa presado la fakoj de la kompostkesto por la oftaj literoj devis enteni pli da tipoj por ĉiam povi komposti tutan paĝon. Do ĉiu tiama kompostisto tre konsciis pri literofteco.
Plie, literofteco rolas en la stenografio kaj, pli moderne, ĝi rolas — aŭ almenaŭ devus roli — en la aranĝo de klavaro por tajpi. Klavoj por oftaj literoj prefere troviĝu ie meze. La Dvoraka klavaro kaj kelkaj tiel nomataj ergonomiaj klavaroj strebas ĉi-direkte. Ili klopodas, interalie, per pli konvena klavarfasono helpi eviti la trouzan manartikan malsanon, je kiu multskribantoj ofte suferas.
Komputile, ankaŭ programetoj celantaj kunpremi tekstdosierojn atentas pri literofteco – aŭ ĉi-kaze, eble pli trafe – pri signo-ofteco.
Ankaŭ lude literofteco havas sian lokon. Kiel fabrikanto de la ludo Skrablo oni elektu la nombron da tegetoj laŭ ofteco kaj simile la nombron da poentoj por litertegeto laŭ malofteco. Lastvice, tiu, kiu ludas Pendigiston[Vidu 2] kaj parkere scias la oftecrangon de la literoj, povos ĉiam senpene pendigi sian tutan amikaron, mem divenante ĉiun prezentitan vorton.
Por kalkuli la oftecon de ĉiu litero, oni evidente devas nombri la ĉeestojn de ĉiu litero de la alfabeto en tre longa teksto — fakte, prefere en granda aro de tekstoj. Tiuj konsistigas la tekstkorpuson — do la specimenon esplorotan. Hodiaŭ oni faras tion ne plu permane, sed per komputilo.
Esperanto
redaktiLiterofteco
redaktiGrafikaĵo montranta oftecon de literoj en Esperanto laŭ studoj de Pejno Simono, Ottó Haszpra kaj David G. Simpson, kaj averaĝan oftecon kalkulitan laŭ tiuj tri studoj.
La sondaĵo de Pejno Simono efektiviĝis baze de la Esperanta enhavo en liaj tiamaj retejo kaj laborkomputilo ĉirkaŭ la jaro 2000. Jen dekstre troviĝas la ofteco en elcentoj en specimeno de 355 381 literoj. Ĝi entenis ĉefe artikolojn kaj rakontojn por la revuo Monato kaj por la tiama retejo (el Retarkivo 2005). Pro tio aperis ankaŭ ne-Esperantaj literoj en la specimeno.
Por la matematikistoj inter la legantoj, jen la konfidintervaloj por kelkaj oftecoj.
La interpreto de la maldekstra tabelo pri la konfidintervaloj malsekretas, ke la valoroj por R, S, L kaj T estas tiel proksimaj, ke oni ne povas fidi pri la ekzakta vicordo de la kvar.
Apenaŭ diverĝanta statistiko troviĝas en Informadika Aspekto de Interlingvisto Arkivigite je 2011-09-06 per la retarkivo Wayback Machine, plume de LIU Haitao baze de specimeno kun 496 196 literoj. La aŭtoro prezentas la sekvan tabelon pruntitan de Ottó Haszpra :
a | 12,59 | s | 5,91 | j | 2,71 | ĉ | 0,67 |
---|---|---|---|---|---|---|---|
i | 9,36 | t | 5,50 | v | 1,87 | z | 0,52 |
e | 8,99 | k | 4,22 | g | 1,28 | ŭ | 0,51 |
o | 8,80 | u | 3,36 | b | 1,15 | h | 0,50 |
n | 7,79 | m | 3,06 | f | 1,09 | ŝ | 0,35 |
l | 6,24 | d | 3,04 | c | 0,85 | ĵ | 0,15 |
r | 5,97 | p | 2,82 | ĝ | 0,69 | ĥ | 0,01 |
La plej grandan specimenon — kun ĉirkaŭ 21 647 000 literoj — esploris David G. Simpson en la jaro 2007 baze de granda tekstaro en la retejo de Bertilo Wennergren (Bertilo). La rezultoj kunmontriĝas en la diagramo komence de tiu ĉi artikolo. Ĝi liveris similajn valorojn.
Oni konstatu, ke depende de la specimenoj la precizaj valoroj varias de aŭtoro al aŭtoro.
Vortkomenca literofteco
redaktiLa literofteco de la vortkomencaj literoj normalokaze konsiderinde diverĝas de la ĝenerala literofteco. Por Esperanto en 2012 ĉi-tema statistikaĵo ne estis Interrete trovebla. Oni povas supozi tamen, ke la maloftaj literoj Ĉ kaj Ĝ pli ofte ĉeestas ol ĝenerale pro la ofteco de la vortoj ĉu, ĉiu, ĉi kaj ĝi. Jen rapida esploro[noto 1] de duone malnoveca beletra kaj duone revua tekstkorpuso.
Vortkomencaj literoj | |||
---|---|---|---|
litero | nombro | probablo | |
K | 35256 | 12.05% | |
L | 33874 | 11.58% | |
E | 22972 | 7.85% | |
P | 22799 | 7.79% | |
D | 21106 | 7.21% | |
M | 19160 | 6.55% | |
S | 18658 | 6.38% | |
A | 17779 | 6.08% | |
T | 14065 | 4.81% | |
N | 11884 | 4.06% | |
V | 10512 | 3.59% | |
F | 8597 | 2.94% | |
I | 8058 | 2.75% | |
R | 7802 | 2.67% | |
Ĉ | 6081 | 2.08% | |
B | 5445 | 1.86% | |
Ŝ | 4735 | 1.62% | |
O | 4633 | 1.58% | |
H | 4207 | 1.44% | |
J | 3974 | 1.36% | |
G | 3153 | 1.08% | |
Ĝ | 2586 | 0.88% | |
U | 2455 | 0.84% | |
C | 1611 | 0.55% | |
Z | 333 | 0.11% | |
Ĵ | 317 | 0.11% | |
W | 268 | 0.09% | |
Ĥ | 144 | 0.05% | |
Y | 46 | 0.02% | |
X | 34 | 0.01% | |
Q | 9 | 0.00% | |
Ŭ | 8 | 0.00% | |
El 292561 vortoj |
Vortfina literofteco
redaktiLa literofteco de la vortfinaj literoj normalokaze konsiderinde diverĝas de la ĝenerala literofteco. Por Esperanto en 2012 ĉi-tema statistikaĵo ne estis Interrete trovebla. Oni povas supozi tamen, ke la literoj A, E, I, J, L, M, N, O, S, U, kaj Ŭ estas plej oftaj. Ekzistas apenaŭ vortoj en teksto, kiuj ne tiel finiĝas. Jen rapida esploro[noto 1] de duone malnoveca kaj duone revua tekstokorpuso.
Vortfinaj literoj | |||
---|---|---|---|
litero | nombro | probablo | |
A | 44736 | 15.29% | |
O | 41269 | 14.11% | |
N | 37089 | 12.68% | |
J | 35399 | 12.10% | |
S | 33370 | 11.41% | |
E | 32608 | 11.15% | |
I | 25295 | 8.65% | |
L | 9524 | 3.26% | |
R | 8766 | 3.00% | |
U | 7730 | 2.64% | |
Ŭ | 4616 | 1.58% | |
M | 4293 | 1.47% | |
D | 2250 | 0.77% | |
T | 1627 | 0.56% | |
K | 838 | 0.29% | |
Ĉ | 527 | 0.18% | |
B | 472 | 0.16% | |
F | 380 | 0.13% | |
P | 300 | 0.10% | |
G | 259 | 0.09% | |
Y | 214 | 0.07% | |
V | 210 | 0.07% | |
H | 178 | 0.06% | |
W | 168 | 0.06% | |
C | 154 | 0.05% | |
Z | 123 | 0.04% | |
Ĥ | 80 | 0.03% | |
X | 41 | 0.01% | |
Ŝ | 19 | 0.01% | |
Ĝ | 13 | 0.00% | |
Ĵ | 13 | 0.00% | |
El 292561 vortoj |
Evidente okaze de Esperanto kun ĝiaj regulaj gramatikaj finaĵoj vortfina literofteco kaj senfinaĵa radikfina literofteco apenaŭ interrilatas.
Vortlongo
redaktiAnkaŭ pri la distribuo de vortlongoj estis en la jaro 2012 nenie trovebla Interrete. Mallonga esploro[noto 1] tamen liveras la sekvantan bildon. Tre interesa estas la intermonto ĉe la longo 4.
La longegaj vortoj nombritaj estis de facto ne Esperantaj vortoj. Temis pri Germanaj vortoj, kiuj aperis en iuj adresoj en la revuo Monato, kiu konsistigis parton de la korpuso.
Vortlongoj | |||
---|---|---|---|
longo | nombro | probablo | |
2 | 72841 | 24.90% | |
3 | 48607 | 16.61% | |
4 | 27408 | 9.37% | |
5 | 38472 | 13.15% | |
6 | 28373 | 9.70% | |
7 | 26217 | 8.96% | |
8 | 20119 | 6.88% | |
9 | 13123 | 4.49% | |
10 | 7978 | 2.73% | |
11 | 4403 | 1.50% | |
12 | 2285 | 0.78% | |
13 | 1352 | 0.46% | |
14 | 672 | 0.23% | |
15 | 328 | 0.11% | |
16 | 132 | 0.05% | |
17 | 52 | 0.02% | |
18 | 64 | 0.02% | |
19 | 39 | 0.01% | |
20 | 24 | 0.01% | |
21 | 17 | 0.01% | |
22 | 2 | 0.00% | |
23 | 1 | 0.00% | |
24 | 1 | 0.00% | |
28 | 1 | 0.00% | |
29 | 1 | 0.00% | |
El 292561 vortoj, mezuma vortlongo 4.85 literoj |
Korpusoj
redaktiRilate Esperanton estus eble aserti — kiom da korpusoj, tiom da rezultoj. Alivorte la literoftecoj dependas de la enhavo — do stilo kaj temo — de la esplorata korpuso. En Interreto estas plej ofte nur antikvaj senkopirajtaj tekstoj elŝuteblaj. Ne haveblaj estas tekstoj el modernaj revuoj. Aldone la skalo de temoj pritraktataj ne estas tre vasta.
Elstara ekzemplo de diverĝo estas la Esperanta traduko de Robinsono Kruso[2] En tiu sufiĉe ampleksa libro la plej ofta litero estas I kaj ne la A, kiun la plej multaj esplorantoj jam trovis baze de aliaj aŭ pli grandaj korpusoj. Unuavide tio estas pro tio, ke la pronomoj mi, li, ni kaj ili ege abundas ĉi-romane. Evidente, romano kun multe da dialogo — do tre oftaj frazoj kiel li diris — devas liveri aliajn rezultojn ol ekzemple scienca studo, kie la vorto mi tute ne okazas.
Surprize estas, ke la facile atingeblaj longegaj tekstoj tiugrade statistike diverĝas, ke tio influas eĉ la ĝeneralan literoftecon.
Aliaj Latinalfabetaj lingvoj
redaktiLiteroftecoj
redaktiJen grafikaĵo kaj ordigebla tabelo de la oftecoj de pluraj lingvoj.[Vidu 3]
La grafikaĵo montras la oftecon en 12 lingvoj de literoj laŭ la suba tabelo ordigitaj laŭ plej oftaj literoj entute. En unua linio aperas la 26 bazaj latinaj literoj. En dua linio aliaj literoj kun kromsignoj. En la pola literoj kun kromsignoj estas kalkulitaj kun la responda baza litero (ekzemple ł kun l )
Litero | esperanta [3] | hispana [4] | portugala [5] | itala [6] | franca [7] | angla | germana [8] | nederlanda [9] | sveda [10] | pola [11] | turka | finna [12] |
---|---|---|---|---|---|---|---|---|---|---|---|---|
a | 12.12% | 12.53% | 14.63% | 11.74% | 7.636% | 8.167% | 6.51% | 7.49% | 9.3% | 8.0% | 11.68% | 11.9% |
b | 0.98% | 1.42% | 1.04% | 0.92% | 0.901% | 1.492% | 1.89% | 1.58% | 1.3% | 1.3% | 2.95% | 0.06% |
c | 0.78% | 4.68% | 3.88% | 4.5% | 3.260% | 2.782% | 3.06% | 1.24% | 1.3% | 3.8% | 0.97% | 0.04% |
d | 3.04% | 5.86% | 4.99% | 3.73% | 3.669% | 4.253% | 5.08% | 5.93% | 4.5% | 3.0% | 4.87% | 0.85% |
e | 8.99% | 13.68% | 12.57% | 11.79% | 14.715% | 12.702% | 17.40% | 18.91% | 9.9% | 6.9% | 9.01% | 8.21% |
f | 1.03% | 0.69% | 1.02% | 0.95% | 1.066% | 2.228% | 1.66% | 0.81% | 2.0% | 0.1% | 0.44% | 0.06% |
g | 1.17% | 1.01% | 1.30% | 1.64% | 0.866% | 2.015% | 3.01% | 3.40% | 3.3% | 1.0% | 1.34% | 0.13% |
h | 0.38% | 0.70% | 1.28% | 1.54% | 0.737% | 6.094% | 4.76% | 2.38% | 2.1% | 1.0% | 1.14% | 1.83% |
i | 10.01% | 6.25% | 6.18% | 11.28% | 7.529% | 6.966% | 7.55% | 6.50% | 5.1% | 7.0% | 8.27%[a] | 10.64% |
j | 3.50% | 0.44% | 0.40% | 0.00% | 0.545% | 0.153% | 0.27% | 1.46% | 0.7% | 1.9% | 0.01% | 1.91% |
k | 4.16% | 0.01% | 0.02% | 0.00% | 0.049% | 0.772% | 1.21% | 2.25% | 3.2% | 2.7% | 4.71% | 5.34% |
l | 6.14% | 4.97% | 2.78% | 6.51% | 5.456% | 4.025% | 3.44% | 3.57% | 5.2% | 3.1% | 5.75% | 5.68% |
m | 2.99% | 3.15% | 4.74% | 2.51% | 2.968% | 2.406% | 2.53% | 2.21% | 3.5% | 2.4% | 3.74% | 3.30% |
n | 7.96% | 6.71% | 5.05% | 6.88% | 7.095% | 6.749% | 9.78% | 10.03% | 8.8% | 4.7% | 7.23% | 8.67% |
o | 8.78% | 8.68% | 10.73% | 9.83% | 5.378% | 7.507% | 2.51% | 6.06% | 4.1% | 7.1% | 2.45% | 5.24% |
p | 2.74% | 2.51% | 2.52% | 3.05% | 3.021% | 1.929% | 0.79% | 1.57% | 1.7% | 2.4% | 0.79% | 1.74% |
q | 0.00% | 0.88% | 1.20% | 0.51% | 1.362% | 0.095% | 0.02% | 0.009% | 0.007% | - | 0 | 0.00% |
r | 5.91% | 6.87% | 6.53% | 6.37% | 6.553% | 5.987% | 7.00% | 6.41% | 8.3% | 3.5% | 6.95% | 2.32% |
s | 6.09% | 7.98% | 7.81% | 4.98% | 7.948% | 6.327% | 7.27% | 3.73% | 6.3% | 3.8% | 2.95% | 7.85% |
t | 5.27% | 4.63% | 4.74% | 5.62% | 7.244% | 9.056% | 6.15% | 6.79% | 8.7% | 2.4% | 3.09% | 9.77% |
u | 3.18% | 3.93% | 4.63% | 3.01% | 6.311% | 2.758% | 4.35% | 1.99% | 1.8% | 1.8% | 3.43% | 5.06% |
v | 1.90% | 0.90% | 1.67% | 2.10% | 1.628% | 0.978% | 0.67% | 2.85% | 2.4% | - | 0.98% | 2.52% |
w | 0.00% | 0.02% | 0.01% | 0.00% | 0.114% | 2.360% | 1.89% | 1.52% | 0.03% | 3.6% | 0 | 0.01% |
x | 0.00% | 0.22% | 0.21% | 0.00% | 0.387% | 0.150% | 0.03% | 0.04% | 0.1% | - | 0 | 0 |
y | 0.00% | 0.90% | 0.01% | 0.00% | 0.308% | 1.974% | 0.04% | 0.035% | 0.6% | 3.2% | 3.37% | 1.79% |
z | 0.50% | 0.52% | 0.47% | 0.49% | 0.136% | 0.074% | 1.13% | 1.39% | 0.02% | 5.1% | 1.50% | 0 |
à | 0 | 0 | vidu a | vidu a | 0.486% | 0 | 0 | vidu a | 0.0% | 0 | 0 | 0 |
å | 0 | 0 | 0 | 0 | 0 | 0 | 0 | - | 1.6% | 0 | 0 | 0.00% |
ä | 0 | 0 | 0 | 0 | 0 | 0 | - | vidu a | 2.1% | 0 | 0 | 4.59% |
ą | 0 | 0 | 0 | 0 | 0 | 0 | - | 0 | vidu a | 0 | 0 | 0 |
œ | 0 | 0 | 0 | 0 | 0.018% | 0 | 0 | - | 0 | 0 | 0 | 0 |
ç | 0 | 0 | vidu c | 0 | 0.085% | 0 | 0 | - | 0 | 0 | 1.26% | 0 |
ĉ | 0.66% | 0 | 0 | 0 | 0 | 0 | 0 | - | 0 | 0 | 0 | 0 |
ć | 0 | 0 | 0 | 0 | 0 | 0 | - | 0 | vidu c | 0 | 0 | 0 |
è | 0 | 0 | 0 | vidu e | 0.271% | 0 | 0 | vidu e | 0.0% | 0 | 0 | 0 |
é | 0 | 0 | vidu e | vidu e | 1.904% | 0 | 0 | vidu e | 0.0% | 0 | 0 | 0 |
ê | 0 | 0 | vidu e | 0 | 0.225% | 0 | 0 | - | 0 | 0 | 0 | 0 |
ë | 0 | 0 | 0 | 0 | 0.001% | 0 | 0 | vidu e | 0 | 0 | 0 | 0 |
ę | 0 | 0 | 0 | 0 | 0 | 0 | - | 0 | vidu e | 0 | 0 | 0 |
ĝ | 0.69% | 0 | 0 | 0 | 0 | 0 | 0 | - | 0 | 0 | 0 | 0 |
ğ | 0 | 0 | 0 | 0 | 0 | 0 | 0 | - | 0 | 0 | 1.13% | 0 |
ĥ | 0.02% | 0 | 0 | 0 | 0 | 0 | 0 | - | 0 | 0 | 0 | 0 |
î | 0 | 0 | 0 | 0 | 0.045% | 0 | 0 | - | 0 | 0 | 0 | 0 |
ì | 0 | 0 | 0 | vidu i | 0 | 0 | 0 | vidu i | 0 | 0 | 0 | 0 |
ï | 0 | 0 | 0 | 0 | 0.005% | 0 | 0 | vidu i | 0 | 0 | 0 | 0 |
ı | 0 | 0 | 0 | 0 | 0 | 0 | 0 | - | 0 | 0 | 5.20%[13] | 0 |
ĵ | 0.12% | 0 | 0 | 0 | 0 | 0 | 0 | - | 0 | 0 | 0 | 0 |
ł | 0 | 0 | 0 | 0 | 0 | 0 | - | 0 | vidu l | 0 | 0 | 0 |
ñ | 0 | 0.31% | 0 | 0 | 0 | 0 | 0 | - | 0 | 0 | 0 | 0 |
ń | 0 | 0 | 0 | 0 | 0 | 0 | - | 0 | vidu n | 0 | 0 | 0 |
ò | 0 | 0 | 0 | vidu o | 0 | 0 | 0 | vidu o | 0 | 0 | 0 | 0 |
ö | 0 | 0 | 0 | 0 | 0 | 0 | - | vidu o | 1.5% | 0 | 0.87% | 0.49% |
ó | 0 | 0 | vidu o | 0 | 0 | 0 | - | vidu o | 0 | vidu o | 0 | 0 |
ŝ | 0.38% | 0 | 0 | 0 | 0 | 0 | 0 | 0 | - | 0 | 0 | 0 |
ş | 0 | 0 | 0 | 0 | 0 | 0 | 0 | - | 0 | 0 | 1.94% | 0 |
ś | 0 | 0 | 0 | 0 | 0 | 0 | - | 0 | vidu s | 0 | 0 | 0 |
ß | 0 | 0 | 0 | 0 | 0 | 0 | 0.31% | - | 0 | 0 | 0 | 0 |
ù | 0 | 0 | 0 | vidu u | 0.058% | 0 | 0 | vidu u | 0 | 0 | 0 | 0 |
ŭ | 0.52% | 0 | 0 | 0 | 0 | 0 | 0 | - | 0 | 0 | 0 | 0 |
ü | 0 | 0 | 0 | 0 | 0 | 0 | - | vidu u | 0 | 0 | 1.99% | 0 |
ź | 0 | 0 | 0 | 0 | 0 | 0 | - | - | 0 | vidu z | 0 | 0 |
ż | 0 | 0 | 0 | 0 | 0 | 0 | - | - | 0 | 0.7% | 0 | 0 |
Pliaj lingvoj estas troveblaj ĉe la Retejo de Stefan Trost Media. Tiuj baziĝas sur esploroj de korpusoj por testi Unikodon.
Literrangoj
redaktiJen la literranga vicordo de la unuaj dek plej oftaj literoj en kelkaj lingvoj.[Vidu 3]
Lingvo | vicordo | Branĉo | Familio |
---|---|---|---|
esperanta | aieon lsrtk | Planlingvo | Ĉefe influita de Latinidaj, Ĝermanaj lingvoj |
angla | etaoin shrdlu | Hindeŭropa | Ĝermana |
franca | esait nrulo[14] | Latinida | |
hispana | eaosr nidlc | ||
portugala | aeosr indmu | ||
itala | eaion lrtsc | ||
germana | enisr atdhu | Ĝermana | |
sveda | eantr slido | ||
nederlanda [15] | enati rodsl | ||
pola | aoiez nscwr | Slava | |
turka | aeinr lıdkm | Altaja | Tjurka |
finna | aitne sloku | Urala | Finno-ugra |
Ĉiuj ĉi lingvoj aplikas similan alfabeton el 25 literoj aŭ iom pli.
Vortkomencaj literoftecoj
redaktiLa Angla lingvo
redaktiJen la oftoj de specifa litero vortkomence por la Angla lingvo.[16] Por ordigi alklaku la respektivan titolon de la kolumno.
Litero | Proporcia ofteco de la vortkomenca litero de Angla vorto | |
---|---|---|
a | 11.602% | |
b | 4.702% | |
c | 3.511% | |
d | 2.670% | |
e | 2.000% | |
f | 3.779% | |
g | 1.950% | |
h | 7.232% | |
i | 6.286% | |
j | 0.631% | |
k | 0.690% | |
l | 2.705% | |
m | 4.374% | |
n | 2.365% | |
o | 6.264% | |
p | 2.545% | |
q | 0.173% | |
r | 1.653% | |
s | 7.755% | |
t | 16.671% | |
u | 1.487% | |
v | 0.619% | |
w | 6.661% | |
x | 0.005% | |
y | 1.620% | |
z | 0.050% |
Notinda estas la diverĝo inter la vortkomenca literofteco kaj la ĝenerala literofteco.
Vortfinaj literoftecoj
redaktiLa Angla lingvo
redaktiDenove, nur por la Angla kaj nur proksimume.
Vortfina literofteco en Angla vorto.[17]
Ofto | Unua litero |
17 | E |
11 | T |
10 | D |
9 | N, S |
8 | R, Y |
6 | F, L |
4 | G, O |
2 | H |
1 | A, K, M, P, U, W |
0 | B, C, I, J, Q, V, X, Z |
La tabelo eldiras, ke ekzemple la litero E 17-oble pli oftas ol ekzemple la litero A en la fina pozicio de vorto. La literoj sur la ŝtupo 0 praktike neniam finvorte ĉeestas.
Notinda estas la diverĝo inter la vortfina literofteco kaj la ĝenerala literofteco.
Vortlongoj
redaktiLa mezumaj vortlongoj de diversaj lingvoj estas troveblaj tie ĉi: Wordlengths (el Retarkivo 2007).
La aŭtoro donas la valoron 5.10 por la Angla kaj, inter multaj aliaj lingvoj, la valoron 5.23 por Esperanto. Bedaŭrinde ne estas klare, kiel nomiĝas la aŭtoro kaj same ne estas klare, kiel grandaj estis la analizitaj tekstkorpusoj — laŭŝajne temas pri tiamaj testtekstoj por provi Unikodon.[18]
Temas pri tre interesa komparo inter ĉirkaŭ 300 lingvoj, pluraj kun nelatinbazaj alfabetoj.
Ne-Latinalfabetaj lingvoj
redaktiLiteroftecoj
redaktiLa Rusa lingvo
redaktiLa tabelo sube eniĝis danke al Stefan Trost. La listo kreiĝis per Unikoda Nombrilo, funkcio integrigita en "WordCreator". La esploro baziĝis sur korpuso kun 1.351.370 signoj, (210.844 vortoj), el kiuj 1.086.255 literoj nombriĝis por la tabelo.[19] Baze de aliaj korpusoj evidente la valoroj povos iomete varii.
La tabelo maldekstra ordiĝas laŭ la alfabeto, la tabelo dekstra laŭ la ofteco de la literoj. Do, la literoj O, E kaj A estas la plej oftaj literoj en la Rusa lingvo.
Laŭ alfabeto | Laŭ ofto | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
|
|
La Greka lingvo
redaktiLa tabelo sube eniĝis danke al Stefan Trost. La listo kreiĝis per Unikoda Nombrilo, funkcio integrigita en "WordCreator". La esploro baziĝis sur korpuso kun 1.442.382 signoj (235.614 vortoj), el kiuj 1.161.745 literoj nombriĝis por la tabelo.[20] Baze de aliaj korpusoj evidente la valoroj povos iomete varii.
La tabelo maldekstra ordiĝas laŭ la alfabeto, la tabelo dekstra laŭ la ofteco de la literoj. Do, la literoj A, O kaj E estas la plej oftaj literoj en la Greka lingvo.
Laŭ alfabeto | Laŭ ofto | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
|
|
La Hebrea lingvo
redaktiLa tabelo sube eniĝis danke al Stefan Trost. La listo kreiĝis per Unikoda Nombrilo, funkcio integrigita en "WordCreator". La esploro baziĝis sur korpuso kun 1.230.923 signoj (279.679 vortoj), el kiuj 937.426 literoj nombriĝis por la tabelo.[21] Baze de aliaj korpusoj evidente la valoroj povos iomete varii.
La tabelo maldekstra ordiĝas laŭ la alfabeto, la tabelo dekstra laŭ la ofteco de la literoj. Do, la literoj י ה kaj ו estas la plej oftaj literoj en la Hebrea lingvo.
Laŭ alfabeto | Laŭ ofto | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
|
|
La Hindia lingvo
redaktiLa tabelo sube eniĝis danke al Stefan Trost. La listo kreiĝis per Unikoda Nombrilo, funkcio integrigita en "WordCreator". La esploro baziĝis sur korpuso kun 978.430 signoj (238.604 vortoj), el kiuj 736.216 literoj nombriĝis por la tabelo.[22] Baze de aliaj korpusoj evidente la valoroj povos iomete varii.
La tabelo maldekstra ordiĝas laŭ la alfabeto, la tabelo dekstra laŭ la ofteco de la literoj. Do, la literoj ा, क and े estas la plej oftaj literoj en la Hindia lingvo.
Laŭ alfabeto | Laŭ ofto | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
|
|
Vortlongoj
redaktiLa mezumaj vortlongoj ankaŭ de diversaj ne-Latinalfabetaj lingvoj estas troveblaj tie ĉi: Wordlengths (el Retarkivo 2007).
Bedaŭrinde ne estas klare, kiel nomiĝas la aŭtoro kaj same ne estas klare, kiel grandaj estis la analizitaj tekstkorpusoj — laŭŝajne temas pri tiamaj testtekstoj por provi Unikodon.[18]
Parencaj oftecoj
redaktiVortoftecoj
redaktiLa leĝo de Zipf
redaktiAlia ĉi-kampe interesa distribuado rilatas al la ofteco, ne de literoj, sed de tutaj vortoj en tekstkorpuso de specifa natura homa lingvo. La oftoj enrangiĝas — tamen nur proksimume — laŭ la Leĝo de Zipf[Vidu 4]. Laŭ ĝi la plej ofta vorto aperas duoble pli ofte ol la duarange plej ofta vorto.
En specifa korpuso el beletraĵoj montriĝis la sekva distribuo.
la 9864, kaj 4195, mi 3934, de 2819, li 2543, esti 2395, al 1969, ... ktp.[23]
La Leĝo de Zipf diras, ke, se oni ordigas la elementojn de ensemblo — ekzemple la vortojn de teksto — laŭ iliaj oftecoj kaj laŭe enrangigas ilin, la probablo de ĉeesto de specifa elemento p(n) rilatas proksimume al la inverso de ties rangonumero n. Jen la laŭa matematika formulado.
Do el la rangoj 1, 2, 3, 4, 5 ... iĝas 1, 1/2, 1/3, 1/4, 1/5 ... Do tiel — laŭ Zipf — rilatu la trovitaj porangaj nombroj aŭ porangaj probabloj inter si. La citita vortofteca listo sufiĉe bone obeas al tio.
Esperanto
redaktiMalmulte surprizas, ke okaze de Esperanto la estas la plej ofta vorto, sekvata eble de kaj. Tamen aliaj fontoj donas iomete aliajn vicordojn. Iam de dualokiĝas ankoraŭ antaŭ kaj.[24]
Jen la 30 plej oftaj vortoj laŭ Christopher Gledhill[25].
Ordo/vorto 1 la 2 de 3 kaj 4 en 5 al 6 mi 7 estas 8 ne 9 por 10 li 11 ke 12 pri 13 vi 14 ni 15 sed |
Ofteco 25528 12949 10046 5685 4472 4235 3804 3713 2925 2701 2633 2436 1918 1910 1908 |
% (8.2%) (4.1%) (3.2%) (1.8%) (1.4%) (1.4%) (1.2%) (1.2%) (0.9%) (0.9%) (0.8%) (0.8%) (0.6%) (0.6%) (0.6%) |
Ordo/vorto 16 estis 17 ili 18 kun 19 kiu 20 tiu 21 tio 22 el 23 pli 24 kiel 25 oni 26 ankaŭ 27 ĝi 28 per 29 sur 30 se |
Ofteco 1675 1500 1394 1390 1330 1229 1207 1201 1193 1178 1026 986 936 856 843 |
% (0.5%) (0.5%) (0.4%) (0.4%) (0.4%) (0.4%) (0.4%) (0.4%) (0.4%) (0.4%) (0.3%) (0.3%) (0.3%) (0.3%) (0.3%) |
Jen la unuarangaĵoj, do la probabloj de la plej oftaj vortoj, de vortofteca analizo baze de la tekstokorpuso jam enkondukita. La ankoraŭ prezentota programo[noto 1] produktis ĝin. Preciza informo pri la enkondukitaj vortklasoj troviĝas en la akompana priskribo de la programo.
Vortofteco (nur eltiraĵo) | |||
---|---|---|---|
vorto | nombro | probablo | |
la | 22800 | 7.79% | |
kaj | 11326 | 3.87% | |
de | 10218 | 3.49% | |
en | 5617 | 1.92% | |
esti | 5348 | 1.83% | |
mi | 4667 | 1.60% | |
al | 4592 | 1.57% | |
ne | 3444 | 1.18% | |
kiu | 3220 | 1.10% | |
li | 2997 | 1.02% | |
ke | 2628 | 0.90% | |
por | 2625 | 0.90% | |
ŝi | 2396 | 0.82% | |
vi | 2257 | 0.77% | |
tiu | 1938 | 0.66% | |
ĝi | 1864 | 0.64% | |
kun | 1847 | 0.63% | |
sed | 1718 | 0.59% | |
ili | 1669 | 0.57% | |
sia | 1500 | 0.51% | |
sur | 1432 | 0.49% | |
el | 1412 | 0.48% | |
diri | 1402 | 0.48% | |
pri | 1357 | 0.46% | |
pli | 1320 | 0.45% | |
per | 1316 | 0.45% | |
mia | 1297 | 0.44% | |
da | 1272 | 0.43% | |
povi | 1258 | 0.43% | |
tio | 1202 | 0.41% | |
ni | 1146 | 0.39% | |
kiel | 1102 | 0.38% | |
oni | 1036 | 0.35% | |
ĉi | 956 | 0.33% | |
ĉiu | 947 | 0.32% | |
aŭ | 932 | 0.32% | |
via | 842 | 0.29% | |
havi | 839 | 0.29% | |
El 292561 vortoj |
Rilate Esperanton specifa Fenton Stancliff pionire jam en 1932 okupiĝis pri tiu temo. Eĉ antaŭ li en 1927 laŭŝajne Sergej Rublov (Сергей Григорьевич Рублёв)[26] jam ĉi-teme esploris.
La Angla lingvo
redaktiJen simila listo por la Angla.[27] Notu, ke la vortoj estas la praformoj, do la formoj, kiuj enlistiĝas kapvorte en Angla vortaro. Tiel be entenas ankaŭ is, was, are, were, ktp. Aliflanke, I kaj me estas apartaj, kio de Esperanta vidpunkto ŝajnas esti iomete nekonsekvenca.
Montriĝas nur rangoj, ne probabloj.
|
|
|
|
|
Jen troviĝas tre simpla nur rudimenta Aŭka programo[Vidu 5] por kalkuli vortoftecojn: Calculate word frequencies. Pli profesia programo troviĝas fine de tiu ĉi artikolo.
Ciferoftecoj
redaktiPomalgrandaj prezoj
redaktiĈi-kadre estas ankaŭ menciinde, ke ne nur literoj en tekstoj montras specifan distribuon. Ankaŭ ciferoj en multaj ĉiutagaj aplikoj de numeroj montras kelkajn ekkoneblajn distribuojn. Evidente, la plej ofta lasta, do plej dekstra cifero de la prezoj en superbazaro estas la 9. Ĉio kostas 1,99€ kaj preskaŭ neniam 2,00€. Laŭ studo el 1997 publikigita en Marketing Bulletin:
- ĉirkaŭ 60% de prezoj en reklamoj finiĝis je la cifero 9.[28]
Verdire, por ekkoni tion ne necesas esti profesia statistikisto aŭ komisii ampleksan sciencan esploron.
La leĝo de Benford
redaktiTamen pli malmulte evidenta ekzemplo troviĝas en multaj kontoj de ĝenerala komerca kontado rilate la komencan ciferon de la enkontaĵoj. Ekzemple, tie ne estas tiel, ke ĉiuj ciferoj aperas same ofte en la plej maldekstra ciferloko de numero — normalokaze ili sekvas la tielnomatan Leĝon de Benford[Vidu 6]. Laŭ ĝi la cifero 1 aperas 30% ofte sed la cifero 9 nur malpli ol 5% ofte. Do koni la ĝustan atendatan distribuon de la unualokaj ciferoj kaj sekve ekkoni iujn strangajn diverĝojn helpas al revizoroj malkovri falsadon kaj fraŭdadon.
Numere la unualokaj ciferoj distribuiĝas laŭ la Leĝo de Benford kiel montrataj en la suba diagramo. Tie d estas la unualoka cifero kaj P(d) estas ties probablo.
d | P(d) | Proporcia grando de P(d) |
---|---|---|
1 | 30.1% | |
2 | 17.6% | |
3 | 12.5% | |
4 | 9.7% | |
5 | 7.9% | |
6 | 6.7% | |
7 | 5.8% | |
8 | 5.1% | |
9 | 4.6% |
Bonvolu noti, ke la Leĝo de Benford utildone aplikeblas nur, se la ensemblo de numeroj pritraktota estas sufiĉe granda, transpontas kelkajn grandordojn — do potencigojn de 10 — kaj prefere — sed ne senescepte — devenas de iu realviva praktika uzado.
Malantaŭ tiu ĉi distribuo de komencaj ciferoj de numeroj skribitaj laŭ dekuma numersistemo staras logaritmoj je la bazo 10. Jen la laŭa formulo.
Alivorte, tute ĝenerale, nombroj, kaj ties rilataj numeroj, distribuiĝas trans la tuta ebla skalo de numeraj valoroj, do la numerspaco, ne lineare, sed logaritme. El tio sekvas tiu ĉi iomete surpriza distribuo de numerkomencaj ciferoj.
Simila distribuo estas observebla por la kombino de la unuaj du ciferoj de la numeroj en granda ensemblo. Tamen, ju pli dekstre cifero staras ene de numero, des pli ĝia distribuo foras de Benford-aĵo kaj alproksimiĝas al plene lineara distribuo kun probablo de po 10% por ĉiu cifervaloro.
Tamen, defie al ĉiuj matematikistoj, ne en via loka superbazaro. Tie dekstre egege naŭas!
Aldonaĵo
redaktiAWK-programo — Oftecoj
redaktiPriskribo
redaktiJen Aŭka programo[Vidu 5] por mezuri ĉiujn la diskutitajn literajn kaj vortajn oftecojn en Esperanta tekstdosiero kodita laŭ la X-sistemo. Ĝi eligas sinsekvajn tabelojn kun histogramoj laŭnecese en la formatoj Askia, HTML-a kaj Vikitabela.[noto 1] por ĉiuj literaj kaj vortaj statistikaĵoj diskutitaj tie ĉi.
Jen:
- ĝenerala literofteco
- vortkomenca literofteco
- vortfina literofteco
- vortlonga distribuo kun averaĝa vortlongo
- vortofteco
En la sekcio BEGIN oni povas laŭplaĉe ŝalti kaj malŝalti la produktotajn statistikaĵojn kaj elekti, kiuj formatoj estu eligotaj. Normalokaze la liternombraj funkcioj de la programo bezonas nur kelkajn deksekundojn por analizi grandan tekstkorpuson. Tamen depende de la rapido de la komputilo kaj la grando de la tekstkorpuso la funkcio vortofteco povos bezoni kelkajn dekminutojn por finiĝi. Por unua testo oni eble lasu ĝin malŝaltita.
Rilate la vortoftecan funkcion, la difinitaj vortklasoj estas O-vortoj, A-vortoj, E-vortoj, verboj (sen participoj), ĉio alia.
Alivorte, pluraloj kaj akuzativoj kondukas al la baza O-a, A-a aŭ E-a formo. Simile pri vortoj kiel vin kaj tiujn, kiuj iĝas vi kaj tiu. La verbaj finaĵoj -as, -is, -os, -us kaj -u kondukas al -i. Verbaj participoj iĝas O-, A- aŭ E-vorto, do amantojn iĝas amanto kaj ne ami.
Por uzi, kopiu la programon per tiraĵo de la muso ene de la rulfenestro kaj tiam — enpoŝigi kaj elpoŝigi rekte de via krozilo en tekstdosieron — ekz oftecoj.awk — kaj eklanĉu per:
awk -f oftecoj.awk teksto.cx >rezultoj.cx
aŭ simile. Evidente, por tio necesas havi Aŭkon jam instalitan sur sia komputilo. Linuksaj kaj Uniksaj sistemoj havas jam Aŭkon ferdeke. Same (supozeble) pri Makintoŝo. Por Vindozaj sistemoj oni povas elŝuti la programon de la Gnu-a retejo. Aŭko estas rultempa interpretilo — alivorte ĝi digestas rekte fontaĵojn.
Notu, ke por konverti tekstojn el ekz. Unikodo al X-sistemo aplikeblas UniRed.
Tiel ĉiu povos kunmeti kaj esplori propran tekstkorpuson kaj produkti analizon de la vortkomenca literofteco, la vortfina literofteco, la ĝenerala literofteo, la distribuiĝo de vortlongoj kun mezuma vortlongo, kaj la vortofteco ene de la programo prezentita tekstkorpuso.
Programo
redaktiBEGIN {
# modifu lau neceso tie chi sube:
# dezirataj funkcioj - metu au 1 por jes au 0 por ne
LITEROFTECO = 1
KOMENCLITERA_OFTECO = 1
FINLITERA_OFTECO = 1
VORTLONGECO = 1
VORTOFTECO = 1 # dauros eble longe
# dezirataj eligaj formatoj - metu au 1 por jes au 0 por ne
FORMATO_ASCII = 1
FORMATO_HTML = 1
FORMATO_WIKI = 1
# esceptaj vortoj
NE_VERBO = "^(tiu|kiu|neniu|unu|c[x]u|c[x]iu)$"
NE_AEO_VORTO = "^(kaj|tuj|nun|kun|sen|ajn|plej|malplej|tamen|amen|kvin)$"
NE_ROMIA = "^(mil|((c|ci|cim|ĉ|div|divid|il|l|lic|lim|m|v|vic|vid|viv)i))$"
# eblus askau lili, livi kaj vili. Se vere ne tre probablaj.
start_time=systime(); # Forigu, se la funkcio systime() en via sistemo ne trovighas
# ==================================================================================
versio="Versio: 2012-01-18 17:00 Pejno Simono";
FS="[ \n\t\",.;:!?()]"; # ne tushu!
}
{
gsub(/[-]/,"");
for(i=1; i<=NF; i++)
if($i~/^[a-zA-Z][a-zA-Z]+$/) # Almenau du literoj
{
s=tolower($i);
if(s!~/^[ivxlcdm]+$/ || s~NE_ROMIA) # Ne Romia numero
{
n=0;
for(j=1; j<=length(s); ) # chiuj literoj
{
c=substr(s,j,1);
if (c~/^[cghjsu]/)
if (substr(s,j+1,1)=="x" && substr(s,j+2,1)!="x")
c=substr(s,j,2);
if(j==1)
unua[c]++; # unua literoj
litero[c]++;
literoj++;
j+=length(c); # transsaltu ikson
n++;
}
lasta[c]++; # lastaj literoj
if(n>1) # nur se vera sen-iksa longo > 1
{
longo[n]++; # vortlongoj
sum+=n;
vortoj++;
if(VORTOFTECO==1)
{
s=tolower($i); # chiuj vortoj
j=length(s);
if(j>2)
{
if(s!~NE_VERBO)
n=sub(/(as|is|os|us|u)$/,"i",s);
if(n==0 && s!~NE_AEO_VORTO)
sub(/(jn|j|n)$/,"",s);
}
vorto[s]++;
}
}
}
}
}
END {
UNUAJ=1;
LASTAJ=2;
CHIUJ=3;
LONGOJ=4;
VORTOJ=5;
ASCII=1;
HTML=2;
WIKI=3
asciiwidth=50; # steloj
htmlwidth=400; # pixel
wikiwidth=400; # pixel
if(LITEROFTECO>0)
{
if (FORMATO_ASCII>0) printout(CHIUJ,ASCII);
if (FORMATO_HTML>0) printout(CHIUJ,HTML);
if (FORMATO_WIKI>0) printout(CHIUJ,WIKI);
}
if(KOMENCLITERA_OFTECO>0)
{
if (FORMATO_ASCII>0) printout(UNUAJ,ASCII);
if (FORMATO_HTML>0) printout(UNUAJ,HTML);
if (FORMATO_WIKI>0) printout(UNUAJ,WIKI);
}
if(FINLITERA_OFTECO>0)
{
if (FORMATO_ASCII>0) printout(LASTAJ,ASCII);
if (FORMATO_HTML>0) printout(LASTAJ,HTML);
if (FORMATO_WIKI>0) printout(LASTAJ,WIKI);
}
if(VORTLONGECO>0)
{
if (FORMATO_ASCII>0) printout(LONGOJ,ASCII);
if (FORMATO_HTML>0) printout(LONGOJ,HTML);
if (FORMATO_WIKI>0) printout(LONGOJ,WIKI);
}
if(VORTOFTECO>0)
{
if(FORMATO_ASCII>0) printout(VORTOJ,ASCII);
if(FORMATO_HTML>0) printout(VORTOJ,HTML);
if(FORMATO_WIKI>0) printout(VORTOJ,WIKI);
}
if(start_time>0) print time_needed();
print versio;
}
function printout(mode,format)
{
if(mode==UNUAJ)
return printout2(mode,format,unua);
if(mode==LASTAJ)
return printout2(mode,format,lasta);
if(mode==CHIUJ)
return printout2(mode,format,litero);
if(mode==LONGOJ)
return printout2(mode,format,longo);
if(mode==VORTOJ)
return printout2(mode,format,vorto);
}
function printout2(mode,format,A)
{
setup(mode);
if(format==ASCII)
return printoutASCII(mode,A);
if(format==HTML)
return printoutHTML(mode,A);
if(format=WIKI)
return printoutWIKI(mode,A);
}
function setup(mode)
{
_col=2;
_asc=0;
_colhdr="litero";
_colalign="center";
_counted="vortoj";
_count=vortoj;
_mez=", mezuma vortlongo";
_mez2="literoj";
if(vortoj>0)
_av=sum/vortoj; # mezuma vortlongo
if(mode==UNUAJ)
{
_title="Vortkomencaj literoj";
return;
}
if(mode==LASTAJ)
{
_title="Vortfinaj literoj";
return;
}
if(mode==CHIUJ)
{
_title="Chiuj literoj";
_counted="literoj";
_count=literoj;
return;
}
if(mode==LONGOJ)
{
_title="Vortlongoj";
_col=1;
_asc=1;
_colhdr="longo";
return;
}
if(mode==VORTOJ)
{
_title="Vortofteco";
_colhdr="vorto";
_colalign="left";
}
}
function printoutASCII(mode,A, i,j,B,w,s,fmt)
{
if(_count<1)
{
print "file empty";
return;
}
i=sillysort(A,B,_col,_asc);
if(mode!=LONGOJ) # plej alta valoro
j=B[1,2]
else
j=getmax(B);
w=asciiwidth/j;
print "<" "pre>";
printf("=== %s ===\n\n",_title);
if(mode==VORTOJ)
fmt="%-20s\t%8s %s\n";
else
fmt="%-6s\t%8s %s\n";
printf(fmt,_colhdr,"nombro","probablo\n")
if(mode==VORTOJ)
fmt="%-20s\t%s %6.2f%% %s\n";
else
fmt="%-6s\t%s %6.2f%% %s\n";
for(j=1; j<=i; j++)
{
s=B[j,1];
if(mode!=VORTOJ)
s=toupper(s);
printf(fmt, s, thou(B[j,2],8), 100.0*B[j,2]/_count, hist(B[j,2]*w));
}
printf("\nEl %s %s", thou(_count,0), _counted);
if(mode==LONGOJ)
printf("%s %0.2f %s", _mez, _av, _mez2);
printf "\n</" "pre>\n\n";
}
function hist(w, s)
{
w-=0.5;
while(w-- > 0)
s=s "*";
return s;
}
function printoutHTML(mode,A, i,j,B,w,s)
{
if(_count<1)
{
print "file empty";
return;
}
i=sillysort(A,B,_col,_asc);
if(mode!=LONGOJ) # plej alta valoro
j=B[1,2]
else
j=getmax(B);
w=htmlwidth/j;
printf("<table border=1>\n");
printf("<tr><th colspan=4>%s</th></tr>\n",_title);
printf("<tr><td align=%s>%s</td><td align=right>nombro</td>", _colalign, _colhdr);
printf("<td align=center colspan=2>probablo</td>\n");
for(j=1; j<=i; j++)
{
s=B[j,1];
if(mode!=VORTOJ)
s=toupper(s);
printf("<tr><td align=%s><b>%s</b></td>", _colalign, s);
printf("<td align=right>%s</td>", thou(B[j,2]),0);
printf("<td align=right>%0.2f%%</td>", 100.0*B[j,2]/_count);
printf("<td align=left><div style=\"width:%dpx;",B[j,2]*w);
printf("height:2ex;background:blue;\"> </div></td>\n");
}
printf("<tr><th colspan=4>El %s %s", thou(_count,0), _counted);
if(mode==LONGOJ)
printf("%s %0.2f %s", _mez, _av, _mez2);
printf("</th></tr>\n");
printf("</table>\n\n");
}
function printoutWIKI(mode,A, i,j,B,w,s)
{
if(_count<1)
{
print "file empty";
return;
}
i=sillysort(A,B,_col,_asc);
if(mode!=LONGOJ) # plej alta valoro
j=B[1,2]
else
j=getmax(B);
w=100.0*j/_count;
w=wikiwidth/w;
printf("{| class=\"wikitable\"\n");
printf("! align=center colspan=4 | %s\n",_title);
printf("|-\n! align=%s | %s !! align=right | nombro !! align=right colspan=2 | probablo\n",_colalign,_colhdr);
for(j=1; j<=i; j++)
{
s=B[j,1];
if(mode!=VORTOJ)
s=toupper(s);
printf("|-\n| align=%s | <b>%s</b> ",_colalign,s);
printf("|| align=right | %s ", thou(B[j,2],0));
printf("|| align=right | {{bartable|%0.2f|%%|%0.3f}}\n", 100.0*B[j,2]/_count, w);
}
printf("|-\n! colspan=4 | El %s %s", thou(_count,0), _counted);
if(mode==LONGOJ)
printf("%s %0.2f %s", _mez, _av, _mez2);
printf("\n");
printf("|}\n\n");
}
function getmax(A, i,j,M)
{
for(i in A)
{
split(i, M, SUBSEP);
if(M[2]==2)
if(A[i]>j)
j=A[i];
}
return j;
}
function sillysort(A,B,col,asc, i,j,n,t)
{
for(j in A)
{
i++;
B[i,1]=j;
B[i,2]=A[j];
n=i;
if (asc==0) # desc
{
while(n>1 && B[n,col]+0>B[n-1,col]+0)
{
t=B[n-1,1]; B[n-1,1]=B[n,1]; B[n,1]=t;
t=B[n-1,2]; B[n-1,2]=B[n,2]; B[n,2]=t;
n--;
}
}
else # asc
{
while(n>1 && B[n,col]+0<B[n-1,col]+0)
{
t=B[n-1,1]; B[n-1,1]=B[n,1]; B[n,1]=t;
t=B[n-1,2]; B[n-1,2]=B[n,2]; B[n,2]=t;
n--;
}
}
}
return i;
}
function time_needed( h,m,s,eps)
{
eps=0.000001;
s=systime()-start_time;
m=int(s/60);
s-=m*60-eps;
h=int(m/60);
m-=h*60-eps;
return sprintf("Ruldauro (hms): %i:%02i:%02i\n",h,m,s);
}
function thou(v,n, s)
{
s=sprintf("%d_",v);
while(s~/[0-9][0-9][0-9][0-9]/) # Eleganta
sub(/[0-9][0-9][0-9][,_]/, ",&",s); # Hmm, interesa
sub(/_/,"",s); # Do ne eleganta
while(length(s)<n)
s=" " s;
return s;
}
function _thou(v,n, i,j,s,t)
{
s=sprintf("%d",v);
for(i=length(s); i>0; i--)
{
t=substr(s,i,1) t;
if(++j%3==0)
t="," t;
}
while(length(t)<n)
t=" " t;
return t;
}
Vidu ankaŭ
redakti- ↑ The adventure of the dancing men, Esperanto-versio: La aventuro de la dancantoj
- ↑ Hangman Angla priskribo de Pendigisto
- ↑ 3,0 3,1 Fonto: Relative frequencies of letters in the English language kaj in other languages de la anglalingva Vikipedio.
- ↑ Zipf's Law
- ↑ 5,0 5,1 The AWK programming language
- ↑ Benford's Law
Notoj
redaktiReferencoj
redakti- ↑ Scienca junrevuo Les Débrouillards, aprilo 2005 (2006?), pri libroj
- ↑ Letter ranking.
- ↑ La Oftecoj de la Esperantaj Literoj. Alirita 2007-09-14.
- ↑ Fletcher Pratt, Secret and Urgent: the Story of Codes and Ciphers Blue Ribbon Books, 1939, pp. 254-255.
- ↑ Frequência da ocorrência de letras no Português. Alirita 2009-06-16.
- ↑ Simon Singh, Codici e Segreti, 1999, RCS, ISBN 88-17-12539-3
- ↑ CorpusDeThomasTempé (el Retarkivo 2008)
- ↑ Albrecht Beutelspacher, Kryptologie, 7. Aufl., Wiesbaden: Vieweg Verlagsgesellschaft, 2005, ISBN 3-8348-0014-7, p.10
- ↑ Letterfrequenties. Genootschap OnzeTaal. Alirita 2009-05-17.
- ↑ Simon Singh, Kodboken, 1999, Norstedts, ISBN 91-1-1300708-4
- ↑ Wstęp do kryptologii, counting [space] 17.2%, [dot point] 0.9%, [comma] 0.9% and [semicolon] 0.5%
- ↑ Matti Pääkkönen, Suomen yleiskielen kirjaintilastoja. Arkivita el la originalo je 2014-06-01. Alirita 2011-06-29. Arkivita kopio. Arkivita el la originalo je 2014-06-01. Alirita 2021-12-22.
- ↑ Vidu Turka "i" punkta kaj senpunkta (ı)
- ↑ tradicie oni uzas : 'esartinulop', parte pro la prononceblo Perec, Georges; Alphabets; Éditions Galilée, 1976
- ↑ Letterfrequenties. Genootschap OnzeTaal. Alirita 2008-12-26.
- ↑ Calculated from "Project Gutenberg Selections" available from the NLTK Corpora Arkivigite je 2009-09-22 per la retarkivo Wayback Machine
- ↑ Classical Cryptography Course (el Retarkivo 2010)
- ↑ 18,0 18,1 LinkedIn Patrick Hall[rompita ligilo] — Laŭŝajne temas aŭtore pri la lingvisto Patrick Hall, kiu multe okupiĝis pri Unikodo.
- ↑ Retejo Stefan Trost: la Rusa.
- ↑ Retejo Stefan Trost: la Greka.
- ↑ Retejo Stefan Trost: la Hebrea.
- ↑ Retejo Stefan Trost: la Hindia.
- ↑ Frekvencvortaro de Vjaĉeslav Slavik Ivanov
- ↑ Informadikaj aspektoj de Interlingvistiko Arkivigite je 2011-09-06 per la retarkivo Wayback Machine de LIU Haitao
- ↑ Gledhill, Christopher (1998): The Grammar of Esperanto. A corpus-based description. München: Lincom Europa, 151 p.. Arkivita el la originalo je 2011-07-19. Alirita 2012-01-08.
- ↑ La du plej oftaj vortoj: "la" kaj "kaj" – iom pri oftec-vortaroj laŭ Bernardo en blogo ĉe Iperno
- ↑ The OEC: Facts about the language Arkivigite je 2011-12-26 per la retarkivo Wayback Machine.
- ↑ The Widespread Use Of Odd Pricing In The Retail Sector, Marketing Bulletin, 1997, 8, Research Note 1, J Holdershaw, P Gendall and R Garland