Literofteco: Malsamoj inter versioj

[kontrolita revizio][kontrolita revizio]
Enhavo forigita Enhavo aldonita
e forigo de "Sageto al Enhavo"
Tie utila
Linio 2:
 
{{Aranĝu|aranĝo=maldekstra|__TOC__}}
{{Sageto al Enhavo}}
 
==Graveco==
[[Dosiero:Dancing men.png|300px|dekstra|eta|Parto de la ĉifraĵo en ''La dancantoj'']]
Linio 25:
 
<br clear=all />
{{Sageto al Enhavo}}
 
==Esperanto==
{{Sageto al Enhavo}}
 
===Literofteco===
Grafikaĵo montranta oftecon de literoj en [[Esperanto]] laŭ studoj de [[Pejno Simono]], [[Ottó Haszpra]] kaj [[David G. Simpson]], kaj averaĝan oftecon kalkulitan laŭ tiuj tri studoj.
Linio 118 ⟶ 119:
 
Oni konstatu, ke depende de la specimenoj la precizaj valoroj varias de aŭtoro al aŭtoro.
 
{{Sageto al Enhavo}}
 
===Vortkomenca literofteco===
Linio 193 ⟶ 196:
! colspan=4 | El 292561 vortoj
|}
 
{{Sageto al Enhavo}}
 
===Vortfina literofteco===
Linio 269 ⟶ 274:
Evidente okaze de Esperanto kun ĝiaj regulaj gramatikaj finaĵoj vortfina literofteco kaj senfinaĵa radikfina literofteco apenaŭ interrilatas.
 
{{Sageto al Enhavo}}
===Vortlongo===
Ankaŭ pri la distribuo de vortlongoj estis en la jaro 2012 nenie trovebla Interrete. Mallonga esploro<ref name="pejno" group="noto" /> tamen liveras la sekvantan bildon. Tre interesa estas la intermonto ĉe la longo 4.
Linio 332 ⟶ 338:
|}
 
{{Sageto al Enhavo}}
===Korpusoj===
Rilate Esperanton estus eble aserti &#151; kiom da korpusoj, tiom da rezultoj. Alivorte la literoftecoj dependas de la enhavo &#151; do stilo kaj temo &#151; de la esplorata korpuso. En Interreto estas plej ofte nur antikvaj senkopirajtaj tekstoj elŝuteblaj. Ne haveblaj estas tekstoj el modernaj revuoj. Aldone la skalo de temoj pritraktataj ne estas tre vasta.
Linio 339 ⟶ 346:
Surprize estas, ke la facile atingeblaj longegaj tekstoj tiugrade statistike diverĝas, ke tio influas eĉ la ĝeneralan literoftecon.
 
{{Sageto al Enhavo}}
==Aliaj Latinalfabetaj lingvoj==
{{Sageto al Enhavo}}
 
===Literoftecoj===
Jen grafikaĵo kaj ordigebla tabelo de la oftecoj de pluraj lingvoj.<ref name="enWP" group=Vidu>Fonto: ''Relative frequencies of letters [[:en:Letter frequency#Relative frequencies of letters in the English language|in the English language]]'' kaj ''[[:en:Letter frequency#Relative frequencies of letters in other languages|in other languages]]'' de la anglalingva Vikipedio.</ref>
Linio 553 ⟶ 561:
 
Pliaj lingvoj estas troveblaj ĉe la [http://www.sttmedia.com/characterfrequencies Retejo de ''Stefan Trost Media'']. Tiuj baziĝas sur esploroj de korpusoj por testi [[Unikodo]]n.
 
{{Sageto al Enhavo}}
 
===Literrangoj===
Linio 600 ⟶ 610:
Ĉiuj ĉi lingvoj aplikas similan alfabeton el 25 literoj aŭ iom pli.
 
{{Sageto al Enhavo}}
===Vortkomencaj literoftecoj===
 
===Vortkomencaj literoftecoj===
{{Sageto al Enhavo}}
====La Angla lingvo====
Jen la oftoj de specifa litero vortkomence por la Angla lingvo.<ref>Calculated from "Project Gutenberg Selections" available from the [http://nltk.googlecode.com/svn/trunk/nltk_data/index.xml NLTK Corpora]</ref> Por ordigi alklaku la respektivan titolon de la kolumno.
Linio 664 ⟶ 676:
Notinda estas la diverĝo inter la vortkomenca literofteco kaj la ĝenerala literofteco.
 
{{Sageto al Enhavo}}
===Vortfinaj literoftecoj===
 
===Vortfinaj literoftecoj===
{{Sageto al Enhavo}}
====La Angla lingvo====
Denove, nur por la Angla kaj nur proksimume.
Linio 698 ⟶ 712:
 
Notinda estas la diverĝo inter la vortfina literofteco kaj la ĝenerala literofteco.
 
{{Sageto al Enhavo}}
 
===Vortlongoj===
Linio 706 ⟶ 722:
Temas pri tre interesa komparo inter ĉirkaŭ 300 lingvoj, pluraj kun nelatinbazaj alfabetoj.
 
{{Sageto al Enhavo}}
==Ne-Latinalfabetaj lingvoj==
{{Sageto al Enhavo}}
 
===Literoftecoj===
{{Sageto al Enhavo}}
 
====La Rusa lingvo====
La tabelo sube eniĝis danke al [http://www.stefantrost.com/contact Stefan Trost]. La listo kreiĝis per Unikoda Nombrilo, funkcio integrigita en ''"WordCreator"''. La esploro baziĝis sur korpuso kun 1.351.370 signoj, (210.844 vortoj), el kiuj 1.086.255 literoj nombriĝis por la tabelo.<ref>[http://www.sttmedia.com/characterfrequency-russian Retejo Stefan Trost: la Rusa.]</ref> Baze de aliaj korpusoj evidente la valoroj povos iomete varii.
Linio 791 ⟶ 808:
</table>
</td></tr></table>
 
{{Sageto al Enhavo}}
 
====La Greka lingvo====
Linio 856 ⟶ 875:
</td></tr></table>
 
{{Sageto al Enhavo}}
====La Hebrea lingvo====
La tabelo sube eniĝis danke al [http://www.stefantrost.com/contact Stefan Trost]. La listo kreiĝis per Unikoda Nombrilo, funkcio integrigita en ''"WordCreator"''. La esploro baziĝis sur korpuso kun 1.230.923 signoj (279.679 vortoj), el kiuj 937.426 literoj nombriĝis por la tabelo.<ref>[http://www.sttmedia.com/characterfrequency-hebrew Retejo Stefan Trost: la Hebrea.]</ref> Baze de aliaj korpusoj evidente la valoroj povos iomete varii.
Linio 927 ⟶ 947:
</td></tr></table>
 
{{Sageto al Enhavo}}
====La Hindia lingvo====
La tabelo sube eniĝis danke al [http://www.stefantrost.com/contact Stefan Trost]. La listo kreiĝis per Unikoda Nombrilo, funkcio integrigita en ''"WordCreator"''. La esploro baziĝis sur korpuso kun 978.430 signoj (238.604 vortoj), el kiuj 736.216 literoj nombriĝis por la tabelo.<ref>[http://www.sttmedia.com/characterfrequency-hindi Retejo Stefan Trost: la Hindia.]</ref> Baze de aliaj korpusoj evidente la valoroj povos iomete varii.
Linio 1 064 ⟶ 1 085:
</table>
</td></tr></table>
 
{{Sageto al Enhavo}}
 
===Vortlongoj===
Linio 1 070 ⟶ 1 093:
Bedaŭrinde ne estas klare, kiel nomiĝas la aŭtoro kaj same ne estas klare, kiel grandaj estis la analizitaj tekstkorpusoj &#151; laŭŝajne temas pri tiamaj testtekstoj por provi Unikodon.<ref name=pathall />
 
{{Sageto al Enhavo}}
==Parencaj oftecoj==
{{Sageto al Enhavo}}
 
===Vortoftecoj===
{{Sageto al Enhavo}}
 
====La leĝo de Zipf====
Alia ĉi-kampe interesa distribuado rilatas al la ofteco, ne de literoj, sed de tutaj vortoj en tekstkorpuso de specifa natura homa lingvo. La oftoj enrangiĝas &#151; tamen nur proksimume &#151; laŭ la [[Leĝo de Zipf]]<ref group=Vidu>[[:en:Zipf's law|Zipf's Law]]</ref>. Laŭ ĝi la plej ofta vorto aperas duoble pli ofte ol la duarange plej ofta vorto.
Linio 1 089 ⟶ 1 113:
{{Parenteze|Grave estas unue difini tion, kio konsistigu vorton. En la supra listo evidente temas pri radikoj kaj ne pri vortoj &#151; do ''esti'' entenas ''esti, estas, estos, estis,'' ktp. Aldone, kio pri radikokombinaĵoj? Ĉu ''fervojo'' estu nur unu vorto aŭ eble du? Ĝuste en Esperanto la difino de tio, kio estu vorto, estas speciale malfacila. Ĉu ekzemple ''viro'' kaj ''viron'' estu unusama vorto? Kaj kio pri la pluraloj ''viroj'' kaj ''virojn''? Do la enklasigo endanĝeriĝas iĝi iomete arbitra &#151; do nur laŭ la kaprico de la esploristo.}}
 
{{Sageto al Enhavo}}
====Esperanto====
Malmulte surprizas, ke okaze de Esperanto ''la'' estas la plej ofta vorto, sekvata eble de ''kaj''. Tamen aliaj fontoj donas iomete aliajn vicordojn. Iam ''de'' dualokiĝas ankoraŭ antaŭ ''kaj''.<ref>[http://www.lingviko.net/db/11_Liu.htm Informadikaj aspektoj de Interlingvistiko] de [[LIU Haitao]]</ref>
Linio 1 194 ⟶ 1 219:
Rilate Esperanton specifa [[Fenton Stancliff]] pionire jam en [[1932]] okupiĝis pri tiu temo. Eĉ antaŭ li en [[1927]] laŭŝajne [[Sergej Rublov]] (Сергей Григорьевич Рублёв)<ref>[http://www.ipernity.com/blog/37943/204877 ''La du plej oftaj vortoj: "la" kaj "kaj" – iom pri oftec-vortaroj''] laŭ ''Bernardo'' en blogo ĉe [[Ipernity|Iperno]]</ref> jam ĉi-teme esploris.
 
{{Sageto al Enhavo}}
====La Angla lingvo====
Jen simila listo por la Angla.<ref name=langfacts>[http://oxforddictionaries.com/words/the-oec-facts-about-the-language The OEC: Facts about the language].</ref> Notu, ke la vortoj estas la praformoj, do la formoj, kiuj enlistiĝas kapvorte en Angla vortaro. Tiel ''be'' entenas ankaŭ ''is'', ''was'', ''are'', ''were'', ktp. Aliflanke, ''I'' kaj ''me'' estas apartaj, kio de Esperanta vidpunkto ŝajnas esti iomete nekonsekvenca.
Linio 1 347 ⟶ 1 373:
 
Jen troviĝas tre simpla nur rudimenta Aŭka programo<ref name="awk" group=Vidu /> por kalkuli vortoftecojn: [[:en:AWK#Calculate word frequencies|Calculate word frequencies]]. Pli profesia programo troviĝas fine de tiu ĉi artikolo.
 
{{Sageto al Enhavo}}
 
===Ciferoftecoj===
[[Dosiero:DEU VW-Currywurst 20 MSZ111114.jpg|200px|dekstra|Varoj en superbutiko]]
{{Sageto al Enhavo}}
 
====Pomalgrandaj prezoj====
Ĉi-kadre estas ankaŭ menciinde, ke ne nur literoj en tekstoj montras specifan distribuon. Ankaŭ ciferoj en multaj ĉiutagaj aplikoj de numeroj montras kelkajn ekkoneblajn distribuojn. Evidente, la plej ofta lasta, do plej dekstra cifero de la prezoj en [[superbazaro]] estas la ''9''. Ĉio kostas 1,99€ kaj preskaŭ neniam 2,00€. Laŭ studo el [[1997]] publikigita en ''Marketing Bulletin'':
Linio 1 358 ⟶ 1 386:
Verdire, por ekkoni tion ne necesas esti profesia statistikisto aŭ komisii ampleksan sciencan esploron.
 
{{Sageto al Enhavo}}
====La leĝo de Benford====
Tamen pli malmulte evidenta ekzemplo troviĝas en multaj kontoj de ĝenerala komerca kontado rilate la komencan ciferon de la enkontaĵoj. Ekzemple, tie ne estas tiel, ke ĉiuj ciferoj aperas same ofte en la plej maldekstra ciferloko de numero &#151; normalokaze ili sekvas la tielnomatan [[Leĝo de Benford|Leĝon de Benford]]<ref group=Vidu>[[:en:Benford's law|Benford's Law]]</ref>. Laŭ ĝi la cifero 1 aperas 30% ofte sed la cifero 9 nur malpli ol 5% ofte. Do koni la ĝustan atendatan distribuon de la unualokaj ciferoj kaj sekve ekkoni iujn strangajn diverĝojn helpas al revizoroj malkovri falsadan kaj fraŭdadon.
Linio 1 397 ⟶ 1 426:
 
Tamen, defie al ĉiuj matematikistoj, ne en via loka superbazaro. Tie dekstre egege naŭas!
 
{{Sageto al Enhavo}}
 
==Aldonaĵo==
{{Sageto al Enhavo}}
 
===AWK-programo &#151; Oftecoj===
{{Sageto al Enhavo}}
 
====Priskribo====
Jen Aŭka programo<ref name="awk" group=Vidu>[[:en:AWK|The AWK programming language]]</ref> por mezuri ĉiujn la diskutitajn literajn kaj vortajn oftecojn en Esperanta tekstdosiero kodita laŭ la [[X-sistemo]]. Ĝi eligas sinsekvajn tabelojn kun histogramoj laŭnecese en la formatoj [[ASCII|Askia]], [[HTML|HTML-a]] kaj [[:en:Help:Table|Vikitabela]].<ref name="pejno" group="noto" /> por ĉiuj literaj kaj vortaj statistikaĵoj diskutitaj tie ĉi.
Linio 1 432 ⟶ 1 463:
 
Tiel ĉiu povos kunmeti kaj esplori propran tekstkorpuson kaj produkti analizon de la vortkomenca literofteco, la vortfina literofteco, la ĝenerala literofteo, la distribuiĝo de vortlongoj kun mezuma vortlongo, kaj la vortofteco ene de la al la programo prezentita tekstkorpuso.
 
{{Sageto al Enhavo}}
 
====Programo====
Linio 1 837 ⟶ 1 870:
}}
 
{{Sageto al Enhavo}}
== Vidu aliloke ==
<references group=Vidu />
 
{{Sageto al Enhavo}}
== Notoj ==
{{Notoj}}
 
{{Sageto al Enhavo}}
 
==Referencoj==