Korpuso: Malsamoj inter versioj
[nekontrolita versio] | [nekontrolita versio] |
Enhavo forigita Enhavo aldonita
e roboto aldono de: fi:Korpus |
Xqbot (diskuto | kontribuoj) e roboto aldono de: hi:पाठसंग्रह भाषाविज्ञान; cosmetic changes |
||
Linio 1:
'''Korpuso''' (aŭ '''tekstaro''') estas aro da tekstoj aŭ transskribitaj konversacioj/paroloj, kiun oni uzas
kiel tuton por studo.
sed tre faciligas la pretigon kaj uzon de tekstaroj. Ankaŭ
aro da parolregistraĵoj estas korpuso.
Linio 20:
En la preparo de korpuso oni laŭ la ebloj kaj celoj elektas
la kvantojn kaj specojn de tekstoj.
per vortnombroj.
tekstaro estas por ĝenerala lingvesploro: gazetaĵoj,
beletraĵoj, sciencaj artikoloj, kompaniaj raportoj,
leteroj...
specialas: leteroj kaj privataj dokumentoj se oni observas
spontanean parolon, politikaj paroladoj kaj komentoj se oni
Linio 35:
unuece indikitaj laŭ [[bibliografio|bibliografia]] normo,
kaj bazaj esplorrimedoj estu provizitaj: nombradoj,
[[indekso (datumbazo)|
Pro tio kaj ankaŭ por faciligi la komparon de rezultoj de
Linio 41:
prezentojn, ordinare surbaze de [[SGML|sgml]] aŭ
[[XML|xml]]. La ''tekstokoda iniciato'', mallonge ''tei'',
estas tia sufiĉe konata normo komencita en jaro [[1988]].
ĝi ne estas la sola.
La lingvistikaj bezonoj ne limiĝas je haveblo de vortoj.
ofte lingvistoj bezonas pliajn informojn pri
[[vortspeco|
gramatikaĵoj, kaj ankaŭ aliaj sciencistoj pli facile
studas la temojn de tekstoj se antaŭanalizo estas
provizita.
'''senmarkaj tekstaroj''' el nudaj dokumentoj nur formate glatigitaj,
kaj '''markhavaj tekstaroj''' en kiuj vortojn, frazojn aŭ
aliajn erojn akompanas kritikaj informoj.
ĵargone nomas ''etikedoj''.
Linio 66:
kaj sekve aperas nur en hazardaj kuntekstoj. La sama
esploro super diversgrandaj tekstaroj ofte rezultas
malsimile.
komence facilas, sed baldaŭ necesigas almenaŭ prudenton,
kaj pli bone [[statistiko|statistikan]] kompetenton.
Linio 82:
vortklasaj markoj.
=== Esperanto ===
La plej grava tekstaro de Esperanto estas la [[Tekstaro de Esperanto]], kiu estas pure skriblingva kaj enhavas 4.266.767 da vortoj. Nuntempe [[ESF]] financas
== Eksteraj ligiloj ==
Linio 107:
[[fr:Corpus]]
[[gl:Corpus lingüístico]]
[[hi:पाठसंग्रह भाषाविज्ञान]]
[[it:Corpus]]
[[ja:コーパス]]
|