Korpuso: Malsamoj inter versioj

[nekontrolita versio][nekontrolita versio]
Enhavo forigita Enhavo aldonita
MastiBot (diskuto | kontribuoj)
e roboto aldono de: fi:Korpus
Xqbot (diskuto | kontribuoj)
Linio 1:
'''Korpuso''' (aŭ '''tekstaro''') estas aro da tekstoj aŭ transskribitaj konversacioj/paroloj, kiun oni uzas
kiel tuton por studo. [[komputiko|Komputado]] ne necesas,
sed tre faciligas la pretigon kaj uzon de tekstaroj. Ankaŭ
aro da parolregistraĵoj estas korpuso.
Linio 20:
 
En la preparo de korpuso oni laŭ la ebloj kaj celoj elektas
la kvantojn kaj specojn de tekstoj. Kvantojn oni mezuras
per vortnombroj. Tekstospecojn oni prefere variigas, se la
tekstaro estas por ĝenerala lingvesploro: gazetaĵoj,
beletraĵoj, sciencaj artikoloj, kompaniaj raportoj,
leteroj... male oni striktigas la elekton se la celo
specialas: leteroj kaj privataj dokumentoj se oni observas
spontanean parolon, politikaj paroladoj kaj komentoj se oni
Linio 35:
unuece indikitaj laŭ [[bibliografio|bibliografia]] normo,
kaj bazaj esplorrimedoj estu provizitaj: nombradoj,
[[indekso (datumbazo)|indeksoindeksoj]]j, [[serĉilo]]j...
 
Pro tio kaj ankaŭ por faciligi la komparon de rezultoj de
Linio 41:
prezentojn, ordinare surbaze de [[SGML|sgml]] aŭ
[[XML|xml]]. La ''tekstokoda iniciato'', mallonge ''tei'',
estas tia sufiĉe konata normo komencita en jaro [[1988]]. sed
ĝi ne estas la sola.
 
La lingvistikaj bezonoj ne limiĝas je haveblo de vortoj.
ofte lingvistoj bezonas pliajn informojn pri
[[vortspeco|vortklasovortklasoj]]j, [[vortrolo]]j aŭ aliaj
gramatikaĵoj, kaj ankaŭ aliaj sciencistoj pli facile
studas la temojn de tekstoj se antaŭanalizo estas
provizita. Tial oni distingas inter
'''senmarkaj tekstaroj''' el nudaj dokumentoj nur formate glatigitaj,
kaj '''markhavaj tekstaroj''' en kiuj vortojn, frazojn aŭ
aliajn erojn akompanas kritikaj informoj. La markojn oni
ĵargone nomas ''etikedoj''.
 
Linio 66:
kaj sekve aperas nur en hazardaj kuntekstoj. La sama
esploro super diversgrandaj tekstaroj ofte rezultas
malsimile. La ĝusta interpreto de tekstaraj esploroj do
komence facilas, sed baldaŭ necesigas almenaŭ prudenton,
kaj pli bone [[statistiko|statistikan]] kompetenton.
Linio 82:
vortklasaj markoj.
 
=== Esperanto ===
La plej grava tekstaro de Esperanto estas la [[Tekstaro de Esperanto]], kiu estas pure skriblingva kaj enhavas 4.266.767 da vortoj. Nuntempe [[ESF]] financas projekton por krei parollingvan korpuson (EPAK). Pli ampleksa ol la Tekstaro de Esperanto estas la Tekstaro de Eckhard Bick kun 18 milionoj da vortoj; ĝiaj tekstoj tamen estas malpli atenteme kolektitaj, kaj ghi havas multe malpli da serĉfunkcioj ol la Tekstaro de Esperanto.
 
== Eksteraj ligiloj ==
Linio 107:
[[fr:Corpus]]
[[gl:Corpus lingüístico]]
[[hi:पाठसंग्रह भाषाविज्ञान]]
[[it:Corpus]]
[[ja:コーパス]]