Korpusa lingvistiko

Korpusa lingvistiko aŭ korpuslingvistiko (angle: Corpora Linguistics aŭ mallonge ankaŭ kiel ldc) estas la studo de lingvaj fenomenoj (lingvaj regulecoj) uzante kolekton de kompareblaj tekstoj. Tiaj kolektoj de tekstoj estas nomataj korpusoj^[1].

Korpuso

Korpuso estas granda kolekto de lingvaj datumoj, ĝi povas esti (transskribita) parola aŭ desegnita lingvo, aŭ skriba teksto. Estas malsamaj manieroj por difini korpuson, sed kutime korpuso estas elektronike konservita por la celo figuri la koncernan lingvon.

Lingvo ne estas neŭtrala, ĉar ĝi esprimas subjektivecon, emociojn, opiniojn. Lingvo estas armilo de ofendo aŭ de defendo. La rilatoj kaj konfliktoj inter individuoj kaj inter kolektivoj pasas rekte kaj nerekte tra lingvo, kiu formiĝas ne nur en la eksplicita kontrasto de ideoj kaj valorsistemoj, sed ofte nekonscie flanke de la parolanto ankaŭ en la kaŝita dimensio de morfosintaksaj aspektoj aŭ semantiko. Komputila analizo do ofertas datumojn, ĝiajn lingvajn objektojn^[1].

Projekto Tatoeba

En 2006 aperis la retejo Tatoeba, kiu ebligas libere aldoni novajn kaj ŝanĝi ekzistantajn frazojn en pli ol 80 lingvoj, ankaŭ en Esperanto kun preskaŭ 700 000 frazoj^[2], interrilataj laŭ signifo. Ĉiu povas aldoni novajn frazojn kaj iliajn tradukojn, kaj se necese, senpage elŝuti ĉiujn aŭ parton de ĉiuj lingvaj korpusoj. Vidu ankaŭ sub Tekstaro de Esperanto.

Serĉiloj

Interesa serĉilo estis Wordtracker, kiu kolektas trafojn de la serĉiloj Dogpile kaj Metacrawler. Mikrosoft ankaŭ provizas senpagan servon similan al Google Trends nomata Ŝlosilvorta Prognozo (Keyword Forecast), kie oni povas kompari plurajn ŝlosilvortojn samtempe kaj ŝanĝi intereson pri ili sur diagramo tra la jaro. Ankaŭ Keyword.io estas serĉilo surbaze de pluraj retejoj (YouTube, Vikipedio, fotolia,..)

Tradukstudoj

Studoj pri tradukoj de L1 ĝis L2 baziĝas sur lingvaj trajtoj. Tradukstudoj estas gravaj ĉar ili montras kiel ideo en unu lingvo estas transdonita en alian lingvon. Ekzemple, la esplorado de Baker montris, ke tradukoj de L1 al L2 ofte estas normaligitaj kaj simpligitaj. Ankaŭ, tradukoj ofte estas eksplicitaj, do ili estas pli koheraj. Paralelaj korpusoj estas uzataj por tradukstudoj ĉar tio estas fidinda bazo por kontrastaj studoj.

Kvalito de tradukoj

Esploristoj kadre de korpusaj tradukstudoj provas evoluigi objektivajn ilojn por taksi la kvaliton de tradukoj. Komparante la originan lingvon kaj la cellingvon, oni serĉas la diferencojn inter ili por scii ĉu tiuj diferencoj povas esti uzataj kiel kvalitkriteriojn. Krome, elektronikaj korpusoj povas esti ekspluatataj por plibonigi la kvaliton^[3] ^[4].

Korpusa lingvistiko kaj ĝia programaro

En la pasinteco, vortaroj kaj gramatikoj baziĝis sur korpusoj, plejparte de eta grandeco. Ekde la dua duono de la 20-a jarcento, komputilaj teknologioj subtenas la korpusan lingvistikon helpe de aŭtomata tekst-analiza programaro, kies evoluo kaj ĉiam pli rapida disvastigo pligrandiĝis kaj daŭre vastigas la kapablon por kvanta kaj statistika kontrolado de tekstoj kaj ilia enhavo.^[5] Barbera 2013.^{[mankas fonto]}(Bonvolu krei Kategorio:Artikoloj kun senfontaj asertoj ekde 2013!) Metodologio naskita en la kampo de lingvistiko, la ldc estas de kelka tempo uzata ankaŭ de aliaj fakoj (sociologio, biologio, socia psikologio, literatura kritiko, literaturhistorio).^[1]

Aferoj kiuj estas ofte ekzamenataj estas la ofteco de certaj vortoj kaj la tipaj kuntekstoj en kiuj ili aperas. Ĉi tio estas ĝenerale farata ciferece nuntempe.