Korpusa lingvistiko

Korpusa lingvistikokorpuslingvistiko (angle: Corpora Linguistics aŭ mallonge ankaŭ kiel ldc) estas la studo de lingvaj fenomenoj (lingvaj regulecoj) uzante kolekton de kompareblaj tekstoj. Tiaj kolektoj de tekstoj estas nomataj korpusoj[1].

Korpuso redakti

Korpuso estas granda kolekto de lingvaj datumoj, ĝi povas esti (transskribita) parola aŭ desegnita lingvo, aŭ skriba teksto. Estas malsamaj manieroj por difini korpuson, sed kutime korpuso estas elektronike konservita por la celo figuri la koncernan lingvon.

Lingvo ne estas neŭtrala, ĉar ĝi esprimas subjektivecon, emociojn, opiniojn. Lingvo estas armilo de ofendo aŭ de defendo. La rilatoj kaj konfliktoj inter individuoj kaj inter kolektivoj pasas rekte kaj nerekte tra lingvo, kiu formiĝas ne nur en la eksplicita kontrasto de ideoj kaj valorsistemoj, sed ofte nekonscie flanke de la parolanto ankaŭ en la kaŝita dimensio de morfosintaksaj aspektoj aŭ semantiko. Komputila analizo do ofertas datumojn, ĝiajn lingvajn objektojn[1].

Projekto Tatoeba redakti

En 2006 aperis la retejo Tatoeba, kiu ebligas libere aldoni novajn kaj ŝanĝi ekzistantajn frazojn en pli ol 80 lingvoj, ankaŭ en Esperanto kun preskaŭ 700 000 frazoj[2], interrilataj laŭ signifo. Ĉiu povas aldoni novajn frazojn kaj iliajn tradukojn, kaj se necese, senpage elŝuti ĉiujn aŭ parton de ĉiuj lingvaj korpusoj. Vidu ankaŭ sub Tekstaro de Esperanto.

Serĉiloj redakti

Interesa serĉilo estis Wordtracker, kiu kolektas trafojn de la serĉiloj Dogpile kaj Metacrawler. Mikrosoft ankaŭ provizas senpagan servon similan al Google Trends nomata Ŝlosilvorta Prognozo (Keyword Forecast), kie oni povas kompari plurajn ŝlosilvortojn samtempe kaj ŝanĝi intereson pri ili sur diagramo tra la jaro. Ankaŭ Keyword.io estas serĉilo surbaze de pluraj retejoj (YouTube, Vikipedio, fotolia,..)

Tradukstudoj redakti

Studoj pri tradukoj de L1 ĝis L2 baziĝas sur lingvaj trajtoj. Tradukstudoj estas gravaj ĉar ili montras kiel ideo en unu lingvo estas transdonita en alian lingvon. Ekzemple, la esplorado de Baker montris, ke tradukoj de L1 al L2 ofte estas normaligitaj kaj simpligitaj. Ankaŭ, tradukoj ofte estas eksplicitaj, do ili estas pli koheraj. Paralelaj korpusoj estas uzataj por tradukstudoj ĉar tio estas fidinda bazo por kontrastaj studoj.

Kvalito de tradukoj redakti

Esploristoj kadre de korpusaj tradukstudoj provas evoluigi objektivajn ilojn por taksi la kvaliton de tradukoj. Komparante la originan lingvon kaj la cellingvon, oni serĉas la diferencojn inter ili por scii ĉu tiuj diferencoj povas esti uzataj kiel kvalitkriteriojn. Krome, elektronikaj korpusoj povas esti ekspluatataj por plibonigi la kvaliton[3] [4].

Korpusa lingvistiko kaj ĝia programaro redakti

En la pasinteco, vortaroj kaj gramatikoj baziĝis sur korpusoj, plejparte de eta grandeco. Ekde la dua duono de la 20-a jarcento, komputilaj teknologioj subtenas la korpusan lingvistikon helpe de aŭtomata tekst-analiza programaro, kies evoluo kaj ĉiam pli rapida disvastigo pligrandiĝis kaj daŭre vastigas la kapablon por kvanta kaj statistika kontrolado de tekstoj kaj ilia enhavo.[5] Barbera 2013.[mankas fonto](Bonvolu krei Kategorio:Artikoloj kun senfontaj asertoj ekde 2013!) Metodologio naskita en la kampo de lingvistiko, la ldc estas de kelka tempo uzata ankaŭ de aliaj fakoj (sociologio, biologio, socia psikologio, literatura kritiko, literaturhistorio).[1]

Aferoj kiuj estas ofte ekzamenataj estas la ofteco de certaj vortoj kaj la tipaj kuntekstoj en kiuj ili aperas. Ĉi tio estas ĝenerale farata ciferece nuntempe.

Referencoj redakti

  1. 1,0 1,1 1,2 itale Francesca Socrate, La linguistica dei corpora. Linguaggio e conflitto, en: Zapruder, n-ro 52
  2. esperante Listo de sugestoj laŭ lingvoj
  3. france Rudy Loock, La traductologie de corpus, Villeneuve-d'Ascq, Presses universitaires du Septentrion, 2016
  4. angle Project Translation, Stanford Literary Lab
  5. angle Chiari 2007 https://www.euppublishing.com/doi/pdfplus/10.3366/cor.2012.0028

Vidu ankaŭ redakti

Komputa lingvoscienco

Tradukscienco

Maŝintradukado

Tradukmemoro

Tatoeba

Tekstaro de Esperanto