Aŭtomata lingvorekono

Aŭtomata lingvorekono estas tasko de lingvokomputiko. Lingvorekona programo prognozas la lingvon de esplorata teksto.

Aplikoj

Lingvoidentigo utilas por ekzemple:

provizi servon en la oportuna lingvo al uzanto
klasigi tekstojn laŭ lingvoj
sciigi pri la lingvo de teksto alian lingvoanalizan programon

(literumilon, tradukprogramon), por ke ĝi ŝaltu la ĝustajn gramatikojn, vortarojn...

trovi fremdlingvajn partojn ene de teksto
...

Procedoj

Du precipaj procedoj estas uzataj por lingvorekono: la procedo per karakterizaj vortoj, kaj la procedo per litertrioj.

La procedo per karakterizaj vortoj konservas listojn de tipaj, oftaj vortoj de ĉiu koncerna lingvo. Analizante tekston, la programo komparas la liston de ĝiaj oftaj vortoj kun la vortlistoj karakterizaj de la diversaj konataj lingvoj.

La procedo per litergrupoj el ekzemplaj tekstoj kalkulas la oftecon de litergrupoj en ĉiu lingvo. (Ordinare oni uzas grupojn de unu ĝis kvin literoj, kelkfoje nur litertriojn, kiuj estas sufiĉe karakterizaj kaj ne tro multenombraj.) Eventuale, oni povas distingi vortkomencajn, vortmezajn kaj vortfinajn litergrupojn, ĉar ili ne same ofte aperas en lingvo. Ankaŭ relative krudaj listoj de litergrupoj, eĉ enhavantaj spacojn kaj interpunkciojn, efike priskribas la aspekton de aparta lingvo. Analizante tekston, programo uzanta ĉi procedon komparas la liston de ĝiaj oftaj litergrupoj kun literlistoj karakterizaj de la diversaj konataj lingvoj.

Efiko

Aŭtomata lingvorekono estas inter la plej facile sukcesaj aplikoj de lingvokomputiko. La ĉefa limigo estas, ke la programo facile eraras pri nekonataj lingvoj: ĝi diagnozos la plej similan lingvon inter la konataj, sed ĝi ne havas memevidentan bazon por respondi mi ne scias, kiu lingvo tio estas.

La procedo per karakterizaj vortoj estas la sola disponebla, se oni esploras tekstojn tra vortindeksoj, ekzemple tra ordinara interreta serĉilo. La procedo per litergrupoj preferindas en aliaj cirkonstancoj, ĉar ĝi kapablas rekoni la lingvon de pli mallongaj tekstoj, kaj ĉar ĝi povas jam "lerni" la aspekton de lingvo el relative malgrandaj samploj (50 kbo da teksto sufiĉas por bona rezulto, trans 2,5 Mbo da lerna samplo ĝi apenaŭ ankoraŭ trovos novajn litergrupojn).

Eksteraj ligiloj

http://odur.let.rug.nl/~vannoord/TextCat [en]