Statistika semantiko

Statistika semantiko estas la studo pri kiel la statistikaj ŝablonoj de vortuzado fare de homoj ebligas supozi tion kion la homoj volas diri, minimume je nivelo sufiĉa por aliro al la informo. Kiel eblas supozi kion vortoj signifas, simple per rigardado al ŝablonoj de vortoj en enormaj kolektoj de teksto? Kiuj estas la limoj al tiu aliro por komprenado de vortoj?

Historio

La esprimo "statistika semantiko" unue estis uzita fare de Warren Weaver (1955) en lia artikolo pri maŝintradukado. Li argumentis ke vorta senta malambiguigo por maŝintradukado devus esti bazita sur la kun-okaza ofteco de la kuntekstaj vortoj proksime de la donita cela vorto. La subesta supozo ke "vorto estas karakterizita per la marko kiun ĝi konservas" estis rekomendita fare de J. R. Firth (1957). Tiu supozo estas konata en lingvistiko kiel la distribua hipotezo. Delavenay (1960) difinis statistikan semantikon kiel statistika studo de signifoj de vortoj kaj ilia frekvenco kaj ordo de ripetiĝo. Laboro de George Furnas kaj aliaj (1983) estas ofte citata kiel fonda kontribuo al statistika semantiko. Frua sukceso en la kampo estis latenta semantika analizo.

Aplikoj de statistika semantiko

Esplorado en statistika semantiko gvidis al vasta aro de algoritmoj kiuj uzas la distribuan hipotezon por malkovri multajn aspektojn de semantiko, per uzado de statistikaj teknikoj por grandaj korpusoj:

Mezurado de simileco de vortosignifoj (Lund kaj aliaj, 1995; Landauer kaj Dumais, 1997; McDonald kaj Ramscar, 2001, Terra kaj Clarke, 2003)
Mezurado de simileco en vortaj rilatoj (Turney, 2006)
Modeligo de ĝeneraligado bazita sur simileco (Yarlett, 2008)
Malkovrado de vortoj kun donita rilato (Hearst, 1992)
Klasifikado de rilatoj inter vortoj (Turney kaj Littman, 2005)
Eltiro de ŝlosilvortoj el dokumentoj (Frank kaj aliaj, 1999; Turney, 2000)
Mezurado de kunligiteco de teksto (Turney, 2003)
Malkovrado de malsamaj signifoj de vortoj (Pantel kaj Lin, 2002)
Distingado de malsamaj signifoj de vortoj (Turney, 2004)
Subperceptaj aspektoj de vortoj (Turney, 2001)
Distingado de laŭdo kaj kritiko (Turney kaj Littman, 2003)

Rilataj kampoj

Statistika semantiko fokusas en la signifoj de oftaj vortoj kaj la rilatoj inter oftaj vortoj, male al tekstominado, kiu tendencas fokusiĝi je tutaj dokumentoj, dokumentaj kolektoj, aŭ nomitaj aĵoj (nomoj de homoj, lokoj, organizoj). Statistika semantiko estas subkampo de komputila semantiko, kiu estas subkampo de komputa lingvoscienco kaj komputila lingvistiko.

Multaj el la aplikoj de statistika semantiko (listigitaj pli supre) povas ankaŭ esti traktataj per leksiko-bazitaj algoritmoj, anstataŭe de la korpuso-bazitaj algoritmoj de statistika semantiko. Unu avantaĝo de korpuso-bazitaj algoritmoj estas ke ili tipe ne estas tiel laborintensaj kiel leksiko-bazitaj algoritmoj. Alia avantaĝo estas ke ili estas kutime pli facile adaptigeblaj al novaj lingvoj ol leksiko-bazitaj algoritmoj. Tamen, la plej bona prezento en apliko ofte estas atingata per kombinado de la du aliroj (Turney kaj aliaj, 2003).

Vidu ankaŭ

Eksteraj ligiloj

George Furnas Arkivigite je 2010-06-07 per la retarkivo Wayback Machine, Universitato de Miĉigano, Lernejo de Informo.
Susan Dumais
Thomas Landauer Arkivigite je 2011-09-29 per la retarkivo Wayback Machine
Peter Turney
Michael Ramscar^{[rompita ligilo]}
Demonstriloj de Dekang Lin^{[rompita ligilo]}
Demonstriloj de Patrick Pantel Arkivigite je 2007-08-01 per la retarkivo Wayback Machine
Ŝlosilfraza ekstraktilo de Kea
Reta ŝlosilfraza ekstraktilo Arkivigite je 2012-02-06 per la retarkivo Wayback Machine
McDonald, S. , kaj Ramscar, M. (2001). Testing the distributional hypothesis: The influence of context on judgements of semantic similarity - Testante la distributional hipotezon: La influo de kunteksto al juĝoj de semantika simileco.. En Proceedings of the 23rd Annual Conference of the Cognitive Science Society - Konferencartikoloj de la 23-a Annual Conference de la Rekonada Scienco-Socio, paĝoj 611-616.
Turney, P.D. (2006), Similarity of semantic relations. Computational Linguistics - Simileco de semantikaj rilatoj. Komputa lingvoscienco, 32(3), 379-416. OAI arXiv.org:cs/0608100^{[rompita ligilo]}