Analizo al precipaj konsisteroj

Analizo al precipaj konsisteroj (alinomita transformo de Karhunen-Loève (KLT), aŭ transformo de Hotelling) estas matematika teĥniko por plisimpligi la datumojn rezultantaj enkadre de statistiko multvariabla, kaj kiu ebligas evidentigi fenomenojn ial kaŝitajn en la komplekseco de multego da datumoj, determinante kunmetaĵojn da plej rezultivaj datumoj. Tiu metodo ne estis ebla ĝis la ekekzisto de komputiloj, ĉar ĝi bezonas egan amason da kalkulado, sed ekde informadiko, ĝi estas facila kaj fruktdona teĥniko, kiu ekzemple montris el la genaj datumoj de eŭropa loĝantaro la genetikan apartecon de la Eŭskoj de Ebro ĝis Garono, aŭ pruvi, ke la disvastiĝo de agrikulturo ne estis disvastiĝo de novkutimo, sed de gento da agrikulturantoj.

Analizo al precipaj konsisteroj de multvariebla normala distribuo centrata en (1,3) kun norma devio de 3 laŭ la direkto (0.878, 0.478), kaj de 1 laŭ la orta direkto. La montrataj vektoroj estas la ajgenvektoroj de la matrico de varianco- kunvarianco normigitaj per la kvadrata radiko de la dua ajgenvaloro, kaj ŝovitaj al la mezvaloro.

La analizo al precipaj konsisteroj estis inventita de Karl Pearson[1] en 1901. Ĝi estas la plej simpla multvariebla analizo aigenvektorbazita. Ĝi estas nun precipe uzata kiel ilo en esplora datumo analitiko kaj por prognozi modelojn. Eblas fari analizon al precipaj konsisteroj per ajgena malkomponaĵo de matrico de varianco-kunvarianco (aŭ de korelacio) de datenoj, aŭ per singulara valora malkomponaĵo de matrico de datenoj, kutime post centrigado rilate al la mezvaloroj (kaj normigado) de ĉiu elemento de la matrico. Ĝi estas orta transformo, kiu konvertas aron da observaĵoj de eblaj korelaciataj variabloj al aro de valoroj de precipaj konsisteroj (ankaŭ nomataj ĉefaj komponantoj), tielmaniere ke la unua precipa komponanto prezentas la kiel eble plej grandan variancon (ĉar variabloj estas supozitaj sendependaj laŭ tia metodo) laŭ sia direkto, la kiel eble plej malgranda varianco laŭ la orta direkto; ĉiu laŭvica komponanto havas la kiel eble plej granda varianco, sub la trudo, ke ĝi estu orta (t.e. ne-korelaciigita) al la antaŭa komponanto.

Tiu metodo permesas ankaŭ kompresadon de aro da N hazardaj variabloj, al la n-aj (n<N) unuaj komponantoj elektitaj kiel plej bonaj por priskribi la studaton.

Formulado pri statistikoRedakti

Konsideru   hazardajn variablojn  , kiuj estas centritaj rilate siaj atenditaj valoroj, t.e. pri kiuj iliaj atenditaj valoroj estas subtrahitaj de ĉiu el ili. Tiuj variabloj estas kunigitaj en unu   hazarda vektoro  . Tiu kolumna vektoro, tiel difinita, havas nulan vektoron kiel atenditan mezvektoron, kaj la  matrico de varianco-kunvarianco   estas simetria kaj pozitive difinita. La ajgenaj valoroj  ,  , de la matrico   estas ordigitaj laŭ siaj grandoj en diagonala matrico  . Iliaj respektivaj ajgenvektoroj faras la ortan matricon  , pri kiu:

 

La hazarda vektoro    estas lineare transformita tiel:

 

per kiu la precipaj konsisteroj estas kalkulataj. Oni vidas ĉi tie la limon de la metodo, kiu do koncernas nur linearajn kombinaĵojn pri multvarieblaj sistemoj. Keklfoje, por kompensi tian malavantaĝon, la influoj de apartaj variabloj estas modifiataj per multipliko de taŭgaj koeficientoj.

EkzemploRedakti

Konsideru ni tridimensian hazardan vektoron:

 .

La matrico de la ajgenoj de la matrico de varianco-kunvarianco   rilatante al   estas:

 

kie   .

Eblas kunigi la   kolumnajn vektorojn de ĉiu el le tri ajgenvektoroj   en unu matricon  :

 
 .

Per multipliko

 

sekvas la ekvacioj

 
 
 .

La varianco de   estas[2]

 

La precipa konsistero    estas la pli granda elemento de la variancaro de la datenoj,   estas la dua komponanto, ktp. La koeficientoj   ,  ;  , permesas kalkuli la efikojn de la variabloj    rilate al    komponanto. La matrico    indikas "kun kioma pezo, la variablo    influas la komponanton   ".

UzojRedakti

  • Pri statistika modelo kun multegaj parametroj, per analizo al precipaj konsisteroj, la elekto de la hazardaj variabloj de la modelo reduktiĝias, kaj permesas trakti kaj klarigi sufiĉe bone la konsideratan problemon.
  • Analizo de 11 sociekonomikaj indikiloj pri 96 landoj rivelas, ke la rezultoj priskribas landon kun alto grado, per nur 2 ĉefaj komponantoj, la unua estanta la tuta MEP de la lando, kaj la dua la indikilo pri la amplekso de ĝia kamparparto.
  • Por aĉetcentralo, tia analizo permesas koni la preferojn de konsumantoj laŭ iliaj sociaj statusoj, iliaj aĝoj aŭ iliaj familiaj statusoj. Tial, eblas kanaligi la reklamoj, kaj la produktojn al la taŭgaj klientoj.
  • Pri la traktado de bildoj, tia analizo estas uzata; aparte pri la distanca sondado, la bildoj de satelitoj estas analizataj, permesante observadon de iaj topografiaj evoluoj.
  • Danl'al analizo de vico de dinamikaj bildoj en nuklea medicino per scintigrafio, eblas detekti eventualan misfunkcion de koro aŭ de renoj.

ReferencojRedakti

  1. (angle) Pearson, K. . “On Lines and Planes of Closest Fit to Systems of Points in Space”, Philosophical Magazine (PDF) 2 (6), p. 559–572. : Pri plej bona alĝustigo de punktaro.
  2. (angle) Jonathon Shlens.A Tutorial on Principal Component Analysis. Arkivigite je 2010-02-15 per la retarkivo Wayback Machine Demonstro kial la ejgenvaloroj de la matrico de varianco-kunvarianco estas la variancoj de la transformitaj vektoroj.

Eksteraj ligilojRedakti