Statistikai sukuria veiksmingą daugelio grupių didelės apimties duomenų palyginimo metodą

Tarnystė vyrams, kuri veikia. Nr. 1 (Birželis 2019).

Anonim

MANOVA (daugiafaktorinė dispersijos analizė) yra dažniausiai naudojamas statistinis duomenų analizės metodas, siekiant nustatyti, ar skirtingų duomenų grupių priemonės skiriasi. Tačiau klasikinis požiūris nėra tinkamas didelės apimties duomenų analizei. Didelio matmenų duomenys dažnai traukia tradicinius MANOVA metodus negaliojančiais, nes tradicinėje MANOVA atveju laikoma, kad matmuo yra fiksuotas ir turi būti daug mažesnis už pastabų skaičių. Didelio matmenų MANOVA nustatymo metu tai nebeteisinga. Prof ZHANG Jin-Ting iš Statistikos departamento ir taikomosios tikimybės, NUS ir jo daktaras. studentai sukūrė naują didelės apimties MANOVA metodą, kuris gali būti naudojamas palyginti kelių duomenų grupių, apimančių didelės apimties duomenis, efektyvumą.

Naujasis metodas atpalaiduoja daugybę matematinių sąlygų ir apribojimų, įvestų literatūroje. Vienas iš jų yra homoseksualumo prielaida. Ši prielaida yra matematinė būklė, kuri reikalauja, kad skirtingų grupių duomenys būtų tokie patys variantai. Jų naujas metodas taip pat išsprendžia skaičiavimo klausimus, susijusius su praktiniu "MANOVA" įgyvendinimu didelės apimties duomenims. Tai atlieka taikant kompiuteriu efektyvius aukšto lygio matricos skaičiavimus.

Nors jis yra plačiai taikomas ir gerai veikia daugeliui realių gyvenimo duomenų rinkinių, siūlomas metodas tam tikrose situacijose gali būti mažiau efektyvus, nes kintamųjų keitimo ir koreliacijos informacija nėra visiškai išnaudota. Analizuojant ragenos paviršiaus duomenis (žr. Paveikslėlį žemiau), apskaičiuojama atitinkama kovariacijos matrica, kurioje yra duomenys apie variacijos ir koreliacijos duomenis. Jei ragenos paviršių skaičius yra didesnis už ragenos paviršiaus matavimų skaičių, apskaičiuota kovariacijos matrica yra apverčiama, tai reiškia, kad bandymo statistiką galima gauti naudojant tradicinį MANOVA testą. Didelio masto aplinkoje tai neįmanoma, nes ragenos paviršių skaičius (150 =43 + 14 + 21 + 72 mėginiai) yra žymiai mažesnis nei matavimų skaičius (6 912 matmenys). Tačiau, variacijos ir koreliacijos informacija vis tiek iš dalies naudojama įvertinant bandymo statistikos parametrus. Profesorius Zhangas ir jo tyrinėtojų komanda tobulina statistinius metodus, kurie gali padėti susidoroti su tokiomis situacijomis.

menu
menu