Tutorial: Introduction to Missing Data Imputation

on olemassa muita kehittyneempiä menetelmiä, joissa yhdistyvät edellä käsiteltyjen perusmenetelmien ideat. Ennakoiva keskiarvosovitus yhdistää esimerkiksi mallipohjaisen imputaation (regressioimputaatio) ja naapuripohjaisen (KNN imputer) idean. Ensin lasketaan tavoitemuuttujan Y ennustettu arvo määrätyn mallin mukaan ja valitaan pieni joukko luovuttajaehdokkaita (esim.3, 5) täydellisistä tapauksista, joissa Y on lähellä ennustettua arvoa. Tämän jälkeen ehdokkaiden kesken tehdään satunnainen arvonta ja valitun luovuttajan havaittua Y-arvoa käytetään puuttuvan arvon korvaamiseen.

Moniimputaatiot

keskiarvo, mediaani, moodiimputaatio, regressioimputaatio, stokastinen regressioimputaatio, KNN-imputointi ovat kaikki menetelmiä, joilla luodaan yksi korvausarvo jokaiselle puuttuvalle tietueelle. Multiple Imputation (mi), sen sijaan, että eri menetelmä, on enemmän kuin yleinen lähestymistapa/puitteet tehdä imputointi menettelyn useita kertoja luoda eri uskottava imputoitu tietokokonaisuuksia. Keskeinen syy MI: n käyttöön on se, että yksittäinen imputaatio ei voi heijastaa otosvaihtelua sekä otostiedoista että puuttuvista arvoista.

Lisää filosofiasta useita imputaatioita löytyy. Yhteenvetona MI jakaa päättelyongelman kolmeen vaiheeseen: imputointiin, analyysiin ja yhdistämiseen. Imputointi ja analysointi voidaan suorittaa yhtä normaalisti kuin standardianalyysissä, mutta poolaus tulee tehdä Rubinin säännön mukaisesti (tarkemmat tiedot, ks.). Lyhyesti sanottuna Rubinin sääntö antaa kaavan, jolla estimoidaan kokonaisvarianssi, joka koostuu imputaation sisäisestä varianssista ja imputaation välisestä varianssista.

on olemassa erilaisia MI-algoritmeja ja toteutuksia. Yksi suosituimmista on hiiret(multivariate imputation by chained equations) (ks.) ja python-toteutus on saatavilla fancyimpute-paketissa.

Yhteenveto

tässä opetusohjelmassa keskustelimme muutamista perusmenetelmistä puuttuvien arvojen täyttämiseksi. Näitä menetelmiä on yleensä järkevää käyttää, kun datamekanismi on MCAR tai MAR.

kuitenkin päätettäessä, miten puuttuvat arvot käytännössä imputoidaan, on tärkeää ottaa huomioon:

  • aineiston asiayhteys
  • puuttuvien tietojen määrä
  • puuttuva tietomekanismi

esimerkiksi, jos kaikki muuttujan kynnyksen alapuolella / yläpuolella olevat arvot puuttuvat (esimerkki NMAR: sta), mitkään menetelmät eivät imputoi totuutta vastaavia arvoja. Tässä erityistapauksessa Heckmanin valintamalli sopii paremmin käyttöön (katso lisää ).

Allison, Paul D. puuttuvat tiedot. Vol. 136. Sage publications, 2001.

Azur, Melissa J., et al. ”Multiple Imputation by chained equations: mitä se on ja miten se toimii?.”International journal of methods in psychiatric research 20.1 (2011): 40-49.

Gelman, Andrew ja Jennifer Hill. Data-analyysi regression ja monitasoisten/hierarkkisten mallien avulla. Cambridge university press, 2006, Ch 15: http://www.stat.columbia.edu/~gelman/arm/missing.pdf.

Heckman, James J. ”the common structure of statistical models of truncation, sample selection and limited dependent variabilities and a simple estimator for such models.”Annals of Economic and Social Measurement, 5. Osa, numero 4. Heinäkuuta 1976. 475–492.

Little, Roderick JA ja Donald B. Rubin. Tilastollinen analyysi puuttuvilla tiedoilla. Vol. 793. John Wiley & Sons, 2014.

Rubin, Donald B. ”Inference and missing data.”Biometrika 63.3 (1976): 581-592.

Van Buuren, Stef. Puuttuvien tietojen joustava imputointi. Chapman ja Hall/CRC, 2018

Posted on

Vastaa

Sähköpostiosoitettasi ei julkaista.