Tutorial: Introduktion til manglende data Imputation

der er andre mere avancerede metoder, der kombinerer ideerne om de grundlæggende metoder, som vi har diskuteret ovenfor. Forudsigelig middeltilpasning kombinerer for eksempel ideen om modelbaseret imputation (regressionsimputation) og nabobaseret (KNN imputer). For det første beregnes den forudsagte værdi af målvariablen Y i henhold til en specificeret model, og et lille sæt kandidatdonorer (f.eks. 3, 5) vælges blandt komplette tilfælde, der har Y tæt på den forudsagte værdi. Derefter foretages en tilfældig lodtrækning blandt kandidaterne, og den observerede y-værdi for den valgte donor bruges til at erstatte den manglende værdi.

flere imputationer

middelværdien, median, tilstandsimputation, regressionsimputation, stokastisk regressionsimputation, KNN imputer er alle metoder, der skaber en enkelt erstatningsværdi for hver manglende post. Multiple Imputation (MI), snarere end en anden metode, er mere som en generel tilgang/ramme for at gøre imputationsproceduren flere gange for at skabe forskellige plausible imputerede datasæt. Den vigtigste motivation til at bruge MI er, at en enkelt imputation ikke kan afspejle prøveudtagningsvariabilitet fra både prøvedata og manglende værdier.

mere om filosofien om flere imputationer kan findes i . Sammenfattende bryder MI inferensproblemet i tre trin: imputation, analyse og pooling. Imputationen og analysen kan udføres så normalt som i standardanalyse, men poolingen skal ske efter Rubins regel (for detaljer, se ). Kort sagt giver Rubins regel formlen til at estimere den samlede varians, der er sammensat af varians inden for imputation og varians mellem imputation.

der findes en række MI-algoritmer og implementeringer. En af de mest populære er mus (multivariat imputation ved kædede ligninger)(se ) og en python-implementering er tilgængelig i fancyimpute-pakken.

oversigt

i denne vejledning diskuterede vi nogle grundlæggende metoder til, hvordan man udfylder manglende værdier. Disse metoder er generelt rimelige at bruge, når datamekanismen er MCAR eller MAR.

når man beslutter, hvordan man beregner manglende værdier i praksis, er det vigtigt at overveje:

  • konteksten af dataene
  • mængde af manglende data
  • manglende datamekanisme

for eksempel, hvis alle værdier under/over en tærskel for en variabel mangler (et eksempel på NMAR), vil ingen af metoderne beregne værdier svarende til sandheden. I dette specifikke tilfælde er Heckmans udvælgelsesmodel mere egnet til brug (for mere se ).

Allison, Paul D. manglende data. Vol. 136. Sage publications, 2001.Melissa J., Et Al. “Flere Imputationer ved kædede ligninger: hvad er det, og hvordan fungerer det?.”International journal of methods in psychiatric research 20.1 (2011): 40-49.

Gelman, Andreas og Jennifer Hill. Dataanalyse ved hjælp af regression og multilevel / hierarkiske modeller. Cambridge university press, 2006, Ch 15: http://www.stat.columbia.edu/~gelman/arm/missing.pdf.

Heckman, James J. “den fælles struktur af statistiske modeller for trunkering, prøveudvælgelse og begrænsede afhængige variabler og en simpel estimator for sådanne modeller.”Annaler for økonomisk og Social måling, bind 5, nummer 4. NBER, 1976. 475–492.

lille, Roderick JA og Donald B. Rubin. Statistisk analyse med manglende data. Vol. 793. John Viley & Sønner, 2014.

Rubin, Donald B. ” Indledning og manglende data.”Biometrika 63.3 (1976): 581-592.

Van Buuren, Stef. Fleksibel beregning af manglende data. Chapman og Hall / CRC, 2018

Posted on

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.