Tutorial: Introduzione ai dati mancanti Imputazione

Ci sono altri metodi più avanzati che combinano le idee dei metodi di base che abbiamo discusso sopra. Il Predictive mean matching, ad esempio, combina l’idea dell’imputazione basata sul modello (imputazione di regressione) e del vicino (imputer KNN). In primo luogo, il valore previsto della variabile target Y viene calcolato in base a un modello specificato e un piccolo insieme di donatori candidati (ad esempio 3, 5) viene scelto tra casi completi che hanno Y vicino al valore previsto. Quindi, viene effettuato un sorteggio casuale tra i candidati e il valore Y osservato del donatore scelto viene utilizzato per sostituire il valore mancante.

Imputazioni multiple

L’imputazione media, mediana, modalità, imputazione regressione, imputazione regressione stocastica, imputer KNN sono tutti metodi che creano un singolo valore di sostituzione per ogni voce mancante. Imputazione multipla (MI), piuttosto che un metodo diverso, è più simile a un approccio/quadro generale di fare la procedura di imputazione più volte per creare diversi set di dati imputati plausibili. La motivazione chiave per utilizzare MI è che una singola imputazione non può riflettere la variabilità del campionamento sia dai dati del campione che dai valori mancanti.

Ulteriori informazioni sulla filosofia delle imputazioni multiple possono essere trovate in . In sintesi, MI rompe il problema di inferenza in tre fasi: imputazione, analisi e pooling. L’imputazione e l’analisi possono essere eseguite normalmente come nell’analisi standard, ma il raggruppamento dovrebbe essere fatto seguendo la regola di Rubin (Per i dettagli, vedi ). In breve, la regola di Rubin fornisce la formula per stimare la varianza totale che è composta dalla varianza all’interno dell’imputazione e dalla varianza tra imputazione.

Ci sono una varietà di algoritmi MI e implementazioni disponibili. Uno dei più popolari è MICE (imputazione multivariata da equazioni concatenate)(vedi ) e un’implementazione python è disponibile nel pacchetto fancyimpute.

Sommario

In questo tutorial, abbiamo discusso alcuni metodi di base su come compilare i valori mancanti. Questi metodi sono generalmente ragionevoli da utilizzare quando il meccanismo dei dati è MCAR o MAR.

Tuttavia, al momento di decidere come attribuire i valori mancanti in pratica, è importante considerare:

  • il contesto dei dati
  • quantità di dati mancanti
  • dati mancanti meccanismo

Per esempio, se tutti i valori sono al di sotto/sopra di una soglia di una variabile sono mancanti (un esempio di NMAR), nessuno dei metodi di imputare i valori di simile alla verità. In questo caso specifico, il modello di selezione di Heckman è più adatto da usare (per ulteriori informazioni vedere ).

Allison, Paul D. Dati mancanti. Vol. 136. Sage publications, 2001.

Azur, Melissa J., et al. “Imputazione multipla per equazioni concatenate: cos’è e come funziona?.”International journal of methods in psychiatric research 20.1 (2011): 40-49.E ‘ il momento di iniziare a lavorare. Analisi dei dati utilizzando modelli di regressione e multilivello / gerarchici. Cambridge university press, 2006, Ch 15: http://www.stat.columbia.edu/~gelman/arm/missing.pdf.

Heckman, James J. “La struttura comune dei modelli statistici di troncamento, selezione del campione e variabili dipendenti limitate e uno stimatore semplice per tali modelli.”Annals of Economic and Social Measurement, Volume 5, numero 4. NBER, 1976. 475–492.

Poco, Roderick JA, e Donald B. Rubin. Analisi statistica con dati mancanti. Vol. 793. John Wiley & Figli, 2014.

Rubin, Donald B. ” Inferenza e dati mancanti.”Biometrika 63.3 (1976): 581-592.

Van Buuren, Stef. Imputazione flessibile dei dati mancanti. Per maggiori informazioni:

Posted on

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.