Koje su mane imputiranja vrijednosti koje nedostaju sa srednjom?

Koje su mane imputiranja vrijednosti koje nedostaju sa srednjom?
Koje su mane imputiranja vrijednosti koje nedostaju sa srednjom?
Anonim

Srednja imputacija iskrivljuje odnose između varijabli Ali srednja imputacija također iskrivljuje multivarijantne odnose i utječe na statistiku kao što je korelacija. Na primjer, sljedeći poziv PROC CORR izračunava korelaciju između varijable Orig_Height i varijabli Weight i Age.

Zašto je korištenje srednje vrijednosti za podatke koji nedostaju loša ideja?

Mean smanjuje varijancu podataka Ući dublje u matematiku, manja varijanca dovodi do užeg intervala povjerenja u distribuciji vjerojatnosti[3]. To ne vodi ničemu drugom osim uvođenju pristranosti u naš model.

Zašto su nedostajuće vrijednosti problem?

Podaci koji nedostaju predstavljaju razne probleme. Prvo, odsutnost podataka smanjuje statističku snagu, što se odnosi na vjerojatnost da će test odbiti nultu hipotezu kada je netočna. Drugo, izgubljeni podaci mogu uzrokovati pristranost u procjeni parametara. Treće, može smanjiti reprezentativnost uzoraka.

Zašto je srednja imputacija loša?

Problem 1: Srednja vrijednost imputacija ne čuva odnose među varijablama. Istina, imputiranje srednje vrijednosti čuva srednju vrijednost promatranih podataka. Dakle, ako podaci potpuno nasumično nedostaju, procjena srednje vrijednosti ostaje nepristrana.

Trebate li zamijeniti podatke koji nedostaju srednjim?

Točke podataka izvan vrijednosti imat će značajan utjecaj na srednju vrijednost i stoga, u takvim slučajevima, ne preporučuje se korištenje srednje vrijednosti za zamjenu vrijednosti koje nedostaju. Korištenje srednjih vrijednosti za zamjenu vrijednosti koje nedostaju možda neće stvoriti sjajan model i stoga je isključeno.