Kuidas analüüsida Pew Research Centeri uuringu andmeid R-is

Pew Research Center avaldab oma uuringuandmed avalikult IBM SPSS-failidena, mille laiend on .sav. Kuid kui teil pole SPSS-i juurdepääsu, on andmete analüüsimiseks ja kasutamiseks saadaval tasuta avatud lähtekoodiga tööriistu.

Isegi SPSS-põhise juurdepääsu korral nõuab küsitlusandmetega töötamine täiendavaid tööriistu või tehnikaid, et uuringu raskusi või muid keerulisi uuringu kujundamise funktsioone õigesti käsitseda. Analüüsid, mis ei võta neid kujundusomadusi arvesse, võivad anda kallutatud tulemusi ja üle hinnata hinnangute või statistiliste testide täpsust. Õnneks on seda tüüpi analüüside korrektseks läbiviimiseks vajalikud tööriistad R-statistika tarkvaraplatvormi kaudu vabalt saadaval.

See postitus pakub kiiret õpetust, kuidas keskuse küsitlusandmeid R. abil õigesti analüüsida. See on esimene juhuslikest postituste seeriatest, mille eesmärk on aidata teil uuringu andmekogumeid R abil analüüsida.

Mis on R?

R on statistiliste andmete ja graafika keel ja keskkond. R on saadaval vaba tarkvarana lähtekoodi kujul vastavalt Vaba Tarkvara Fondi GNU üldise avaliku litsentsi tingimustele. See kompileerib ja käitab mitmesuguseid UNIX-i platvorme ja sarnaseid süsteeme (sealhulgas FreeBSD ja Linux), Windows ja MacOS. R-i ja selle allalaadimise kohta lisateabe saamiseks külastage saiti r-project.org.

Selle postituse analüüs põhineb:
 - R
 - R Studio (R-keeles töötav avatud lähtekoodiga redaktor ja liides)
 - järgmised vabalt saadaval olevad R-pakendid:
· Välismaised
· Uuring
· Kuduja

Nende pakettide installimiseks kasutage järgmist koodi:

install.packages (c ("võõras", "uuring", "kuduja"))

Juurdepääs Pew Research Centeri andmetele

Paljud Pew Research Centeri uuringu andmestikud on allalaadimiseks saadaval keskuse veebisaidil vahekaardil „Andmekogujad”. Lisateavet selle kohta, milliseid andmeid keskus avaldab ja kuidas neile juurde pääseda, lugege sellest ajaveebi postitusest.

Peaaegu kõiki keskuses allalaaditavaid andmeid säilitatakse SPSS .sav-failidena. SPSS-failid sisaldavad sageli nii väärtusi kui ka väärtuste silte - näiteks 1 vabariiklaste jaoks, 2 demokraatide jaoks.

Selles õpetuses kasutatakse keskuse 2017. aasta aprilli poliitilise uuringu andmeid, mis keskendusid teemadele, sealhulgas ameeriklaste vaated riiklikele institutsioonidele ja nende usaldus valitsuse vastu.

Uuringu andmete laadimine R-sse

R-uuringu andmete analüüsimise esimene samm on andmefaili lugemine R-keskkonda. Kuna andmeid hoitakse .sav-failina, peate kasutama R-i välismaise paketi funktsiooni read.spss (). Allpool laadime esmalt paketi teegid ja loeme seejärel andmed andmekaadrisse, mida kutsume “Apr17”. Vaikimisi säilitab read.spss () kõik uuringuandmete muutujate ja väärtuste sildid, kuid see ei loo automaatselt data.raami, seega peame parameetri selgesõnaliselt määrama. Siin kasutame faili meie R keskkonda data.frame-na laadimiseks to.data.frame = TRUE.

 raamatukogu (välis)
 raamatukogu (uuring)
 raamatukogu (kuduja)
 Apr17 <- read.spss ("Apr17 public.sav", #fail tee andmestikku
                    to.data.frame = TRUE) # seab objekti andmeraami
## uuesti kodeerimine CP1252-st

Selle koodi käivitamisel saate hoiatuse muutujate kohta, millel pole silte iga kategooria jaoks (nt vanus). Nendel juhtudel lisab read.spss () vaikimisi need sildid. Kui otsite teistsugust käitumist, siis kontrollige lisa.undeclared.levels ().
 
 Enamik keskuse andmekogumite muutujaid - näiteks sugu, rass ja nii edasi - on kategoorilised. R-s nimetatakse seda tüüpi muutujaid teguriteks. Funktsiooni tabeli () abil saate teguri muutuja jaotust näha järgmiselt:

laud (17. aprilli pidu)
 ##
 ## vabariiklaste demokraat
 ## 375 466
 ## Sõltumatu Eelistusi pole (VOL.)
 ## 616 28
 ## Teine osapool (VOL.) Ei tea / keeldus (VOL.)
 ## 9 7

Uuringu kujunduse seadistamine

Järgmine samm küsitlusandmete analüüsimisel on R-i paketi „uuring” paketi svydesign funktsiooni kasutamine uuringu kujundusobjekti loomiseks. See samm on oluline, kuna selles on selgesõnaliselt kirjas uuringu ülesehitus, et kasutada hinnangute jaoks õigesti uuringu raskusi ja muid kujunduskomponente. Funktsioon svydesign aktsepteerib paljusid erinevaid keeruka uuringu kujunduse vorme. Funktsiooni kohta lisateabe saamiseks klõpsake siin.

Enamiku Pew Research Centeri uuringute, sealhulgas selles õpetuses kasutatud 2017. aasta aprilli andmestiku jaoks peavad kasutajad uuringu kujunduse deklareerimisel määrama kolm elementi:
 
 1. Klastri identifikaatorid ID-ga =. Peaaegu kõigil keskuse USA-põhistel uuringutel pole klastri tunnuseid. Kasutage valemit ~ 0, et näidata, et sellel uuringul pole klastrid.
 2. Uuringu andmestik andmetega =
 3. Uuringu kaalud kaaludega =

Apr17_design = svydesign (
         id = ~ 0, # valem näitab, et klastrid puuduvad
         data = Apr17, # see on andmekogum
         kaal = ~ kaal) # see on 'kaalu' muutuja
                            # Apr17 andmestikust

Hinnatakse sagedusi mõõdistusraskustega

Pärast uuringu kavandi deklareerimist saate kaalutud hinnangu saada funktsiooni svymean () abil. Svymean () põhiargumentideks on valem, mis tuvastab teid huvitava muutuja ja uuringu kujundusobjekti.

Funktsiooni svymean () saab kasutada kaalutud keskmiste, dispersioonide, suhete, summade ja muu arvutamiseks. Tagastatud statistika sõltub muutuja klassist, millele seda kutsutakse. Näiteks selleks, et hinnata president Donald Trumpi töökoha kinnitust (q1 - teguri muutuja), kasutage järgmist koodi:

svymean (~ q1, # muutuja hinnanguline
         disain = Apr17_design # uuringu objekt
                                #kujundatud svydesigniga ()
         )
 ## tähendab SE
 ## q1Kinnitage 0,394008 0,0144
 ## q1Kinnitage 0.542368 0.0147
 ## q1Ei tea / keelduti (vol.) 0,063624 0,0078

Trumpi ametikoha kinnitamise uurimiseks eri alarühmade vahel saate kasutada funktsiooni svyby (), mis arvutab andmestiku alamrühmade statistikat. Funktsiooni svymean () saab kasutada koos funktsiooniga svyby (), et arvutada kaalutud hinnangud muude tegurimuutujatega määratud andmete alamhulkadele. Kudujapaketi funktsioon kable () kuvab statistika tabelina.

Näiteks meeste ja naiste presidendivalimiste hindamiseks võite kasutada järgmist koodi:

q1_by_sex = svyby (~ q1, # muutuja hinnanguline
                   ~ sugu, # alamrühma muutuja
                   disain = Apr17_design,
                   FUN = svymean, #funktsioon kasutamiseks igas alarühmas
                   keep.names = FALSE # ei sisalda rida.nimesid
                                       # alamrühma muutuja jaoks
      )
 
 kuduja :: kable (q1_by_sex, numbrid = 2)

See postitus lihtsalt kriimustab pinda analüüsidega, mida saate uuringupaketiga R-s teha, kuid loodan, et sellest piisab, kui alustada. Tulevikus plaanime kirjutada R.-ga täiendavaid küsitlusandmete analüüsi ja visualiseerimise postitusi. Kui teil on selle postituse kohta küsimusi või kui teil on muid asju uuringuandmete ja R-i kohta, mida soovite teada saada, siis andke meile teate aadressil info@pewresearch.org.

Nick Hatley on Pew Research Centeri analüütik.