Introduktion til dataanalyse med R

Forfatter

Jacob Anhøj

Udgivet

3. januar 2023


R fra bunden er en et-dages workshop, hvor du lærer den grundlæggende syntaks og funktionalitet i programmeringssproget R.

Workshoppen henvender sig til dig, som arbejder med data og analyser til fx klinisk forskning eller kvalitetsudvikling, og som ønsker at automatisere dine analyser, så den samme analyse på de samme data giver det samme resultat – hver gang.

Mange R-brugere (mig selv inklusiv) har lært at udføre bestemte statistiske analyser med R efter “kogebogsmetoden” uden nødvendigvis at opnå større indsigt i den underliggende funktionalitet og de mange muligheder R-sproget rummer.

R fra bunden giver dig en grundlæggende forståelse for, hvordan R fungerer og sætter dig i stand til på egen hånd at udvikle dine R-kompetencer.

Indhold

På workshoppen lærer du at indlæse, bearbejde, analysere og visualisere data med R.

Efter workshoppen er du i stand til at arbejde effektivt i R-miljøet. Du kan udføre basale beregninger og dataanalyser, og du kan bruge R’s indbyggede dokumentation og hjælpefunktioner, når du vil vide mere.

Efter workshoppen har du en grundig forståelse af disse begreber:

  • Matematiske operatorer (+, -, /, *)
  • Logiske operatorer (&, |, >, <, ==, !)
  • Datatyper (logical, numeric, character)
  • Datastrukturer (vector, factor, list, data frame)
  • Ind- og udlæsning af data
  • Databehandling (filtrere, transformere, aggregere)
  • Datavisualisering

… og du kan skrive R-kode som denne:

Kode
# Indlæs data fra fil
d <- readRDS('data/mikrosundhed.rds')

# Vis data for de første 6 personer
head(d)
  id alder hoejde vaegt   helbred   koen ryger
1  1    19    174    64 Meget god Kvinde  TRUE
2  2    37    170    75       God   Mand  TRUE
3  3    35    170    60 Meget god Kvinde  TRUE
4  4    47    168    72    Dårlig Kvinde FALSE
5  5    24    171    55 Meget god Kvinde FALSE
6  6    26    180    66       God Kvinde    NA
Kode
# Beregn gennemsnitshøjden for mænd
mean(d$hoejde[d$koen == 'Mand'], na.rm = TRUE)
[1] 179.5798
Kode
# Beregn gennemsnitshøjden for kvinder
mean(d$hoejde[d$koen == 'Kvinde'], na.rm = TRUE)
[1] 166.914
Kode
# Test nulhypotesen, at mænd og kvinder i gennemsnit er lige høje
t.test(hoejde~koen, data = d)

    Welch Two Sample t-test

data:  hoejde by koen
t = 44.042, df = 2437.1, p-value < 2.2e-16
alternative hypothesis: true difference in means between group Mand and group Kvinde is not equal to 0
95 percent confidence interval:
 12.10182 13.22967
sample estimates:
  mean in group Mand mean in group Kvinde 
            179.5798             166.9140 
Kode
# Vis fordelingen af højde for mænd og kvinder i kassediagrammer
boxplot(hoejde~koen, data = d)

Form

Workshoppen rummer en blanding af oplæg og drøftelser i plenum og øvelser på egen PC. Workshoppen er 100% PowerPoint-fri og forudsætter en høj grad af deltagerinvolvering.

Forberedelse

Du skal medbringe en bærbar computer med en tidssvarende version af R (≥ 4.2.0) og RStudio (≥ 2022.02.0) installeret.

Hvis installationen volder problemer kan du måske finde hjælp i installationsvejledningen nederst på denne side.

Praktiske oplysninger

Datoer: …

Tid: 08:30-15:30

Sted: …

Forplejning: …

Tilmelding: …

Pris: …



Om …

… mig

Jeg er læge og har de seneste snart 20 år beskæftiget mig på fuld tid med patientsikkerhed og klinisk kvalitetsudvikling i almindelighed og brug af data til kvalitetsudvikling i særdeleshed. Jeg har benyttet R siden 1999 og har udviklet flere R-pakker til bl.a. statistisk kvalitetsudvikling.

Jacob Anhøj
Overlæge, DIT

🏡 anhoej.net

📧 jacob@anhoej.net

… R

R er et helstøbt og rigt programmeringssprog. Med R kan du bearbejde, analysere og visualisere data. Og hele processen kan automatiseres, så den kan gentages igen og igen med et enkelt “tryk på knappen”, når nye data bliver tilgængelige.

R kan ovenikøbet bruges til at skrive rapporter, bøger og hele hjemmesider, som samler data, analyser, grafer, tabeller og tekst i én arbejdsgang. Aldrig mere klippe-klistre, og aldrig mere bekymre sig om skrifttyper, indrykning, marginer osv. Hvis du sørger for indholdet, sørger R for alt det praktiske.

Inden træerne vokser helt ind i himlen, skal du være opmærksom på, at R er et programmeringssprog, der – ligesom alle andre sprog – kræver mere end almindelig interesse og vedholdenhed at lære. Men hvis du arbejder med data oftere end sjældent, er det besværet værd. Og hvem sagde “besvær”? At lære R er heldigvis ikke bare nyttigt, det er også sjovt.

… installation af R og RStudio

R kan hentes til Windows, macOS og Linux fra The Comprehensive R Archive Network (CRAN), https://cran.r-project.org/.

RStudio Desktop findes hos Posit, https://posit.co/download/rstudio-desktop/.

Installation af de to programmer forløber normalt problemfrit. Men hvis du benytter en arbejdscomputer med Windows og ikke har administratoradgang, skal du måske installere R og RStudio fra din arbejdsplads’ softwarebibliotek. Desværre er er det langtfra altid, at arbejdspladserne stiller tidssvarende versioner af programmerne til rådighed for sine medarbejdere. I så fald, kan du forsøge en lokal installation, som ikke kræver administratoradgang:

  1. Opret en undermappe til R i din hjemmemappe, fx “Dokumenter\programmer\”.

  2. Hent R-installationsfilen fra The Comprehensive R Archive Network (CRAN), https://cran.r-project.org/. Kør installationen som vanligt, men vælg den nye programmappe som installationssted.

  3. Opret en undermappe til RStudio, fx “Dokumenter\programmer\rstudio\”.

  4. Hent RStudio som zip-fil fra Posit, https://posit.co/download/rstudio-desktop/, og udpak filen i RStudio-mappen.

  5. Åbn RStudio ved at dobbeltklikke på filen rstudio.exe. Du kan lave en genvej til RStudio på skrivebordet eller proceslinjen.

Hvis du får brug for eventuelle ekstrapakker til R (og det gør du), kan du installere dem med kommandoen install.packages() fra kommandolinjen i R, fx install.packages("tidyverse").

… andre kurser

Denne workshop er en del af et kursusforløb: