Starten mit R und RStudio

Praktische Übung in der Veranstaltung Informationstechnologien im Wald I

Daten: Ladet die Datei urliste.txt aus dem Moodle-Raum herunter und speichert sie lokal ab. Wenn ihr an den Computern der HNEE arbeitet, dann nutzt das P-Laufwerk.

Aufgabe 1

Bestimmt das Skalenniveau der folgenden Merkmale/Variablen!

Baumalter [Jahre]
Fläche eines Rotbuchenblatts [cm²]
Länge einer Kiefernnadel [cm]
Seitenzahl einer Bachelorarbeit
Geschwindigkeit von Jagdhunden [km h^-1]
Platzierung beim Eberswalder Stadtlauf
Infektion einer Baumart: infiziert vs. nicht infiziert

Aufgabe 2

Öffnet RStudio und anschließend ein R-Skript (Was ist ein R-Skript? Einführung in RStudio). Importiert die zuvor heruntergeladene Datei urliste.txt. Nutzt dafür das Symbol Import Dataset im oberen rechten Fenster des Environment Registers oder verwendet den Befehl read.delim():

urliste <- read.delim("~/Bachelor/Lehre/SOEW/urliste.txt")
head(urliste)

Passt den Verzeichnispfad an euren eigenen an!

Aufgabe 3

Qualitative Merkmale (nominal, ordinal)

Wir starten mit einem Häufigkeitsdiagramm für eines der qualitativen Merkmale in unserer Urliste, z.B. mit dem Merkmal Baumart (nominal). Wir möchten darstellen, wieviele Bäume in unserer Stichprobe einer Spezies angehören. Bevor wir das Diagramm erstellen, berechnen wir die Häufigkeiten und speichern sie in einem neuen data frame. Der benötigte Befehl lautet table(). Mit print() wird das Ergebnis in die Konsole geschrieben:

freq <- table(urliste$Baumart)
print(freq)


GFI GKI RBU 
  2   6   4

Die im erzeugten data frame freq gespeicherten Werte können nun visualisiert werden:

barplot(freq, 
        col = "skyblue",      # Farbe der Balken
        xlab = "Baumart",   # x-Achsen-Beschriftung
        ylab = "Anzahl",     # y-Achsen-Beschriftung
        border = "black")

Geht genauso vor für das Merkmal Guete. Beachtet, dass ihr im Code den Spaltennamen Baumart entsprechend durch Guete ersetzen müsst. Wenn ihr als Argument in barplot() horiz = TRUE mit verwendet, werden die Balken horizontal dargestellt.

Alternativ lassen sich die relativen Häufigkeiten in einem Piechart oder Kuchendiagramm darstellen. Dafür müssen die relativen Häufigkeiten aber erst berechenet werden, ähnlich wie für die absoluten Häufigkeiten qualitativer Merkmale. Für das Merkmal Baumart funktioniert das folgendermaßen:

relative <- prop.table(freq) #macht aus absoluten relative Häufigkeiten
prozent <- round(relative * 100, 1) #macht aus relativen prozentuale Häufigkeiten

Die prozentualen Häufigkeiten der Baumarten unserer Urliste können wir dann entsprechend in einem Piechart visualisieren:

labels <- paste(names(relative), "=", prozent, "%") #definiert die Beschriftung
pie(relative, 
    labels = labels, 
    col = rainbow(length(relative)))

Ihr könnt außerdem beide qualitativen Merkmale in einem sogenannten gestapelten Säulendiagramm visualisieren. Auch dafür wird zuerst eine kombinierte Häufigkeitstabelle erstellt:

freq_table <- table(urliste$Baumart, urliste$Guete)
print(freq_table)

     
      A B C D
  GFI 0 0 2 0
  GKI 0 4 2 0
  RBU 1 1 0 2

Hier das dazugehörige Diagramm:

barplot(freq_table, 
        col = c("skyblue", "salmon", "darkgrey"),  # Farben für die Kategorien
        xlab = "Guete", 
        ylab = "Anzahl",
        legend.text = TRUE,  # Legende hinzufügen
        args.legend = list(x = "topright"))  # Legendenposition

Aufgabe 4

Quantitative Merkmale (kontinuierlich, Verhältnisskala)

Wenn wir in unsere Urliste schauen, finden wir nur ein quantitatives kontinuierliches Merkmal, dass der Verhältnisskala zuzuordnen ist: den Brusthöhendurchmesser BHD. Die Beobachtungswerte des BHD lassen sich nicht einzeln zählen und in einem Säulendiagramm darstellen, da sehr wahrscheinlich jeder Messwert genau einmal vorkommt und daher die Häufigkeit = 1 beträgt. Für kontinuierliche Merkmale nutzen wir das Histogramm zur Darstellung der Häufigkeiten. Im Histogramm werden die Beobachtungswerte zuvor definierten Klassen zugewiesen:

hist(urliste$BHD, 
     xlab = "BHD [cm]", 
     ylab = "abs. Häufigkeit", 
     main = "",
     col = "orange")

Desweiteren lassen sich für quantitative kontinuierliche Merkmale mit Hilfe der Funktion summary() einige wichtige deskriptive Lageparameter berechnen:

summary(urliste$BHD)

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  13.80   17.93   19.20   20.07   22.05   31.60

Die deskriptiven Streuparameter lassen sich entweder aus den Ergebnissen oder mit Hilfe weiterer Funktionen berechnen:

IQR(urliste$BHD) #Interquartilsabstand

[1] 4.125

range(urliste$BHD) #Spannweite

[1] 13.8 31.6

var(urliste$BHD) #Varianz

[1] 20.43841

sd(urliste$BHD) #Standardabweichung

[1] 4.520886

Ein weiteres wichtiges Diagramm zur Darstellung der Verteilung der Beobachtungswerte ist der Box-and-Whisker Plot. Darin enthalten sind Minimum, 1. Quartil, Median, 3. Quartil und Maximum:

boxplot(urliste$BHD,
        ylab = "BHD [cm]",
        col = "green")

Was ist auffällig bei der Betrachtung des Boxplots?

Ende der Übung

LS0tDQp0aXRsZTogIlN0YXJ0ZW4gbWl0IFIgdW5kIFJTdHVkaW8iDQpvdXRwdXQ6IGh0bWxfbm90ZWJvb2sNCi0tLQ0KUHJha3Rpc2NoZSDDnGJ1bmcgaW4gZGVyIFZlcmFuc3RhbHR1bmcgKkluZm9ybWF0aW9uc3RlY2hub2xvZ2llbiBpbSBXYWxkIEkqDQoNCioqRGF0ZW4qKjogTGFkZXQgZGllIERhdGVpICp1cmxpc3RlLnR4dCogYXVzIGRlbSBNb29kbGUtUmF1bSBoZXJ1bnRlciB1bmQgc3BlaWNoZXJ0IHNpZSBsb2thbCBhYi4gV2VubiBpaHIgYW4gZGVuIENvbXB1dGVybiBkZXIgSE5FRSBhcmJlaXRldCwgZGFubiBudXR6dCBkYXMgUC1MYXVmd2Vyay4NCg0KIyMjIEF1ZmdhYmUgMQ0KQmVzdGltbXQgZGFzIFNrYWxlbm5pdmVhdSBkZXIgZm9sZ2VuZGVuIE1lcmttYWxlL1ZhcmlhYmxlbiENCg0KKyBCYXVtYWx0ZXIgW0phaHJlXQ0KKyBGbMOkY2hlIGVpbmVzIFJvdGJ1Y2hlbmJsYXR0cyBbY21eMl5dDQorIEzDpG5nZSBlaW5lciBLaWVmZXJubmFkZWwgW2NtXQ0KKyBTZWl0ZW56YWhsIGVpbmVyIEJhY2hlbG9yYXJiZWl0DQorIEdlc2Nod2luZGlna2VpdCB2b24gSmFnZGh1bmRlbiBba20gaF4tMV5dDQorIFBsYXR6aWVydW5nIGJlaW0gRWJlcnN3YWxkZXIgU3RhZHRsYXVmDQorIEluZmVrdGlvbiBlaW5lciBCYXVtYXJ0OiBpbmZpemllcnQgdnMuIG5pY2h0IGluZml6aWVydA0KDQojIyMgQXVmZ2FiZSAyDQrDlmZmbmV0ICpSU3R1ZGlvKiB1bmQgYW5zY2hsaWXDn2VuZCBlaW4gUi1Ta3JpcHQgKFdhcyBpc3QgZWluIFItU2tyaXB0PyBbRWluZsO8aHJ1bmcgaW4gUlN0dWRpb10oaHR0cDovL21ldGhvZHMtYmVybGluLmNvbS93cC1jb250ZW50L3VwbG9hZHMvRWluZnVlaHJ1bmdfaW5fUlN0dWRpby5odG1sKSkuIEltcG9ydGllcnQgZGllIHp1dm9yIGhlcnVudGVyZ2VsYWRlbmUgRGF0ZWkgKnVybGlzdGUudHh0Ki4gTnV0enQgZGFmw7xyIGRhcyBTeW1ib2wgKkltcG9ydCBEYXRhc2V0KiBpbSBvYmVyZW4gcmVjaHRlbiBGZW5zdGVyIGRlcyAqRW52aXJvbm1lbnQqIFJlZ2lzdGVycyAqKm9kZXIqKiB2ZXJ3ZW5kZXQgZGVuIEJlZmVobCBgcmVhZC5kZWxpbSgpYDoNCmBgYHtSfQ0KdXJsaXN0ZSA8LSByZWFkLmRlbGltKCJ+L0JhY2hlbG9yL0xlaHJlL1NPRVcvdXJsaXN0ZS50eHQiKQ0KaGVhZCh1cmxpc3RlKQ0KYGBgDQoqKlBhc3N0IGRlbiBWZXJ6ZWljaG5pc3BmYWQgYW4gZXVyZW4gZWlnZW5lbiBhbiEqKg0KDQojIyMgQXVmZ2FiZSAzDQojIyMjIFF1YWxpdGF0aXZlIE1lcmttYWxlIChub21pbmFsLCBvcmRpbmFsKQ0KV2lyIHN0YXJ0ZW4gbWl0IGVpbmVtIEjDpHVmaWdrZWl0c2RpYWdyYW1tIGbDvHIgZWluZXMgZGVyIHF1YWxpdGF0aXZlbiBNZXJrbWFsZSBpbiB1bnNlcmVyIFVybGlzdGUsIHouQi4gbWl0IGRlbSBNZXJrbWFsICpCYXVtYXJ0KiAobm9taW5hbCkuIFdpciBtw7ZjaHRlbiBkYXJzdGVsbGVuLCB3aWV2aWVsZSBCw6R1bWUgaW4gdW5zZXJlciBTdGljaHByb2JlIGVpbmVyIFNwZXppZXMgYW5nZWjDtnJlbi4gQmV2b3Igd2lyIGRhcyBEaWFncmFtbSBlcnN0ZWxsZW4sIGJlcmVjaG5lbiB3aXIgZGllIEjDpHVmaWdrZWl0ZW4gdW5kIHNwZWljaGVybiBzaWUgaW4gZWluZW0gbmV1ZW4gKmRhdGEgZnJhbWUqLiBEZXIgYmVuw7Z0aWd0ZSBCZWZlaGwgbGF1dGV0IGB0YWJsZSgpYC4gTWl0IGBwcmludCgpYCB3aXJkIGRhcyBFcmdlYm5pcyBpbiBkaWUgS29uc29sZSBnZXNjaHJpZWJlbjoNCmBgYHtSfQ0KZnJlcSA8LSB0YWJsZSh1cmxpc3RlJEJhdW1hcnQpDQpwcmludChmcmVxKQ0KYGBgDQpEaWUgaW0gZXJ6ZXVndGVuICpkYXRhIGZyYW1lKiAqZnJlcSogZ2VzcGVpY2hlcnRlbiBXZXJ0ZSBrw7ZubmVuIG51biB2aXN1YWxpc2llcnQgd2VyZGVuOg0KYGBge1J9DQpiYXJwbG90KGZyZXEsIA0KICAgICAgICBjb2wgPSAic2t5Ymx1ZSIsICAgICAgIyBGYXJiZSBkZXIgQmFsa2VuDQogICAgICAgIHhsYWIgPSAiQmF1bWFydCIsICAgIyB4LUFjaHNlbi1CZXNjaHJpZnR1bmcNCiAgICAgICAgeWxhYiA9ICJBbnphaGwiLCAgICAgIyB5LUFjaHNlbi1CZXNjaHJpZnR1bmcNCiAgICAgICAgYm9yZGVyID0gImJsYWNrIikNCmBgYA0KKipHZWh0IGdlbmF1c28gdm9yIGbDvHIgZGFzIE1lcmttYWwgKkd1ZXRlKi4qKiBCZWFjaHRldCwgZGFzcyBpaHIgaW0gQ29kZSBkZW4gU3BhbHRlbm5hbWVuICpCYXVtYXJ0KiBlbnRzcHJlY2hlbmQgZHVyY2ggKkd1ZXRlKiBlcnNldHplbiBtw7xzc3QuIFdlbm4gaWhyIGFscyBBcmd1bWVudCBpbiBgYmFycGxvdCgpYCAqaG9yaXogPSBUUlVFKiBtaXQgdmVyd2VuZGV0LCB3ZXJkZW4gZGllIEJhbGtlbiBob3Jpem9udGFsIGRhcmdlc3RlbGx0Lg0KDQoqKkFsdGVybmF0aXYqKiBsYXNzZW4gc2ljaCBkaWUgKipyZWxhdGl2ZW4qKiBIw6R1Zmlna2VpdGVuIGluIGVpbmVtICoqUGllY2hhcnQqKiBvZGVyIEt1Y2hlbmRpYWdyYW1tIGRhcnN0ZWxsZW4uIERhZsO8ciBtw7xzc2VuIGRpZSByZWxhdGl2ZW4gSMOkdWZpZ2tlaXRlbiBhYmVyIGVyc3QgYmVyZWNoZW5ldCB3ZXJkZW4sIMOkaG5saWNoIHdpZSBmw7xyIGRpZSBhYnNvbHV0ZW4gSMOkdWZpZ2tlaXRlbiBxdWFsaXRhdGl2ZXIgTWVya21hbGUuIEbDvHIgZGFzIE1lcmttYWwgKkJhdW1hcnQqIGZ1bmt0aW9uaWVydCBkYXMgZm9sZ2VuZGVybWHDn2VuOg0KYGBge1J9DQpyZWxhdGl2ZSA8LSBwcm9wLnRhYmxlKGZyZXEpICNtYWNodCBhdXMgYWJzb2x1dGVuIHJlbGF0aXZlIEjDpHVmaWdrZWl0ZW4NCnByb3plbnQgPC0gcm91bmQocmVsYXRpdmUgKiAxMDAsIDEpICNtYWNodCBhdXMgcmVsYXRpdmVuIHByb3plbnR1YWxlIEjDpHVmaWdrZWl0ZW4NCmBgYA0KRGllIHByb3plbnR1YWxlbiBIw6R1Zmlna2VpdGVuIGRlciBCYXVtYXJ0ZW4gdW5zZXJlciBVcmxpc3RlIGvDtm5uZW4gd2lyIGRhbm4gZW50c3ByZWNoZW5kIGluIGVpbmVtIFBpZWNoYXJ0IHZpc3VhbGlzaWVyZW46DQpgYGB7Un0NCmxhYmVscyA8LSBwYXN0ZShuYW1lcyhyZWxhdGl2ZSksICI9IiwgcHJvemVudCwgIiUiKSAjZGVmaW5pZXJ0IGRpZSBCZXNjaHJpZnR1bmcNCnBpZShyZWxhdGl2ZSwgDQogICAgbGFiZWxzID0gbGFiZWxzLCANCiAgICBjb2wgPSByYWluYm93KGxlbmd0aChyZWxhdGl2ZSkpKQ0KYGBgDQpJaHIga8O2bm50IGF1w59lcmRlbSBiZWlkZSBxdWFsaXRhdGl2ZW4gTWVya21hbGUgaW4gZWluZW0gc29nZW5hbm50ZW4gKipnZXN0YXBlbHRlbiBTw6R1bGVuZGlhZ3JhbW0qKiB2aXN1YWxpc2llcmVuLiBBdWNoIGRhZsO8ciB3aXJkIHp1ZXJzdCBlaW5lIGtvbWJpbmllcnRlIEjDpHVmaWdrZWl0c3RhYmVsbGUgZXJzdGVsbHQ6DQpgYGB7Un0NCmZyZXFfdGFibGUgPC0gdGFibGUodXJsaXN0ZSRCYXVtYXJ0LCB1cmxpc3RlJEd1ZXRlKQ0KcHJpbnQoZnJlcV90YWJsZSkNCmBgYA0KSGllciBkYXMgZGF6dWdlaMO2cmlnZSBEaWFncmFtbToNCmBgYHtSfQ0KYmFycGxvdChmcmVxX3RhYmxlLCANCiAgICAgICAgY29sID0gYygic2t5Ymx1ZSIsICJzYWxtb24iLCAiZGFya2dyZXkiKSwgICMgRmFyYmVuIGbDvHIgZGllIEthdGVnb3JpZW4NCiAgICAgICAgeGxhYiA9ICJHdWV0ZSIsIA0KICAgICAgICB5bGFiID0gIkFuemFobCIsDQogICAgICAgIGxlZ2VuZC50ZXh0ID0gVFJVRSwgICMgTGVnZW5kZSBoaW56dWbDvGdlbg0KICAgICAgICBhcmdzLmxlZ2VuZCA9IGxpc3QoeCA9ICJ0b3ByaWdodCIpKSAgIyBMZWdlbmRlbnBvc2l0aW9uDQpgYGANCg0KIyMjIEF1ZmdhYmUgNA0KIyMjIyBRdWFudGl0YXRpdmUgTWVya21hbGUgKGtvbnRpbnVpZXJsaWNoLCBWZXJow6RsdG5pc3NrYWxhKQ0KV2VubiB3aXIgaW4gdW5zZXJlIFVybGlzdGUgc2NoYXVlbiwgZmluZGVuIHdpciBudXIgZWluIHF1YW50aXRhdGl2ZXMga29udGludWllcmxpY2hlcyBNZXJrbWFsLCBkYXNzIGRlciBWZXJow6RsdG5pc3NrYWxhIHp1enVvcmRuZW4gaXN0OiBkZW4gQnJ1c3Row7ZoZW5kdXJjaG1lc3NlciAqQkhEKi4gRGllIEJlb2JhY2h0dW5nc3dlcnRlIGRlcyAqQkhEKiBsYXNzZW4gc2ljaCBuaWNodCBlaW56ZWxuIHrDpGhsZW4gdW5kIGluIGVpbmVtIFPDpHVsZW5kaWFncmFtbSBkYXJzdGVsbGVuLCBkYSBzZWhyIHdhaHJzY2hlaW5saWNoIGplZGVyIE1lc3N3ZXJ0IGdlbmF1IGVpbm1hbCB2b3Jrb21tdCB1bmQgZGFoZXIgZGllIEjDpHVmaWdrZWl0ID0gMSBiZXRyw6RndC4gRsO8ciBrb250aW51aWVybGljaGUgTWVya21hbGUgbnV0emVuIHdpciBkYXMgKipIaXN0b2dyYW1tKiogenVyIERhcnN0ZWxsdW5nIGRlciBIw6R1Zmlna2VpdGVuLiBJbSBIaXN0b2dyYW1tIHdlcmRlbiBkaWUgQmVvYmFjaHR1bmdzd2VydGUgenV2b3IgZGVmaW5pZXJ0ZW4gS2xhc3NlbiB6dWdld2llc2VuOg0KYGBge1J9DQpoaXN0KHVybGlzdGUkQkhELCANCiAgICAgeGxhYiA9ICJCSEQgW2NtXSIsIA0KICAgICB5bGFiID0gImFicy4gSMOkdWZpZ2tlaXQiLCANCiAgICAgbWFpbiA9ICIiLA0KICAgICBjb2wgPSAib3JhbmdlIikNCmBgYA0KRGVzd2VpdGVyZW4gbGFzc2VuIHNpY2ggZsO8ciBxdWFudGl0YXRpdmUga29udGludWllcmxpY2hlIE1lcmttYWxlIG1pdCBIaWxmZSBkZXIgRnVua3Rpb24gYHN1bW1hcnkoKWAgZWluaWdlIHdpY2h0aWdlICoqZGVza3JpcHRpdmUgTGFnZXBhcmFtZXRlcioqIGJlcmVjaG5lbjoNCmBgYHtSfQ0Kc3VtbWFyeSh1cmxpc3RlJEJIRCkNCmBgYA0KRGllICoqZGVza3JpcHRpdmVuIFN0cmV1cGFyYW1ldGVyKiogbGFzc2VuIHNpY2ggZW50d2VkZXIgYXVzIGRlbiBFcmdlYm5pc3NlbiBvZGVyIG1pdCBIaWxmZSB3ZWl0ZXJlciBGdW5rdGlvbmVuIGJlcmVjaG5lbjoNCmBgYHtSfQ0KSVFSKHVybGlzdGUkQkhEKSAjSW50ZXJxdWFydGlsc2Fic3RhbmQNCnJhbmdlKHVybGlzdGUkQkhEKSAjU3Bhbm53ZWl0ZQ0KdmFyKHVybGlzdGUkQkhEKSAjVmFyaWFueg0Kc2QodXJsaXN0ZSRCSEQpICNTdGFuZGFyZGFid2VpY2h1bmcNCmBgYA0KRWluIHdlaXRlcmVzIHdpY2h0aWdlcyBEaWFncmFtbSB6dXIgRGFyc3RlbGx1bmcgZGVyIFZlcnRlaWx1bmcgZGVyIEJlb2JhY2h0dW5nc3dlcnRlIGlzdCBkZXIgKipCb3gtYW5kLVdoaXNrZXIgUGxvdCoqLiBEYXJpbiBlbnRoYWx0ZW4gc2luZCBNaW5pbXVtLCAxLiBRdWFydGlsLCBNZWRpYW4sIDMuIFF1YXJ0aWwgdW5kIE1heGltdW06DQpgYGB7Un0NCmJveHBsb3QodXJsaXN0ZSRCSEQsDQogICAgICAgIHlsYWIgPSAiQkhEIFtjbV0iLA0KICAgICAgICBjb2wgPSAiZ3JlZW4iKQ0KYGBgDQoqKldhcyBpc3QgYXVmZsOkbGxpZyBiZWkgZGVyIEJldHJhY2h0dW5nIGRlcyBCb3hwbG90cz8qKg0KDQoqKkVuZGUgZGVyIMOcYnVuZyoq