Übung 2: Einführung in die Datenverarbeitung mit R (Teil 1)

Inhalt.

Übung 2: Einführung in die Datenverarbeitung mit R (Teil 1)

Ziele

Vorwort

Literatur

Daten

Variablen und Ausdrücke

Kontext und Workspace

Ausgabe von Werten

Zeichenketten

Listen

Vektoren

Zeitserien

Matrizen

Zusammenfassung: Indizierung von Aggregationen

Arithmetik

Statistische Prozesse

Ziele

Die Übung führt in die programmatische Datenverarbeitung und Datenanalyse mit der R Programmiersprache in. Genau genommen wird aus Gründen der Vereinfachung und Handhabung de Dialekt R+ verwendet, der eine Untermenge von R implementiert, Ergänzungen (auch syntaktisch) besitzt, und an einigen Stellen vom offiziellen R abweicht. R+ ist in JavaScript geschrieben und kann in jedem Web Browser oder mit der Plattform node.js ausgeführt werden.

In dieser Übung werden grundlegende Konzepte der Datenverarbeitung, grundlegende Datentypen und Funktionen eingeführt, die für datengetriebene Modellierung sehr nützlich sind und einen schellen Einstieg in die automatische Schadensdiagnostik mit Maschinellen Lernen ermöglichen soll.

Vorwort

Bitte folgenden Code ausführen um notwendige Bibliotheken zu laden. Nicht erforderlich bei nativer R Software.

Ein Modul wird in die aktuelle Arbeitsumgebung mittels use eingebaut und steht dann mit allen seinen Funktionen direkt zur Verfügung.
Man kann Werte mit der print Funktion ausgeben.

R Set-up

use math,plot
dev.new(width=500)
print("Libraries loaded.")
print(R.version)

▸

[]

✗

≡

Literatur

Lese "Learning R Programming" Kun Ren,2023

Daten

In der Datenanalyse und der Datenverarbeitung kommen Daten verschiedenster Typen und Strukturen vor. Man unterscheidet skalare Werte wie zahlen, Boolesche Werte, und i.A. auch Textzeichenketten (obwohl eigentlich nicht atomar da aus Textzeichen zusammengesetzt), und zusammengesetzte Werte wie Vektoren und Listen.

Variablen und Ausdrücke

Eine Variable ist in R eine Referenz auf Werte. Werte können sein:

Numerische Werte (ganzzahlig, reell) ⇒ numeric
Logische Werte (Boolean) ⇒ logical mit den konstanten Werten TRUE und FALSE
Textzeichenketten ⇒ character (sind unveränderlich, daher quasi skalar)
Vektoren ⇒ vector (Werte mit Reihenfolge numeric ist tatsächlich gleich einem vektor mit einem Element - alle Werte sind Vektoren) ⇒ Startindex ist 1
Listen ⇒ list (Werte mit! Reihenfolge, aber nicht numerisch indiziert)
Arrays ⇒ array (mehrdimensional)
Matrizen ⇒ matrix (zweidimensional)
Funktionen! ⇒ function

Variablen kann ein neuer Wert (also eine Referenz) zugewiesen werden mit den <- und = Operationen. Der Pfeiloperator sollte bevorzugt verwendet werden, der Unterschied zwischen beiden ist marginal, wobei = noch für benannte Funktionsparameter verwendet wird. Ausdrücke können beliebig komplex sein, teils aus Operanden mit unterschiedlichen Datentypen bestehen. Innerhalb von Funktionen können "globale" Variablen nur mit dem <-- Operator verändert werden!

Variablen und Ausdrücke mit atomaren (skalaren) Werten.

x <- -1
y =  2
z <- (x-y)/2
logg(z)
s = "Ein String"
b = TRUE
logg(s,b)

▸

[]

✗

≡

Variablenamen können aus den Zeichen a-z, A-Z, den Zahlen 0-9 (außer an erster Stelle) und einem Punkt . sowie einem Unterstrich _ bestehen.

Die Punktschreibweise von Variablenamen kann für eine semantische Gruppierung genutzt werden, z.B. data, data.train, data.test, data.analysis usw. Achtung: Der Punkt ist nur ein weiteres Textzeichen und kein Operator wie in anderen Programmiersprachen. D.h. die Variablen data und data.avg haben keine Bindung.

Aufgabe 1. Zerlege folgenden komplexen Ausdruck in eine Sequenz von einfachen (max. eine Operation) unter Zuhilfenahme einer minimalen Anzahl von weiteren Hilfsvariablen y.t1, y.t2 usw.

Zerlegung eines komplexen Ausdrucks in binären Ausdrücke (mit zwei Operanden)

a = 1 b = -1.2 c = 0.3 x = 12
y = (a + b * x) + c * x^2 - a/2
print(y)

▸

[]

✗

≡

Lösung.

eS50MSA9IGErYiAKeS50MSA9IHkudDEqeAp5LnQyID0geF4yCnkudDIgPSBjICogeS50Mgp5LnQxID0geS50MSArIHkudDIKeS50MiA9IGEvMgp5ID0geS50MS15LnQyCnByaW50ICh5KQo=

Kontext und Workspace

Alle Variablen werden in einem globalen Arbeitsbereich (Kontext, Workspace) angelegt, der bereits vordefinierte Werte enthält. Innerhalb von Funktionen existiert ein lokaler Kontext und Arbeitsbereich, und Variablenzuweisungen finden in diesem statt. Funktionsparameter sind immer lokal (Funktionen werden weiter unten eingeführt).

Ausgabe von Werten

Werte von Variablen und konstante Werte können mit der print() oder logg() Funktion auf der Konsole ausgegeben werden. Die logg Funktion gibt zusätzlich den Ausdruck aus dessen Wert ausgegeben wird. In R+ kann alternativ auch die cprint() Funktion verwendet werden die zusammengesetzte Daten kompakter ausgibt.

Alle Funktionen geben nur einen Wert aus. Will man mehere Werte in einer Zeile ausgeben muss man die paste() Funktion verwenden.

Ausgabe von Werten

x=1 s="Datensatz"
print(x)
print(x,2)
print(paste(x,2))
logg(x)
cprint(x)
cprint(s)

▸

[]

✗

≡

Zeichenketten

In Datentabellen werden Metadaten und kategorische Werte häufig als Textzeichenketten abgelegt. Konstante Zeichenketten werden mit der "ABC"Syntax eingeführt. Zeichenketten können mit der paste Funktion zusammengeführt werden (jeweils mit Trennzeichen):

Folgende Basisoperationen existieren:

abbreviate liefert eine Abkürzung einer Zeichenkette
chartr(old,new,x) ersetzt einen oder mehrere Zeichen in einer Zeichenkette (Ergebnis wird in einer Liste zurückgegeben)
gsub(pattern,replace,text) sucht nach Zeichenketten in text mittels eines regulären Ausdrucks (pattern) und ersetzt alle gefundenen Textstücke mit replace
paste(str1,str2,..,sep="string") fügt alle Argumente zusammen und verbindet sie mit einem Separator(Standard: Leerzeichen).
strsplit(x,split) zerlegt eine Zeichenkette in eine Liste von Tokens
substr(x,start,stop) liefert eine Teilzeichenkette beginnend bei start und bis stop (Zeichenposition, erstes Zeichen ist Position 1)
tolower wandelt alle Zeichen auf Kleinschreibung um
toupper wandelt alle Zeichen auf Großschreibung um

Funktionen erwarten Argumente in der Reihenfolge der Parameterdefinition, z.B. foo(a,b,c) erwartet als erstes Argument a, dann b, d.h., foo(1,2,3). Alternativ können die Argumente auch den Parameternamen zugewiesen werden, wo die Reihenfolge dann keine Rolle mehr spielt, also z.B. foo(c=3,a=1,b=2)

Zeichenketten

s1 <- "Hello"
s2 <- "World"
s3 <- paste(s1,s2)
logg(s3)
logg(paste(s3,z,sep="-"))
logg(tolower(paste(s1,s2)))
logg(abbreviate(paste(s1,s2,z)))
logg(strsplit(s3," "))
logg(gsub('\.json','.csv','myfile.json'))

▸

[]

✗

≡

Aufgabe 2. Zerlege die Zeichenkette "A-1 B-2 C-1" in Abschnitte die durch ein Leerzeichen getrennt sind (verwende strsplit). Die Zerlegung von Zeichenketten liefert eine Liste. Iteriere dann über die Liste der Abschnitte (Listeniteration mit for Schleife, siehe Beispiel) und entferne in jeder Teilzeichenkette den Bindestrich und die Ziffer indem strsplit mit dem Bindestrich als Trennmuster nochmals angewendet wird. Einzelne Listenelemente können mit dem l[[index]] Operator selektiert werden. Der erste Element einer Liste hat den Index 1.

Zerlegung einer Zeichenkette und Extraktion des Anfangsbuchstabens aus einer Teilzeichenkette

s = "A-1 B-2 C-1"
# Trennung durch Leerzeichen
s.tokens = TODO
logg(s.tokens)
for (token is s.tokens) {
  -- TODO
}

▸

[]

✗

≡

Lösung.

cy50b2tlbnMgPSBzdHJzcGxpdChzLCIgIikKbG9nZyhzLnRva2VucykKZm9yICh0b2tlbiBpbiBzLnRva2VucykgewogIG5hbWUgPSBzdHJzcGxpdChpLCItIilbWzFdXQogIHByaW50KG5hbWUpCn0=

Listen

Listen sind geordnete Werte die entweder über einen numerischen Index oder über einen Elementnamen und dem $ Operator referenziert werden können. Listen werden mit der list Funktion erzeugt. Ein numerischer Selektor wird durch den [i] Operator eingeleitet.

Achtung: l sei eine Liste. Im Unterschied zu (mathematischen) Vektoren liefert dann l[i] hier wieder eine Liste mit einem Element! Will man das Listenelement direkt lesen verwendet man den Doppelklammer l[[i]] Operator!

Benannte Listenelemente können bei der Erzeugung mittels name=val erstellt werden, oder später durch die names Funktion ergänzt werden. Listen können mehrsortig sein (d..h., Elemente von verschiedenen Datentyp). Neue Elemente können an einer bestimmten Position mittels append hinzugefügt werden.

Kurzschreibweise für initialisierte Listenerzeugung in R+: {x,y,z} für unbenannte Listenelemente und {a=x,b=y,c=z} für benannte Listenelemente.

Wichtige Operationen auf Listen:

Ein Element e am Ende der Liste l hinzufügen: push(l,e)
Listen zusammenfügen: append(l1,l2,..)
Kopf einer Liste erhalten: head(l,n). Standard ist n=1.
Ende einer Liste erhalten: tail(l,n). Standard ist n=1.
Listen in Vektoren umwandeln: as.vector(l)
Namen von Elementen erhalten oder ändern: names(l)

Listen

# Numerisch indizierte Listenelemente
sl.index <- list("Hello","World")
logg(sl.index[1])
logg(sl.index[[1]])
logg(paste(sl.index[1],sl.index[2]))
logg(paste(sl.index[[1]],sl.index[[2]]))
# Benannte Listenelemente
sl.names <- {x=1,y=2,z=3}
logg(sl.names)
logg(sl.names[1])
logg(sl.names[[1]])
logg(sl.names[["x"]])
logg(sl.names$x+sl.names$y-sl.names$z)
# Veränderung von Listen
sl.index[2]   <- "Scientist"
logg(sl.index)
logg(paste(sl.index[1],sl.index[2]))
names(sl.names) = ['z','y','x']
sl.names$x    <- 10
sl.names[1:2] <- 0
logg(sl.names)
sl.mixed<-append(sl.names,123)
logg(sl.mixed)

▸

[]

✗

≡

Man kann eine Funktion auf Listenelemente anwenden (d.h., die Funktion wird für jedes Listenelement berechnet) um eine neue Liste zu erzeugen. Dazu benutzt man die lapply(Liste,Funktion) Funktion.

Listen transformieren

sl = list("Hello","World")
sl.transformed = lapply(sl,function (elem) { paste('My',elem) })
logg(sl.transformed)

▸

[]

✗

≡

Eine Iteration über Listen (und Vektoren) kann auch mittels der for(v in l) { } erfolgen. Hier ist v der Werte eines Listenelements (nicht der Name oder Index)! Listeniteration kommen häufig im Bereich Datenanalyse vor.

Aufgabe 3. Für Fortgeschrittene: Zerlege die Zeichenkette "A-1 B-2 C-1" wieder in Tokens die durch Leerzeichen getrennt sind. Dann transformiere diese Liste von Elementen mit lapply derart dass die Ziffern hinter dem Bindestrich als nuemrischer Wert exrahiert wird (benutze wieder strplit wie oben). Eine Zeichenkette kann in einen numerischen Wert mittesl as-numeric(string) umgewandelt werden,

Zerlegung einer Zeichenkette

s = "A-1 B-2 C-1"
# 1. Trennung durch Leerzeichen 
s.parts = ..
# 2. Transformation der Listes s.parts
s.numbers = lapply(s.parts.function (s) {
 ..
})
logg(s.numbers)

▸

[]

✗

≡

Lösung.

cyA9ICJBLTEgQi0yIEMtMyIKIyAxLiBUcmVubnVuZyBkdXJjaCBMZWVyemVpY2hlbiA9PiBBIEIgQwpzLnBhcnRzID0gc3Ryc3BsaXQocywiICIpCiMgMi4gVHJhbnNmb3JtYXRpb24Kcy5udW1iZXJzID0gbGFwcGx5KHMucGFydHMsZnVuY3Rpb24gKHMpIHsKICB0b2tlbnMgPSBzdHJzcGxpdChzLCItIikKICBhcy5udW1lcmljKHRva2Vuc1tbMl1dKQp9KQoKbG9nZyhzLm51bWJlcnMp

Vektoren

Vektoren sind ähnlich den Listen aufgebaut. Vektoren bieten anders als Listen die Möglichkeit Werte in kompakten (linearen) Arrays zu speichern (optional, über ein mode Attribute bei der Erzeugung einstellbar). Daher kann ein bestimmter Datentyp (mode) angegeben werden. Ein von einer statischen Argumentenliste initialisierter Vektor wird mit c, ein konstant initialisierter mit vector erzeugt. Vektoren sind immer eindimensional. Mehrdimensionale "Vektoren" sind Arrays und Matrizen (zweidimensional), Teilbereiche eines Vektors können durch den Bracketoperator ausgewählt werden: v[index]. Der Startindex ist wieder 1.

Folgende Vektorfunktionen sind wichtig:

Eigenschaften von Vektoren: Länge length
Aggregatoperationen aus dem math Modul wie min, max, range, mean, sum
Arithmetische, relationale, und logische Operationen (elementweise), z.B. v12 = v1 + v2
Statistische Analyse mit fivenum; liefert {min, quantile1, median, mean, qunatile3, max} bei numerischen Vektoren
Statistische Analyse mit table bei kategorischen Vektoren

Datenvektoren

primes < -c(1,3,5,7,11,13,17)
data   <- vector(mode="int8",100)
# Wert hinzufügen
primes <- c(primes,23)
logg(primes)
# Werte verändern (was passiert?)
data[1:5] <- 1:5
# Formatierte Ausgabe eines Vektors
logg(data)
# Numerische Analyse
logg(fivenum(primes))

▸

[]

✗

≡

Kurzschreibweise für initialisierte Vektorerzeugung in R+: [x,y,z].

Aufgabe 4. Analysiere die folgenden Vektoren klassengerecht (metrisch versa kategorisch), notiere die Ergebnisse. Was bedeuten die statistischen Werte? Führe eine Recherche durch.

Statistische Analyse von Vektoren (benutzte fivenum, summary, und table für beide vektoren)

vn <- c(100,5,99,-4,100,110,55)
vs <- c("a","b","a","c","a","b","b")
# Analysen

▸

[]

✗

≡

Lösung.

fivenum liefert für nuemrische Werte Extremwerte, Mitte- und Medianwert und 1. und 3. Quantill.
summary liefert für numerische und kategorische Werte grundlegende statistische Analysen
table liefert für kategorische Werte die Symbolverteilungen (Häufigkeiten)
vn <- c(100,5,99,-4,100,110,55) vs <- c("a","b","a","c","a","b","b") logg(fivenum(vn)) logg(...

Zeitserien

Zeitserien von Sensorsignalen werden häufig als Vektoren gespeichert. Ein Beispiel ist nachfolgend gezeigt. Es werden typische Analysefunktionen angewendet und ein grafischer Plot erzeugt.

Zeitaufgelöstes Sensorsignal als Datenvektor

use math,plot
s = [ 0,0,1,2,3,6,8,8.5,9,8.5,8,6.5,3.2,1.2,0.5,1,0.5,0 ]
t = [ 1,1.5,3,4.2,5,6,7.8,8,9,10,11.2,12,13,13.9,15,16,17,18.2]
plot(s,auto.scale=TRUE,type='b',xlab='t',ylab='s(t)')
plot(x=t,y=s,auto.scale=TRUE,type='b',xlab='t',ylab='s(t)')

▸

[]

✗

≡

Frage 5. Was ist der Unterschied einer einfachen Datenserie (hier s) zu einer Zeitserie (oder abhängigen Datenserie) s(t)? Vergleiche die beiden Plots.

Lösung.

Die Datenserie ist genauso geordnet wie eine Datenserie (anders als eine Datenmenge), aber die Werte werden durch einen modelllosen Index referenziert, d.h. die Datenserie hat keine abhängige variable (außer dem Index).
Die Zeitserie ordnet die Werte bestimmten Zeitpunkten zu, also s(t), d.h., die Zeitavriable ist eine abhängige Variable.
Dabei kann s(t) auch ohne expliziten t vektor existieren. Dann sind aber die zeitabstände zwischen den einzelnen Werten zeitlich äquidistant (also Δt=constant).

Analyse der Datenserie

use math,plot
logg(fivenum(s),min(s),max(s),mean(s),sum(s),length(s))

▸

[]

✗

≡

Numerische Berechnung des Integrals einer Datenserie

\[ {I}{\left(\vec{{s}}\right)}=\frac{{1}}{{n}}{\sum_{{{i}={1}}}^{{n}}}{s}_{{i}}\\ {I}{\left(\vec{{s}},\vec{{t}}\right)}\approx{\sum_{{{i}={1}}}^{{{n}-{1}}}}{s}_{{i}}{\left({t}_{{{i}+{1}}}-{t}_{{i}}\right)} \]

Frage 6. Berechne das approximierte Integral der Datenserie und der Zeitserie. Die erste Berechnung ist einfach und trivial, die zweite benötigt eine Iteration über s und t mittels for(i in 1:length(s)) { .. }.

Berechnung des Integrals einer Datenserie (s) und Zeitserie s(t)

use math,plot
s.integral = TODO
s.t.integral = TODO
logg(s.integral,s.t.integral)

▸

[]

✗

≡

Lösung.

cy5pbnRlZ3JhbCAgID0gMApzLnQuaW50ZWdyYWwgPSAwCmZvciAoIGkgaW4gMTpsZW5ndGgocykpIHsKICBzLmludGVncmFsID0gcy5pbnRlZ3JhbCArIHNbaV0KfQpzLmludGVncmFsID0gcy5pbnRlZ3JhbCAvIGxlbmd0aChzKQpmb3IgKCBpIGluIDE6KGxlbmd0aChzKS0xKSkgewogIHMudC5pbnRlZ3JhbCA9IHMudC5pbnRlZ3JhbCArIHNbaV0qKHRbaSsxXS10W2ldKQp9CmxvZ2cocy5pbnRlZ3JhbCxzLnQuaW50ZWdyYWwp

Matrizen

Eine Matrix (ähnlich einem Datenrahmen, folgendes gilt i.A. auch für Datenrahmen) ist eine zweidimensionale Tabelle und wird mit der matrix(init,nrow,ncol) Funktion erzeugt. Der Datentyp muss skalar bzw. atomar sein (numeric, logical, `character').

Folgende Matrixfunktionen sind wichtig:

col(m) liefert eine Matrix von m mit Spaltenindexwerten
diag(m) liefert die Diagonalelemente einer Matrix
dim(m) liefert die Dimensionen einer Matrix
row(m) liefert eine Matrix von m mit Zeilenindexwerten
nrow, ncol, colnames um einzelne Informationen über die Matrix zu erhalten
Aggregatoperationen wie min, max, range, mean, sum
Arithmetische, relationale, und logische Operatione (elementweise), und Skalarprodukt %*%
cbind fügt Vektoren (oder Matrizen) spaltenweise an Matrizen (oder Vektoren). Ergebnis ist eine erweiterte Matrix
rbind fügt Vektoren (oder Matrizen) zeilenweise an Matrizen. Ergebnis ist eine erweiterte Matrix
Mapping: Elementweise aus einer Matrix m1 eine neue Matrix m2 gleicher größe berechnen. Dazu wird entweder apply(m,MARGIN=[1,2],function(v,i,j)) oder map(m,function(v,i,j)) verwendet.

Bei der Auswahl von Elementen einer Matrix gibt es jetzt mehr Möglichkeiten. Ein einzelnes Matrixelement wird mittels m[row,col] ausgewählt, eine Zeile durch m[row,], und eine Spalte durch m[,col]. Es können auch Teilmatrizen gebildet werde: m[row1:row2,col1:col2], und Kombinationen aus allen Selektoren.

Frage 7. Es gibt noch weitere nützliche Funktionen wie col und row. Untersuche im folgenden Beispiel diese Funktionen. Was ergibt die Anwendung dieser beiden Funktionen auf Matrizen?

Matrix

data1 <- matrix(0,nrow=5,ncol=3)
print(data1)
data2 <- matrix(1:15,nrow=5,ncol=3)
print(data2)
data2.diag    <- diag(data2)
data2.diagalt <- data1[col(data1)==row(data1)]

▸

[]

✗

≡

Lösung.

row(matrix) und col(matrix) erzeugen eine gleich große Matrix gefüllt mit den Spalten und Zeilen Indizes.
Der Gleicheitsoperator == angewendet auf zwei Matrizen ergibt eine Boolesche Matrix mit Einträgen die den elementweisen Vergleich enthalten

Frage 8. Was ist der Unterschied bei der Initialisierung von data1 und data2? Was passiert wenn anstelle 1:15 der Bereichsvektor 1:3 verwendet wird? Prüfe es praktisch.

Lösung.

Die Sequenz 1:15 füllt die Matrix vollständig (gleiche Anzahl von Elementen)
Die Sequenz wird wiederholt über die Zeilen verteilt.
Achtung: R+ verteilt die Werte über die Zeilen, natives R über Spalten!

Beispiele der Element- und Bereichsauswahl von Matrizen

data<-matrix(1:15,nrow=5,ncol=3)
data.first <- data[1,1]
data.col1  <- data[,1]
data.row1  <- data[1,]
data.train <- data[1:2,]
data.test  <- data[3:5,]
logg(data.first)
logg(data.col1)
logg(data.row1)
logg(data.train)
logg(data.test)

▸

[]

✗

≡

Zeitaufgelöstes Sensorsignal als Matrix mit der cbind(col1,col2,..) Funktion

use math,plot
s = [ 0,0,1,2,3,6,8,8.5,9,8.5,8,6.5,3.2,1.2,0.5,1,0.5,0 ]
t = [ 1,1.5,3,4.2,5,6,7.8,8,9,10,11.2,12,13,13.9,15,16,17,18.2]
s.t = cbind(x=t,y=s)
logg(s.t)
plot(s.t[,"y"],auto.scale=TRUE)
logg(s.t[,2])

▸

[]

✗

≡

Aufgabe 9. Berechne den Mittelwert aller Elemente einer Matrix mit Schleifen.

Iterative Berechnung des Mittelwerts einer Matrix

m <- matrix(runif(15),5,3)
m.mean <- 0
for ( ...) {
  for ( ... ) [

  }
}
logg(m.mean)

▸

[]

✗

≡

Lösung.

bSA8LSBtYXRyaXgocnVuaWYoMTUpLDUsMykKbS5tZWFuIDwtIDAKZm9yIChpIGluIDE6bnJvdyhtKSkgewogIGZvciAoaiBpbiBuY29sKG0pKSBbCiAgICBtLm1lYW4gPSBtLm1lYW4gKyBtW2ksal0KICB9Cn0KbS5tZWFuID0gbS5tZWFuIC8gbGVuZ3RoKG0ubWVhbikKbG9nZyhtLm1lYW4p

Zusammenfassung: Indizierung von Aggregationen

Ein Vektor- oder Listenelement kann durch den Bracketoperator v[i] sowohl lesend als auch schreibend ausgewählt werden.
Bei Listen muss der Doppelbracketoperator l[[i]] verwendet werden um an das Listenelement zu gelangen
Benannte Vektor- und Listenelements können auch über ihren Elementname mit v$x refernziert werden
Bereiche (Bereichsselektierung) kann durch den [a:b] Operator mit index={a,a+1,..,b} ausgewählt werden
Mehrdimensionale Aggregationen wie Arrays, Matrizen, und Datenrahmen (dataframe) können durch [row,col,..] referenziert werden
Bei mehrdimensionalen Aggregationen kann ein Leerfeld in der Kommaliste den ganzen Bereich dieser Dimension festlegen, siehe vorheriges Beispiel.

Arithmetik

Arithemtische (+, -, *, /, %, %%), relationale (<, >, >=, <=, ==, !=) und logische (&, |) Operationen können auf einer Vielzahl von Datentypen inklusive Aggregationen wie Listen und Vektoren direkt angewendet werden. Bei Listen und Vektoren werden diese Operationen elementweise angewendet und erzeugen einen neuen Vektor.

Arithmetik auf Datenvektoren

primes <- c(1,3,5,7,11,13,17)
primes <- primes + 1
print(primes)
primes.short <- primes[1:3]
primes.large <- primes[primes>5]
print(primes.short)
print(primes.large)

▸

[]

✗

≡

Aufgabe 10. Zerlege und analysiere den primes[primes>5] Ausdruck. Was liefert primes>5 und wie funktioniert die Reduktion (Filterung) des Vektors? Erstelle einen Teilvektor aus primes der nur Werte < 5 und Werte > 10 enthält.

Bereichsselektion eines Datenvektors

primes <- c(1,3,5,7,11,13,17,23,29)
# primes.selected <-

▸

[]

✗

≡

Lösung.

primes>5 liefert einen Booleschen Vektor der wiederum in der Indizierung zur Reduktion des ursprünglichen Vektors eingesetzt wird
logg(primes[primes>5]) und logg(primes[primes<5])'
primes.part = c(primes[primes<5],primes[primes>10])

Aufgabe 11. Skaliere im nachfolgenden Beispiel die x Spalte der Matrix auf ihren Maximalwert (d.h. Normierung auf 1). Benutzte den m[,2] Selektor und die max Funktion.

Arithmetik auf Datenmatrizen

use math,plot
options(digits=2)
s = [ 0,0,1,2,3,6,8,8.5,9,8.5,8,6.5,3.2,1.2,0.5,1,0.5,0 ]
t = [ 1,1.5,3,4.2,5,6,7.8,8,9,10,11.2,12,13,13.9,15,16,17,18.2]
s.t = cbind(x=t,y=s)
s.t.norm = TODO
logg(s.t.norm)

▸

[]

✗

≡

Lösung.

Statistische Prozesse

Bei der datengtriebenen Modellierung spielen statistische und (pseudo)randomisierte Prozesse eine wichtige Rolle. Es gibt primär zwei wichtige Wahrscheinlichkeitsverteilungen und Funktionen:

Gleicherverteilte Werte (Uniform random distribution)
Normalverteilte Werte (Normal random distribution), oder auch Gaußverteilung um ein Maximum.

Es stehen im math Modul dafür zwei Funktionen zur Verfügung:

runif(n,min,max), Standardwerte für das Werteintervall sind [0,1] mit einem Mittelwert von 0,5
rnorm(n,min,max), Standardwerte für das Werteintervall sind [-1,1] mit einem Mittelwert von 0

Die Gleichverteilung benutzt man häufig um zufällig kontinuierliche Werte aus einem Wertebereich auszuwählen. Die Normalverteilung wird häufig für die Erzeugung von synthetischen Rauschen und in der Monte Carlo Simulation eingesetzt.

Will man künstliches Rauschen (Variation) zu bereits existierenden Sensorwerten hinzufügen muss man unterscheiden ob es sich um additives oder multiplikatives Rauschen handelt.

Bei multiplikativen Rauschen sollte der Mittelwert des Rauschfaktors bei 1 liegen, bei additiven Rauschen bei 0!

Mit der hist Funktion kann sich das Histogramm der Wertevereilung berechnen und anzeigen lassen.

Aufgabe 12. Untersuche im nachfolgenden Beispiel die Wirkung von normal- und gleichverteilten Rauschen sowohl multiplikativ als auch additiv. Wo liegen messtechnisch und physikalisch die Unterschiede dieser 4 Kombinationsmöglichkeiten? Wähle ca. 10% Rauschanteil. Neben einer Sinusfunktion soll auch der Einfluss von Rauschen auf eine lineare Werteverteilung (also einfach eine Sequenz x=1:100) betrachtet und visualisiert werden.

Arithmetik auf Datenmatrizen

use math,plot
options(digits=2)
plot(runif(100),auto.scale=TRUE,type='b')
plot(rnorm(100),auto.scale=TRUE,type='b')
hist(runif(100))
hist(rnorm(100))
x = sin(1:100)
plot(x,auto.scale=TRUE,type='b')
# Alle 4 Kombinationen ergänzen (mul/add norm/unif)
x.noisy = TODO
plot(x.noisy,auto.scale=TRUE,type='b')

▸

[]

✗

≡

Lösung.

Physikalische Prozesse unterliegen Streuung, d.h. multiplikativen Rasuchen (kein Signal, kein Rauschne)
Messtechnische Verarbeitung (z.B. durch elektrronische Verstärker) fügen Rauschen additiv hinzu

Hilfe

Einreichung (Assignment #2025-92107)

Prüfen

Bewerten (Lehrer)

Created by the NoteBook Compiler Ver. 1.36.4 (c) Dr. Stefan Bosse (Thu May 22 2025 09:10:19 GMT+0200 (Central European Summer Time))