### Angewandte Stochastik II
### WS 2013/14
### Evgeny Spodarev
### Jürgen Kampf

### Blatt 4


# Aufgabe 1
widerstand <- read.table("widerstand.txt", col.names = c("radius", "R"))
attach(widerstand)

# a)
# Regressionskoeffizient
beta_hat=cov(R,radius)/var(radius)
beta_hat
# -1.42
# Regressionskonstante
alpha_hat=mean(R)-beta_hat*mean(radius)
alpha_hat
# 2.02
# Regressionsvarianz
epsilon_hat = R-alpha_hat-beta_hat*radius
1/(length(R)-2)*sum(epsilon_hat^2)
# 2.34

# b)
plot(widerstand)
abline(alpha_hat,beta_hat)
curve(alpha_hat+x*beta_hat, add=TRUE)

# c)
alpha_hat+0.01*beta_hat
# 2.67

# d)
(var(R)-1/(length(R)-1)*sum(epsilon_hat^2))/var(R)
# 0.312
# R ist relativ nahe bei 0 (ziemlich genau auf der Grenze aus der Faustregel).
# Die Anpassung eines linearen Modells an diese Daten ist also grenzwertig.

 
# e)
R_hat=alpha_hat-beta_hat*radius
plot(R_hat,epsilon_hat)
abline(h=0)
### Man sieht, dass die Residuen für kleine und große Werte von y_hat die 
### Residuen positiv sind, während sie für mittlere Werte negativ sind.
### Das lineare Modell passt also nicht.  


#Lösung mittels lm()

LinMod=lm(R~radius, data=widerstand)
LinMod
summary(LinMod)

abline(LinMod)
plot(LinMod$fitted.values,LinMod$residual, xlab="y_hat", ylab="Residuen")


### Aufgabe 2
# Teil a)
beta_hat=cov(log(R),log(radius))/var(log(radius))
beta_hat
# -2.26
# Regressionskonstante
alpha_hat=mean(log(R))-beta_hat*mean(log(radius))
alpha_hat
# -3.42

# Teil b)

plot(R~radius)
curve(exp(alpha_hat)*x^beta_hat,add=TRUE)

# Teil c)
exp(alpha_hat)*0.01^beta_hat
# 1093

# Teil d)
epsilon_hat = log(R)-alpha_hat-beta_hat*log(radius)
y_hat=alpha_hat-beta_hat*radius
plot(y_hat,epsilon_hat)
abline(h=0)
# Für die 6 Drähte, für die y_hat kleiner als -1 ist gilt: Je größer y_hat desto 
# größer die Residuen epsilon_hat. Dies ist ein klarer Trend.
# Auch fällt auf, dass die beiden Drähte mit größten y_hat die betragsmäßig größten 
# Residuen haben. Dies spricht dafür, dass nicht alle Drähte die Varianz haben,
# sondern sie für Drähte mit großem y_hat (d.h. kleinem Radius) größer ist. Dies
# verstößt gegen die Modellannahmen von linearen Modellen.
# Auch auf die logarithmierten Daten passt ein lineares Modell nur bedingt.