경영통계분석 과제6

Problem 1

  1. Given the five pairs of (x, y) values,
rm(list=ls())
library(tidyverse)

x=c(0,1,6,3,5)
y=c(4,3,0,2,1)

(a)

Find the least squares estimates of slope and intercept, determine the best fitting straight line (use R program).

Answer

R을 이용한 회귀분석 결과, 회귀식은 \(\hat{y}=\hat{\beta_0}+\hat{\beta_1}x=3.84615-0.61538x\)입니다.

lm(y~x) %>% summary()

Call:
lm(formula = y ~ x)

Residuals:
         1          2          3          4          5 
 1.538e-01 -2.308e-01 -1.538e-01 -1.880e-16  2.308e-01 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  3.84615    0.16736   22.98 0.000180 ***
x           -0.61538    0.04441  -13.86 0.000814 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.2265 on 3 degrees of freedom
Multiple R-squared:  0.9846,    Adjusted R-squared:  0.9795 
F-statistic:   192 on 1 and 3 DF,  p-value: 0.0008136

(b)

Test H0: β1 = 0 versus H1: β1 ≠ 0 with α = 0.05.

Answer

상기 회귀분석 결과에서 \(\beta_1\)에 대한 t통계량은 -13.86, 이에 이용한 p-value는 0.000814입니다.

따라서 95% 신뢰수준에서 가설검정시 H0가 reject되며 H1이 채택됩니다.

또한, 신뢰수준을 약 99.91%까지 높게 설정하여도 가설검정 결과는 동일합니다.

(c)

Obtain a 95% confidence interval for the fitted value given x=1.

Answer

먼저, 회귀분석을 통해 추정된 회귀계수 \(\hat{\beta_0},\;\hat{\beta_1}\)는 모계수 \(\beta_0,\;\beta_1\)의 불편추정량이며, 회귀계수의 분포는 아래와 같습니다.

\[\hat{\beta_1}=\frac{S_{xy}}{S_{xx}}\sim N(\beta_1,\frac{\sigma^2}{S_{xx}}),\;\;\hat{\beta_0}=\bar{y}-\hat{\beta_1}\bar{x}\sim N(\beta_0,(\frac{1}{n}+\frac{\bar{x}^2}{S_{xx}})\sigma^2)\]

주어진 \(x_0\)에 대한 \(y_0=\beta_0+\beta_1x_0\)의 조건부기대값은 \(E(y_0|x_0)=\hat{\beta_0}+\hat{\beta_1}x_0\)이며, 회귀계수의 분포를 이용해 추정한 \(E(y_0|x_0)\)의 분포는 다음과 같습니다.

\[E(y_0|x_0)=\hat{\beta_0}+\hat{\beta_1}x_0\sim N(\beta_0+\beta_1x_0,(\frac{1}{n}+\frac{(x_0-\bar{x})^2}{S_{xx}})\sigma^2)\]

이제, 오차의 표준편차 \(\sigma\) 대신에 \(MSE=\hat{\sigma}\)를 이용하여 t분포를 통해 신뢰구간을 추정하면,

\[CI_{95\%}\;=\;((\hat{\beta_0}+\hat{\beta_1}x_0)\pm t_{0.025,3}\sqrt{\hat{\sigma}^2(\frac{1}{n}+\frac{(x_0-\bar{x})^2}{S_{xx}})})\]

이제 \(S_{xx}=\sum(x_i-\bar{x})^2=3^2+2^2+3^2+2^2=26\)\(\hat{\beta_0}=3.846,\;\hat{\beta_1}=-0.615,\;\hat{\sigma}=0.227,\;n=5,\;x_0=1\)를 적용하면 신뢰구간은 \((2.802,\;\;3.659)\)입니다.

(d)

Calculate R-squared.

Answer

결정계수는 \(\frac{SSR}{SST}\)이며, 이는 위 회귀분석의 결과에서 0.9846으로 산출되었습니다.

Problem 2

(a)

What are the estimates of β0 and β1?

Answer

각 회귀계수의 추정량은 \(\hat{\beta_0}=23.6409,\;\hat{\beta_1}=0.6527\)로 위 표에서 확인할 수 있습니다.

(b)

Using α = 0.05 to test on H0 : β1 = 0 vs H1 : β1 ̸= 0. What is the conclusion?

Answer

\(\hat{\beta_1}\)에 대한 p-value는 위 표에서 0.0192로 산출되었습니다.

따라서, 95% 신뢰수준에서는 H0를 기각하고 H1을 채택할 수 있습니다. 즉, 두 변수간에는 선형관계가 있다고 추론할 수 있습니다.

그러나, 99% 신뢰수준에서는 H0를 기각할 수 없습니다.

(c)

Compute the sum of squares error and sum of squares total for this model.

Answer

위 표에서 \(1.779=\sqrt{MSE}=\sqrt{\frac{SSE}{12}}\)이므로, \(SSE=37.978\)입니다.

또한, \(0.3782=R^2=\frac{SSR}{SST}=1-\frac{SSE}{SST}\)이므로, \(SST=61.078\)입니다.

(d)

For x = 70, use the model to predict y and construct prediction interval with 95% confidence level.

Answer

\(x_1=70\)에 대한 \(y_1\)의 95% 예측구간을 산출하도록 하겠습니다.

앞서 1-(c)에서, 주어진 \(x_0\)에 대하여 \(y_0=\beta_0+\beta_1x_0\)이며, 이에 대한 조건부기대값의 분포를 통해 신뢰구간을 산출하였습니다.

그러나 예측구간의 경우, 새로운 observation \(x_1\)에 대하여 새로 발생하는 오차 \(\epsilon_1\sim N(0,\sigma^2)\)을 고려해야 합니다.

즉, \(y_1=\beta_0+\beta_1x_1+\epsilon_1\)이므로 \(y_1\)의 추정량 \(\hat{y_1}\)의 분산은 \(Var(\hat{y_1})=Var(\hat{\beta_0}+\hat{\beta_1}x_1)+Var(\epsilon_1)\)이 됩니다. 따라서 분포는 아래와 같습니다.

\[\hat{y_1}=\hat{\beta_0}+\hat{\beta_1}x_1+\epsilon_1\sim N(\beta_0+\beta_1x_0,(\frac{1}{n}+\frac{(x_0-\bar{x})^2}{S_{xx}})\sigma^2+\sigma^2)\]

이제, 이를 이용한 95% 예측구간은 다음과 같습니다.

\[CI_{95\%}\;=\;((\hat{\beta_0}+\hat{\beta_1}x_1)\pm t_{0.025,12}\sqrt{\hat{\sigma}^2+\hat{\sigma}^2(\frac{1}{n}+\frac{(x_1-\bar{x})^2}{S_{xx}})})\]

먼저, 파라미터 \(\hat{\beta_0}=23.6409,\;\hat{\beta_1}=0.6527,\;n=14,\;x_1=70\)으로 주어져 있습니다.

또한 1-(c)의 회귀계수의 분포에 따라 \(Var(\hat{\beta_0})=(\frac{1}{n}+\frac{\bar{x}^2}{S_{xx}})\sigma^2=,\;Var(\hat{\beta_1})=\frac{\sigma^2}{S_{xx}}\) 입니다.

즉, 표준오차를 통해 \(S.E(\hat{\beta_0})=16.4171=\sqrt{(\frac{1}{n}+\frac{\bar{x}^2}{S_{xx}})MSE},\;\;S.E(\hat{\beta_1})=0.2416=\sqrt{\frac{MSE}{S_{xx}}}\)임을 알 수 있고, 주어진 파라미터를 통해 \(\bar{x}=67.92,\;S_{xx}=54.22\)를 도출할 수 있습니다.

이제, 각 파라미터를 대입한 \(x_1=70\) 일 때의 \(y_1\) 의 95% 예측구간은 \((65.17,\;73.49)\)입니다.