2016. 9. 19. 13:26ㆍBook&Article
위의 결과는 첨부된 파일을 Anaysis-->Regression-->Dv는 sales, Iv는 adverts로 구성한뒤 출력한 것입니다.
일단 간단한 자료 설명부터 하자면 광고예산의 비중과 판매 수익과 어떠한 관계가 있는지를 알아보기 위한 자료수집 결과입니다.
이렇게 수집된 자료를 통해 통계학적으로 어떤 정보가를 도출할 수 있는지 알아봅시다.
일단 처음에 보이는 Model Summary 도표를 보시면 R squre값이 .335라는 것을 알 수 있습니다. 여기서 말하는 모델은 회귀선을 의미합니다.
맨 아래의 Plot 도표에서 볼수 있듯이 각각의 관측치를 회귀선이 대표해주고 있습니다. 하지만 얼만큼 이 모델이 자료를 대표해 주는지는
위의 통계치들의 분석을 통해서만 알 수 있습니다. 여기서 R squre 값이 .335라는 것은 광고예산은 판매수익을 약 35%정도를 설명해주고
있다는것을 알 수 있습니다. 여기서 광고예산이 판매수익을 설명해주는 설명량이 35%라면 나머지 65%는 또 다른 변인에 의해서 영향을 미친다는
것을 예상할 수 있습니다. 모델에 의해서 설명되지 않는 부분은 추가 조사결과를 분석해야만 알 수 있겠지만 여기서는 위의 결과에 한정지어서
생각해 보겠습니다. 같은 도표에서 std. error of the estimate가 의미하는 부분도 이 모델(회귀선)으로 설명되지 않는 편차라고 이해하시면 됩니다.
그렇다면 두번째 도표를 보겠습니다.
두 번째 도표에서 Sum of squre을 보시면 Regression이 약4333687이고 Residual이 약862264이며 이것들의 Total이 나와있습니다.
먼저 R squre 공식을 언급하자면 model sum of squre(SSm) / Total sum of squre(SSt)에 100을 곱해준 비율을 의미하며,
이 표에서 Regression은 SSm이며 Residual은 SSr(잔차)를 의미하고 Total은 말그대로 SSt를 의미합니다.
이 표에서 F 값이 99.587로 제시되어 있는데 이 값은 Mean squre 항목에서 SSm의 평균인 MSm(433687.833)을
SSr의 평균인 MSr(4354.870)로 나누어준 값입니다. 영가설의 기각 여부를 확인하려면 F 분포의 임계치 값과의 비교를 통해 확인할 수 있는데
각종 통계 책의 F분포 임계치 Appendix를 참고하시면 됩니다. 이렇게 분모와 분자의 자유도를 통해 얻은 임계치 값과 F값을 비교하여서 기각여부를
확인하시면되는데 Spss가 이런 수고를 덜어주고있습니다. 여기서 Sig가 .000으로 유의확률보다 작으므로 영가설을 기각한다는것을 알 수 있습니다.
그러므로 우리는 Regression model이 평균을 모델로해서 관측치(sales)를 예상하는 것 보다 더 나은 예측력을 가지고 있다는것을 알 수 잇습니다.
즉 회귀모델이 판매량을 아주 잘 설명해준다고 볼 수 있습니다.
여기서 우리는 왜 F 분포를 이용해서 검증을 하는지 그리고 회귀선을 왜 종속치를 설명하는 모델로 삼는지에 대한 언급은 하지 않았습니다.
다음으로 Coefficient 도표를 보겠습니다. (광고예산단위 1000파운드, 레코드 판매단위 1000개를 유의하시기바랍니다.)
일단 Anova는 특정 모델이 전체적으로 유의한지를 알려주지만 모델에 대한 각각의 변인들(관측치)들에 대한 정보를 제공해 주지 않습니다.
그렇기 때문에 이 표를 보면 더 많은 정보를 얻을 수 있는데 여기서 134.140은 회귀선을 구성하는 공식인 Yi=(bo + b1Xi) + 잔차 의 식을
통해서 알 수 있는데 회귀선을 이루는 구성요소중에 중요한 것이 b0 (y 절편)과 b1(기울기)인데 이 b0 과 b1을 회기계수(regression coefficient)
라고 부릅니다.
그러니까 이 표에서 134.140은 b0을 의미하며 해석하자면 광고를 하는데 0원을 사용한다면 이 모델은 134,140개의 판매기록을
예측한다고 볼수 있습니다. 또 이표에서 0.096은 b1을 의미하는데 이것을 단순히 기울기로만 볼 수도 있지만 이 값을
The change in the outcome associated with a unit change in the predictor로 보면 유용합니다.
그러니가 예측변인이 unit에 따라 증가한다면 우리의 모델은 0.096개 잔여 레코드를 판매할것을 예측한다고 볼 수 있습니다.
예를 들어서 우리의 unit 측정단위가 1000파운드와 1000개의 레코드라면 1000파운드를 투자해서 얻을수있는 레코드의 수는 0.096 X 1000
이니까 1000파운드를 투자해서 얻을 수 있는 판매량은 96개라고 볼 수 있습니다.
다행히도 우리의 회귀모델은 광고비용이 매출을 3분의 1만을 설명해준다는걸 알고있습니다.