회귀분석에서 샘플사이즈 설정하기

2016. 9. 19. 13:20Book&Article


 

우리는 신뢰할만한 회귀모델을 얻기위해선 충분한 데이터를 얻는것이 중요하다는 것을 알고 있다. 

하지만 얼마나 많은 샘플을 모아야 하는걸까??

 

우리는 경험상 한 개의 모델 당 10~15개의 샘플을 사용하는게 일반적이다.(예를 들면, 5개의 회귀모델이 있다면 50~75개의 샘플을 요구한다.) 하지만 이런 경험상 터득한 방법에 이론적 근거도 없이 의존하는건 위험하다.

 

샘플 사이즈는 검증력(Power) 과 효과의 크기(Effect size)와 밀접한 상관이 있을 뿐더러, 우리는 경험상 샘플의 크기가 크면 클수록 좋다고 가정하는데 왜냐하면 우리가 회귀분석에서 얻는 R값은 모델의 갯수(k) 그리고 샘플사이즈(N)에 의존적이기 때문이다.

 

예를 들어, 6개의 모델과 21개의 샘플 데이터가 있다면 R= 6 / (21-1)= .3 으로 Cohen의 효과의 크기 결정 규칙에 따르면

중간정도의 효과가 있다고 볼 수 있다.

 

사실 랜덤 데이터에 대한  expected R 값과 같은 경우 k / (N-1) 로 구할 수 있는데 적은 샘플사이즈로 상대적으로 큰 효과의 크기를 얻을 수 있다. 예를 들어, 여석 개의 모델과 21개의 샘플이 있다면 R = 6 / (21-1)= .3 이다.( .3 은 Cohen의 효과의 크기 결정 규칙에 따르면 중간정도의 효과를 나타낸다.)

 

위에서 예로든 계산에서 샘플이 21개가 아니라 100개라면 우리는 .6이라는 높은 효과의 크기를 얻을 수 있다.

 

이렇게 우리는 샘플의 크기가 크면 더 이점이 많다는것을 알지만 연구자들은 좀 더 확실하고 이론적 토대가 있는 가이드라인을 필요로한다. Green(1991)은 최소 샘플사이즈를 구할 수 있는 경험적인 방법 두 개를 발표하였는데, 이 방법도 지나치게 단순화되었다는 문제가 있다.


그 후 Miles와 Shevlin(2001)은 위의 표와 같은 가이드 라인을 제시하였는데 샘플사이즈와 검증력 그리고 효과의 크기를 동시에 고려한 것이기에 아주 유용하다고 볼 수 있다.

 

위의 표에서 효과의 크기가 크다면 샘플사이즈가 약80개면 충분하다고 볼 수 있다.(모델이 약20개라면)

효과의 크기가 중간 정도라면 샘플사이즈가 약 200개면 충분하다고 볼 수 있다.(모델이 약20개라면)

효과의 크기가 작다면 약 600개의 샘플이 있어야한다. 하지만 그래프를 볼 수 있듯이 모델이 6개를 넘어선다면 더 많은 샘플사이즈를 요구한다.

 

이 표에서 볼 수 있듯이 우리는 회귀분석을 하는데 있어서 검증력과 효과의 크기를 고려하면서 샘플사이즈를 구하는 방법을 알 수 있다.

자세한 내용은 논문을 참고하면 알 수 있다.