Brady T West가 쓴, Linear Mixed Models: A Practical Guide Using Statistical Software를 원본으로 하여, 공부 중인 내용을 정리한다.

이 책은, 앞의 chapter에서 개념과 이론을 설명한 다음, 뒤에서 실제 데이터셋을 가지고 R, Stata, SPSS, SAS를 통해 분석하는 방식으로 구성되어 있다. 예시 또한, LMM을 적용할 수 있는 여러 dataset을 구현하고 있다. 그러므로 실제 분석 중에 quick-reference 용으로 참고하기도 좋다. 
앞의 이론 파트는 참 어렵다. (derivatives가 수학 용어로 무슨 뜻인지 내가 어떻게 알겠는가.) 다 읽고 난 후에도, 그 개념을 알게 되었다고 말하기는 어렵겠다. 


1. Linear Mixed Model이란 무엇인가?

- Outcome: continuous variable (residual은 normal distribution을 해야 한다!) 
: 단, outcome 변수는 각기 independent하지 않을 수 있고, 일정한 variance를 갖지 않을 수 있다.

==> 다음과 같은 상황에 적용할 수 있다. 1) clustered data 2) longitudinal or repeated-measure data

- Linear Mixed Model이라는 명칭의 의미는?
: Linear ==> Y와 X 사이의 선형 관계를 가정하고 있다. (general linear model에서 시작해서 여기까지 오는 동안, 아직은 '비선형 관계'가 도입되지 않았다.)
: Mixed ==> Fixed effect / random effect를 모두 모델에 포함할 수 있다.
: Model ==> 통계라는 말이지.

- Cluster data
: 전형적인 예. 10명의 환자를 선정하여, 이들이 가진 치아 중 8개를 연구하는 경우. 이 때 환자는 cluster가 되며, 연구에 포함되는 치아(즉, unit of analysis)는 총 80개가 된다. 이를 그냥 80개의 치아로 분석하지 말하야 하는 이유는, 동일한 환자(cluster)가 가진 치아(unit of analysis)는 유사한 생물학적 특성을 보일 가능성(correlated)이 있기 때문이다.
: 여기에서 GEE에 대비되는 LMM의 장점은, GEE는 unit of analysis가 cluster가 될 수밖에 없다는 점이다. 그러나 LMM은 치아(unit of analysis)에 해당하는 covariate과 함께 환자(cluster)에 대한 covariate도 model에 넣을 수 있다.
: (책에 나온 이야기는 아니지만) 이에 대비하여 GEE의 장점은, binary outcome을 다루면서 OR/CI를 산출할 수 있다는 점일 것 같다. (물론 GEE도 continuous outcome을 다룰 수 있다.)

- Longitudinal data, Repeated-measure data
: 한 명의 환자에게서 multiple observation을 하는 경우, 당연히 동일 환자에게서 측정한 value는 서로 correlated 되어 있다.
: 고전적인 repeated-measure ANOVA는 multivariate normal (MVN) distribution 가정을 필요로 하며 sphericity (각 group 사이의 분산이 homogenous해야 한다)가 만족되어야 한다.
: RM-ANOVA에 비하여 LMM은, MVN distribution은 지켜 주어야 하나, sphericity가 꼭 만족되어야 할 필요는 없다. 즉, 통계 분석자가 알아서 적절한 covariance matrix를 구성할 수 있어 보다 flexible하다. 또한 (더 중요하게는) missing data를 허용하며, time-varying covariate를 허용한다 (측정 시점이 서로 다른 data).
: 끝으로, LMM은 각 환자마다 outcome의 trajectory를 분석할 수 있도록 한다. 그러한 분석 방법으로Growth curve model이 있으며, 이는 random coefficient model의 한 예시이다.


2. Levels of data

(표 한 장이면 쉽게 이해가 되는데... )

- Cluster data와 longitudinal data. 서로 다른 성질의 dataset을 LMM에서 모두 다룰 수 있는 이유가 궁금했다. 잘 생각해 보면,
: 위의 예시에서,
: Level 1 ==> 치아 (Unit of analysis) / 한 명의 환자에서 시행한 각각의 measurement (시간 순서에 따라)
: Level 2 ==> 환자 (Cluster) / 환자 (Unit of analysis 이자 동시에 cluster)

- 이렇게 볼 수 있다. 이렇게 하면, longitudinal data가 cluster data의 개념으로 설명이 잘 된다.
: 3 단계 이상의 hierarchy도 물론 가능하다.


3. Fixed vs Random

(100% 이해했다고 보기 어렵다. 일단, 아는 만큼 그리고 책에 기술된대로 쓴다. 잘못 이해했을 가능성이 높다.)
- Fixed factor: 연구에서 관심이 있는 모든 level을 모델에 포함시킨 경우
: 예를 들어, 성별. 전 지구의 인류를 모두 뒤져 보아도, 성별은 두 가지이다. 
- Random factor: 해당 변수에 관하여 연구에 포함된 level은, 전체 population에서 무작위로 채집된 (randomly sampled) level이다. 그리고 연구자는, 해당 random factor에서 도출된 결과를 전체 population에서 가능한 level에 적용하려는 의도를 갖고 있다.
: 예를 들어, 나이. 연구에 포함된 환자의 나이는 48세 - 82세. 그런데, 이 연구의 결과를 0세부터 무한대 나이의 모든 인구에 적용하고자 한다.
- Fixed vs random factor
: 하지만 이러한 구분은 고정되어 있는 것이 아니다.
: 48세 -82세의 연령을 모델에 포함시킬 때, 연구자의 의도가 '일반적인 뇌졸중 환자의 연령대'인 48세-82세에만 그 결과를 적용하고자 한다면, 연령을 fixed factor로 처리해도 된다.
: random factor로 넣으면, 그 distribution이 넓어진다. (random sampling에 의한 효과, 즉 random effect를 고려해야 하니까) 따라서 (무식하게 말해서) p-value가 올라가게 마련이다. (T.T)

- Nested vs cross factor
: Nested factor / nested effect : 특정 factor가 어떠한 두 번째 factor 내에서만 관찰되는 경우. 예를 들어, 특정 학교의 특정 교실을 random selection 하여 dataset을 만들었다면, 특정 '교실'은 해당 '학교'에만 영향을 주고 받게 된다. A학교의 교실이 B 학교의 교실/학교에 영향을 주지 않는다. 
: Crossed factor / crossed effect : 위의 치아 실험을 예로 들어서, 10명의 환자를 5명씩 나누어 A약과 B약(treatment)을 비교한다고 하자. 이 때 treatment는 환자 - 치아 각각의 level에 영향을 준다. 이 때 treatment는 crossed factor를 가진다고 표현한다.

(R 패키지인 lme4에 포함된 lmer() function은 crossed random effect를 계산할 수 있다고 한다. crossed random effect는 계산하기가 상당히 어렵다는데, 다른 소프트웨어의 사정은 책에 기술되어 있지 않다.)


=======================
Gelman의 Data Analysis Using Regression and Multilevel/Hierarchical Models를 시작했다.
Introductory chapter에 관련 내용이 있어서 추가.

앞에서, LMM에서 사용할 수 있는 data의 종류로 cluster data와 longitudinal data를 언급했고, 이 둘이 사실은 hierarchical structure라는 관점에서 동일하게 취급될 수 있음을 썼다. Gelman은 여기에 더하여, Radon exposure data를 예시로 들면서, random sampling된 COUNTY(highest level)에서 random sampling 된 HOUSE(higher level)에서 여러 번 측정한 radon의 MEASUREMENT(lower level)를 설명한다. 즉, longitudinal / cluster의 구분은 multilevel model의 관점에서는 무의미하다. 

Gelman은 random effect / fixed effect의 구분 역시 무의미하다고 한다. 특정한 변수를 random factor / fixed factor 중 어떤 것으로 다루어야 하는지에 대한 선택에 많은 사람들이 어려워 한다. 실제로, random factor / fixed factor에 대하여 여러 가지의 definition이 제안되었는데, 각각의 definition은 서로 overlap을 하고 있다. 그런데 fixed effect란 실질적으로 random effect의 special case로 취급할 수 있다고 한다. 즉 higher level variance가 0 혹은 무한대로 지정된 경우라고 할 수 있다.

(수학을 제쳐 놓고 개념적으로 이해해 보자. higher level variance가 0이란 말은, 해당 변수의 parameter는 variance가 없다는 뜻이다. 다시 말해서 해당 higher level 내부에서는 주어진 몇 개의 value만 갖고 있다는 의미가 된다. 이 말은 그 자체로 fixed factor의 설명과 동일하다. higher level variance가 무한대라는 뜻은, 해당 higher level에서는 이 변수/값을 modeling할 수 없다는 뜻이다. 어떠한 값을 넣어도 그 parameter의 범위는 무한대가 되기 때문이다. 그런데? 잘 이해가 되지 않는다.)


...

일단, 개념은 여기까지.
다음에는 '수학식'이 등장한다. 나는 고등학교 때 수학을 제일 못했고, 지금도 암산은 5 / 10 자리 단위로 끊어서 해야 한다. 수학이 싫어요 T.T
Posted by BF Panda 돌돌2

댓글을 달아 주세요

  1. maya 2012.05.28 11:47  댓글주소  수정/삭제  댓글쓰기

    통계 공부하다가, 모르는게 있어서 구글링을 하면, 한글로 된 상세한 설명은 선생님 블로그가 독보적이네요! 발령받고 옮기셨나봐요. 저는 장소만 아주 멀리 옮겨서 새로이 fellow 생활 시작하고 있습니다. 선생님 덕분에 저도 많이 배워요. 감사합니다. ^^