[범주형 자료분석 1주차] 범주형 분포
Mar 5 (Wed)
어제 통계 13학번 교수님에 이어 오늘은 통계 97학번 출신 교수님의 수업이다. 수업의 목표는 (다항) 로지스틱 회귀 (multinomial logistic regression)를 이해하는 것.
저번 학기에 무려 30%에게 A+을, 50%까지 A0를 주신 천사 교수님이시지만, T/F 문제를 좀 꼬아서 내시는 등 시험은 어려웠다고 한다. 그래서 이번에는 저번처럼 꼬지 않고 straightforward하게 출제하실 예정이라고. 숙제는 수기는 태블릿이든 좋으니 handwritten본을 LMS 및 인쇄하여 제출해야하는 듯 하다. 여느 통계학 과제든 다 이렇게 제출한다.
시험 전에는 각각 기출 2회분을 제공해주실거라고 하셨다. 일단 클루에서 R코드와 handwritten 증명을 다 해보라고 했으니 그것 위주로 공부해보자.
Categorical Distributions
한 학기동안 다루게 될 범주형 데이터는 흔히 응답 변수(혹은 종속 변수)의 경우를 의미한다. 다 배운 내용이지만 X는 설명 변수(혹은 독립 변수)라 하며, 이 X에서 범주형 종속 변수(Categorical Response Variable) Y로 향하는 모델을 살펴볼 것이다.
범주형 변수는 다시 두 가지로 나뉘는데, 서열을 가진 순위 변수(Ordinal variable)와 그렇지 않은 명목 변수(Nominal variable)가 있다. 예를 들어 순위 범주형 변수는 1-9등급이나 좋음/보통/나쁨과 같은 평가 요소가 있다. 반대로 명목 범주형 변수는 음악의 종류(클래식, 컨트리, 포크 등)와 같이 순서가 없는 변수를 의미한다. 더 좋은 설명으로는 이 글을 참고.
범주형 변수를 나타내는 확률 분포를 범주형 분포(Categorical Distributions)라 하는데, 흔히 다항 분포나 포아송 분포를 의미한다.
Binomial Distribution
먼저 가장 쉬운 이항 분포(Binomial Distributions)의 경우에는 시행 횟수 n과 성공 확률 pi로 구성되는데, 여기서 pi는 모수(모집단의 특성치)라는 것을 기억하자. 통계량(표본의 특성치)이 아니다. 이 상황에서 성공 횟수를 나타내는 확률 변수 Y가 이항 분포를 따른다면
\[Y\sim B(n,\pi)\]와 같이 표현한다. 이항 분포의 확률질량함수(PMF)는
\[P(Y=y)=p(y)=\binom{n}{y}\pi^y(1-\pi)^{n-y}\]이며 이때 성공 횟수 y는 0이상 n이하의 정수이다. 이항 분포의 성공 확률이 p라 할때 평균은 np, 분산은 npq임은 너무나도 잘 알려져 있다. 교수님의 두 가지 증명 방법은 그냥 적어만 두겠다. 시험 전에 복기만 해두자.
이항 분포의 평균 (전사건의 확률은 1)
\[\begin{align} E(Y)&=\sum_{n=0}^\infty y\binom{n}{y}\pi^y(1-\pi)^{n-y}\\&=n\pi\sum_{n=0}^\infty \binom{n-1}{y-1}\pi^{y-1}(1-\pi)^{n-y}=n\pi\end{align}\]이항 분포의 평균 (적률생성함수 활용)
적률 생성 함수(MGF; Moment Generating Function)를 구한 후 미분하여 평균을 구해보자. 이항 정리(Binomial Theorem에 따라) 다음과 같이 MGF가 계산된다.
\[\begin{align} M(t)=E(e^{ty})&=\sum_{n=0}^\infty \binom{n}{y}\pi^y(1-\pi)^{n-y}e^{ty}\\&=\sum_{n=0}^\infty \binom{n}{y}(\pi e^t)^y(1-\pi)^{n-y}\\&=(\pi e^t+1-\pi)^n\end{align}\]MGF를 k번 편미분한 뒤 t에 0을 대입하면 k차 중심적률이 된다. 1차 중심적률은 확률변수의 평균과 같으므로 계산하면
\[\begin{align} E[Y]&=M'(0)=\frac{\partial}{\partial t}M(t)|_{t=0}\\&=n(\pi e^t+1-\pi)^{n-1}\pi e^t|_{t=0}\\&=n\pi\end{align}\]이항 분포의 분산 (적률생성함수 활용)
2차 중심적률과 앞서 구한 1차 중심적률을 통해 이 분포의 분산을 유도하면
\[\begin{align} M''(t)&=\frac{\partial}{\partial t}M'(t)\\&=\frac{\partial}{\partial t}\;n\pi e^t(\pi e^t+1-\pi)^{n-1}\\&=n\pi e^t(\pi e^t+1-\pi)^{n-1}+n\pi e^t(n-1)(\pi e^t+1-\pi)^{n-2}\pi e^t\end{align}\]에서
\[E[Y^2]=M''(0)=n\pi+n(n-1)\pi^2\]이므로 분산은
\[Var(Y)=E[Y^2]-E[Y]^2=n\pi(1-\pi)\]Multinomial Distribution
한편 이항 분포를 범주형에 걸맞게 확장시킨 것이 다항 분포(Multinomial Distribution)인데 이 경우 각 범주(클래스) c에 대하여 각 클래스에 속할 확률인 pi_j와 속한 횟수 Y_j가 정의된다. (여기부턴 ‘성공확률’이라기 보다는 ‘각 클래스에 속할 확률’이라고 표현하는 것이 올바르다)
당연히 각 클래스에 속할 확률들의 합 \(\sum_{j=1}^c\pi_j=1\)이며, 각 클래스에 속한 횟수들의 합 \(\sum_{j=1}^cY_j=n\) 이다. 또한 익히 알려져있든 다항 분포의 PMF는
\[P(Y_1=y_1,\dots,Y_c=y_c)=\frac{n!}{y_1!\cdots y_c!}\pi_1^{y_1}\cdots \pi_c^{y_c}\]이며 각 클래스에 해당하는 확률 변수 Y_j의 평균, 분산, 공분산은 각각
\[E(Y_j)=n\pi_j\] \[Var(Y_j)=n\pi_j(1-\pi_j)\] \[Cov(Y_i,Y_j)=-n\pi_i\pi_j\]이다.
출처: 범주형자료분석(STAT343) ㅈㅇㅅ 교수님