표본조사에서 모집단을 잘 대표할 수 있도록 표본을 추출하는 것이 매우 중요하다.
현직자분이 그랬다. 코호트 분석이 중요하다고, 특성 있는 집단끼리 분석하는 게 암만해도 중요할 거 같다.
통계학 용어는 영어가 더 직관적일때가 많다. 하이브리드 방식을 택하겠다.
질적 자료 | 단순임의추출법 (simple random sampling) |
랜덤하게 임의로 추출 |
층화추출법 (stratified sampling) |
모집단의 추가 정보를 통해 층을 나눠 층별로 고르게 추출 | |
양적 자료 | 계통추출법 (systematic sampling) |
처음에 적게 추출하고 점차 같은 수만큼 추출해서 크기 늘리기 |
집락추출법 (cluster sampling) |
여러 개의 특징 있는 집단이 결합돼 있을때 타고 들어가서 추출 |
측정 Measurement
명목(고유 특성) | 성별, 지역, 직업 |
순위(서열 존재) | 상/중/하, 1/2/3 |
구간(등간격 수치 부여, 절대적 원점 없음) | 온도, 주가 지수, 고객 만족 지수 |
비율(절대적 원점 존재, 비율 계산 가능) | 체중, 키, 상품의 판매량 |
측정하는 도구와 방법은 bias가 없어야하고, 반복 측정시 결과가 같아야 하고, 다른 사람이 측정해도 결과가 같아야한다.
위의 세 가지를 만족하면 신뢰성(reliability)이 있다고 판단한다.
자료 특성 파악
#도수분포표
table()
#시각화
barplot()
hist()