Data/통계학 (5) 썸네일형 리스트형 확률변수와 분포 확률질량함수 이산형 확률변수의 확률함수 다 더하면 1 확률밀도함수 연속형 확률변수가 취할 수 있는 모든 값 한 점을 취할 확률은 항상 0 전체 범위로 적분시 결과 값 1 만족해야함 기대값, 분산, 표준편차의 성질(표준편차는 분산의 1/2배!) 표준화 결합확률분포 x,y가 이산확률변수일때 x,y값을 모두 만족하는 확률 주변확률분포 x,y에 대한 결합 확률이 주어졌을때, x, y각각의 확률 함수 공분산 두 확률변수 사이에서 정의되는 관계의 밀접도 측정 서로 단위가 다른 공분산은 비교하기 어려움 양수 두 확률 변수가 같은 방향으로 증감한다 음수 두 확률 변수가 다른 방향으로 증감한다. 상관계수 두 확률변수 사이에서 정의되는 관계의 밀접도 측정 단위에 영향 받지 않음 [-1,1] 양수 양의 상관관계 0 관계 별.. 집합과 확률 전공을 해서 좋은점은 전공책이 많다는것과 어렴풋이 아는게 있다는거 같다. 인적성에도 많이 나오는 확률 계산 아직도 어렵기만 하다. 집합. 명확하게 정의되고 구별가능한 대상들의 모임 많이 썼던 계산 식 확률. 현상에 대한 가능성의 척도로서 0~1사이의 값 표본공간: 모든 가능한 근원사상들의 집합 사상: 표본공간안에서 발생가능한 경우의 수를 모은 부분집합 확률 = 전체에서 특정 경우가 나오는 횟수/전체 경우의 수 확률을 구할때 자주 쓰이는 공식 좀 더 세밀한 자료 파악 Summary를 통해 알 수 있는 자료의 대표값(평균, 중위수, 최빈값, 사분위수)과 퍼짐 정도를 나타내는 산포도 평균이 무조건 좋지 많은 않다는것을 알게 한 건 아마 통계학을 배우고부터 일 것이다. 우리 학과는 시험 보고 난 뒤 평균과 중위수 분포를 알려주셨다. 혹시 다른 학과도 그런가? 대표값 평균 이상값 존재시 좋은 대표값이 될 수 없다. 가중평균(가중의 합으로 나누기)을 통해 이상값 약점 보완 중위수 순서에 따라 정해져서 확장성없다. 극단값의 영향을 덜 받는다. 사분위수 오름차순 후 자료의 25%(1)/50%(2)/75%(3)에 해당되는 값 최빈값 자료값들이 모두 동일한 경우 불합리 산포도 범위 자료의 최대값-최소값 정보의 손실이 크다 범위 보완 사분위범위 제3사분위수-제1사분위수 편차 자료값과 .. 자료를 수집하고 정리하자 통계학스럽게 표본조사에서 모집단을 잘 대표할 수 있도록 표본을 추출하는 것이 매우 중요하다. 현직자분이 그랬다. 코호트 분석이 중요하다고, 특성 있는 집단끼리 분석하는 게 암만해도 중요할 거 같다. 통계학 용어는 영어가 더 직관적일때가 많다. 하이브리드 방식을 택하겠다. 질적 자료 단순임의추출법 (simple random sampling) 랜덤하게 임의로 추출 층화추출법 (stratified sampling) 모집단의 추가 정보를 통해 층을 나눠 층별로 고르게 추출 양적 자료 계통추출법 (systematic sampling) 처음에 적게 추출하고 점차 같은 수만큼 추출해서 크기 늘리기 집락추출법 (cluster sampling) 여러 개의 특징 있는 집단이 결합돼 있을때 타고 들어가서 추출 측정 Measurement.. 통계학이란? 데분을 다시 시작하면서 통계학의 정의부터 시작해 본다. 짧디 짧은 건축학도 시절 통계학에 빠지게 한 일반통계학 책을 핀다. 통계학은 언어, 필터, 합리적 사고의 결과이다. 즉, 불확실성과 현상의 다양성을 기본으로 하는 기초과학이다. 이전 1 다음