본문 바로가기

Data

(7)
WCRC data contest 딥러닝 - 프로젝트 진행기간: 10월 9일 ~ 11월 25일 (약 47일) - 참여 인원: 4명 - 머신러닝 피처 추출, 발표 자료 제작 - 결과: WCRC data conetst 딥러닝부문 4위 프로젝트 내용 목표: 다양한 전처리를 통한 보다 객관적인 퍼스널 컬러 진단 모델 제작 역할: 머신러닝 피처 추출, 발표 자료 제작 사용기술: Python, Dlib, OpenCV 딥러닝을 활용해 다양한 시도를 해보는 것이 이 공모전의 목적이었던 거 같다. 데이터 수집·크롤링 논문을 참고해 봄웜, 여름쿨, 가을웜, 겨울쿨 4가지 퍼스널 컬러를 설정했다. 여러 가지 블로그를 참고해 공통적으로 등장하는 퍼스널 컬러별 대표 연예인 이미지를 구글에서 각 컬러별로 2000개씩 크롤링했다.(사실 4000개 정도 크롤링하고 반은 정..
데이터 활용 공모전 - 프로젝트 진행 기간(6월 5일~6월 28일) 약 23일 - 참여 인원 3명 - 기획/데이터 서칭/인터뷰 진행 프로젝트 내용 목표: 국가교통데이터를 활용한 아이디어 제안 아이디어: 세종시 공실 감소를 위한 단기 임대 플랫폼 기존에 있는 공공데이터로 공간을 분석해두고, 실제 공실 매물 정보가 업로드 되면 분석해둔 정보를 통해 활용 방안을 생각할 수 있다. 실 사용자가 공실 공간에 남긴 리뷰 데이터를 통해 추후 상권분석에 쓰일 개인데이터를 확보 할 수 있다. [기획 의도] 세종시의 상가 공실 문제 해결 타 지역 대비 월등히 높은 상가 공실 지역 세종시 발령 받아서 온 직장인들이 정착을 기피 공실 공간 활용에 대해 주민과 상인들의 대립 발생 [공모전 목표] 공실 상가 활용법 제안 공실 상가 단기 임대 시 활..
확률변수와 분포 확률질량함수 이산형 확률변수의 확률함수 다 더하면 1 확률밀도함수 연속형 확률변수가 취할 수 있는 모든 값 한 점을 취할 확률은 항상 0 전체 범위로 적분시 결과 값 1 만족해야함 기대값, 분산, 표준편차의 성질(표준편차는 분산의 1/2배!) 표준화 결합확률분포 x,y가 이산확률변수일때 x,y값을 모두 만족하는 확률 주변확률분포 x,y에 대한 결합 확률이 주어졌을때, x, y각각의 확률 함수 공분산 두 확률변수 사이에서 정의되는 관계의 밀접도 측정 서로 단위가 다른 공분산은 비교하기 어려움 양수 두 확률 변수가 같은 방향으로 증감한다 음수 두 확률 변수가 다른 방향으로 증감한다. 상관계수 두 확률변수 사이에서 정의되는 관계의 밀접도 측정 단위에 영향 받지 않음 [-1,1] 양수 양의 상관관계 0 관계 별..
집합과 확률 전공을 해서 좋은점은 전공책이 많다는것과 어렴풋이 아는게 있다는거 같다. 인적성에도 많이 나오는 확률 계산 아직도 어렵기만 하다. 집합. 명확하게 정의되고 구별가능한 대상들의 모임 많이 썼던 계산 식 확률. 현상에 대한 가능성의 척도로서 0~1사이의 값 표본공간: 모든 가능한 근원사상들의 집합 사상: 표본공간안에서 발생가능한 경우의 수를 모은 부분집합 확률 = 전체에서 특정 경우가 나오는 횟수/전체 경우의 수 확률을 구할때 자주 쓰이는 공식
좀 더 세밀한 자료 파악 Summary를 통해 알 수 있는 자료의 대표값(평균, 중위수, 최빈값, 사분위수)과 퍼짐 정도를 나타내는 산포도 평균이 무조건 좋지 많은 않다는것을 알게 한 건 아마 통계학을 배우고부터 일 것이다. 우리 학과는 시험 보고 난 뒤 평균과 중위수 분포를 알려주셨다. 혹시 다른 학과도 그런가? 대표값 평균 이상값 존재시 좋은 대표값이 될 수 없다. 가중평균(가중의 합으로 나누기)을 통해 이상값 약점 보완 중위수 순서에 따라 정해져서 확장성없다. 극단값의 영향을 덜 받는다. 사분위수 오름차순 후 자료의 25%(1)/50%(2)/75%(3)에 해당되는 값 최빈값 자료값들이 모두 동일한 경우 불합리 산포도 범위 자료의 최대값-최소값 정보의 손실이 크다 범위 보완 사분위범위 제3사분위수-제1사분위수 편차 자료값과 ..
자료를 수집하고 정리하자 통계학스럽게 표본조사에서 모집단을 잘 대표할 수 있도록 표본을 추출하는 것이 매우 중요하다. 현직자분이 그랬다. 코호트 분석이 중요하다고, 특성 있는 집단끼리 분석하는 게 암만해도 중요할 거 같다. 통계학 용어는 영어가 더 직관적일때가 많다. 하이브리드 방식을 택하겠다. 질적 자료 단순임의추출법 (simple random sampling) 랜덤하게 임의로 추출 층화추출법 (stratified sampling) 모집단의 추가 정보를 통해 층을 나눠 층별로 고르게 추출 양적 자료 계통추출법 (systematic sampling) 처음에 적게 추출하고 점차 같은 수만큼 추출해서 크기 늘리기 집락추출법 (cluster sampling) 여러 개의 특징 있는 집단이 결합돼 있을때 타고 들어가서 추출 측정 Measurement..
통계학이란? 데분을 다시 시작하면서 통계학의 정의부터 시작해 본다. 짧디 짧은 건축학도 시절 통계학에 빠지게 한 일반통계학 책을 핀다. 통계학은 언어, 필터, 합리적 사고의 결과이다. 즉, 불확실성과 현상의 다양성을 기본으로 하는 기초과학이다.