본문 바로가기

분류 전체보기

이론교육 : 데이터 분석의 이해 1 분석 분석은 도메인(목적)에 따라 많이 달라진다. 분석: 크고 복잡한 대상을 명료하게 인지하기 위하여 하위개념으로 나누고 다시 조합하는 과정 MECE: Mutually Exclusive Collectively Exhaustive 전체를 이해할 수 있도록 나누는데, 누락과 중복 없이! 2 데이터 데이터: 어떤 현상을 측정하거나 관찰하여 기록한 의미 단위 정보: 데이터에 맥락을 더한 것. -> 가치가 부가 지능: 정보가 학습 과정을 거쳐 스스로 판단 가능한 알고리즘 요즘의 데이터는 '인메모리' 방식! 데이터를 메모리에 적제해 결과를 보는 것은 빠르지만 컴퓨팅파워가 필요하다 빅데이터: 일반 컴퓨터로 처리하기 불가능한 큰 용량의 데이터 - 데이터 과학이 보다 일반적인 의미 3 데이터 분석 합리적 판단을 위한.. 더보기
캐글 타이타닉 생존자 예측 캐글 연습은 타이타닉으로 시작! 타이타닉은 데이터분석 수업을 들으면서 많이 접한 데이터이긴 한데, 나 혼자서 처음부터 끝까지 제대로 해 본적은 없었다. 그리고 결측치 처리에서 단순히 평균으로 대체하는 것으로 배우고 지나갔는데, 좀 더 꼼꼼하게 처리하면 분석 결과가 더 좋아지지 않을까 생각해서 결측치 처리 방식을 고민하고 시도해보고 싶었다. R과 파이썬 모두 진행했고, 그 중 submission 결과가 더 좋은 R코드를 기반으로 설명했다. 진행하면서 생기는 이슈에 대해서는 R과 파이썬 모두 설명했다. 생각보다 기초적인 이슈가 많이 발생하네. 데이터 설명 survival: 생존 여부. 0은 사망, 1은 생존. pclass: 좌석 등급. 1등급이 제일 높다. sex: 성별. age: 나이. sibsp: 타이타.. 더보기