데이터분석 프로젝트
-
캐글 샌프란시스코 범죄발생률 예측 : train & test
▶이전글 : EDA 캐글 샌프란시스코 범죄발생률 예측 : EDA 파이썬으로 진행하였고, 데이터 분석 강의 4주차를 마무리하고 캐글에 최종적으로 제출한 버전을 기반으로 코드를 설명했다. (중간 과정이 궁금하다면 github를 참고! github.com/helloMinji/Kaggle_crime_Sa hellominji.tistory.com 데이터 전처리 여기서는 train에 대해서만 기재하지만, test에도 같은 과정을 거쳤다. 1 Dates train["Dates-year"] = train["Dates"].dt.year train["Dates-month"] = train["Dates"].dt.month train["Dates-day"] = train["Dates"].dt.day train["Dates-h..
더보기
-
캐글 샌프란시스코 범죄발생률 예측 : EDA
이 예측의 목적은, feature와 같은 정보가 있을 때 어떤 종류의 범죄가 발생할 확률이 얼마인지 예측하는 것이다. 파이썬으로 진행하였고, 데이터 분석 강의 4주차를 마무리하고 캐글에 최종적으로 제출한 버전을 기반으로 코드를 설명했다. (중간 과정이 궁금하다면 github를 참고! github.com/helloMinji/Kaggle_crime_SanFrancisco ) helloMinji/Kaggle_crime_SanFrancisco [Kaggle] 샌프란시스코에서 발생한 범죄 종류 예측. Contribute to helloMinji/Kaggle_crime_SanFrancisco development by creating an account on GitHub. github.com 데이터 설명 Dates..
더보기
-
PowerBI 프로젝트 : 보고서 - 구 단위 2
시각화4 꺾은선형 차트 1) 월별 생활인구 날짜 계층을 바꾸면 분기, 년도 별로도 확인이 가능하나 유의미한 상태가 월별이라고 판단하여 월로 고정하였다. 월별 서울시 구의 생활인구는 위와 같고, 마포구, 강남구, 서초구의 생활인구가 많음을 알 수 있다. 필드 축: (Calendar) Date, 월, 일 테이블 내에는 Date 컬럼만 있는데, 그걸 필드-축으로 끌고 오면 v 표시가 생긴다. 해당 표시를 클릭하여 날짜 계층을 선택하면 월, 일이 생긴다. 범례: (행정동코드) 시군구명 - 색을 임의로 지정할 수 없고, 범례에 따라 무작위로 선택된다. 다른 시각화 개체를 생성하면 같은 범례값끼리는 같은 색으로 나온다. 값: (생활인구) 평균생활인구수/24개 생활인구 테이블 내에 생활인구수/24 컬럼 생성: 생활인..
더보기
-
PowerBI 프로젝트 : 보고서 - 구 단위 1
핫플레이스 분석의 목표는, 시각화를 통해 핫플레이스가 어디인지 분석해내는 것이다. 이를 위해 핫플레이스의 정의를 정하였고, 정한 정의에 따라 시각화를 진행하였다. 우리가 정한 핫플레이스란? 젊은 사람들이 많이 돌아다니고, 핫한 가게가 많은 곳! 이 중 내가 맡은 부분은 생활인구 데이터로, 젊은 나이의 유동인구가 많은 곳이 핫플레이스라고 가정하고 시각화를 진행하였다. Option 필터 생활인구 데이터 중 2030대의 데이터만 필터를 걸어 시각화에 사용한다. 이를 통해 젊은 사람들이 많이 다니는 곳을 알 수 있다. 현재 페이지에서만 필터를 걸건지, 모든 페이지에 필터를 건건지에 따라 필터를 선택한다. - 데이터 필드 추가로 원하는 컬럼을 추가한다. - 필터 형식을 선택한다 : 여기서는 '기본 필터링'을 선택..
더보기