본문 바로가기

Data Science : Project/도시문제 분석을 위한 데이터 시각화 및 탐색

이론교육 : 데이터 분석의 이해

반응형

 1  분석

분석은 도메인(목적)에 따라 많이 달라진다.

분석: 크고 복잡한 대상을 명료하게 인지하기 위하여 하위개념으로 나누고 다시 조합하는 과정

 

MECE:

Mutually Exclusive Collectively Exhaustive

전체를 이해할 수 있도록 나누는데, 누락과 중복 없이!

 

 

 

 2  데이터

  • 데이터: 어떤 현상을 측정하거나 관찰하여 기록한 의미 단위
  • 정보: 데이터에 맥락을 더한 것. -> 가치가 부가
  • 지능: 정보가 학습 과정을 거쳐 스스로 판단 가능한 알고리즘

요즘의 데이터는 '인메모리' 방식! 데이터를 메모리에 적제해 결과를 보는 것은 빠르지만 컴퓨팅파워가 필요하다

 

빅데이터: 일반 컴퓨터로 처리하기 불가능한 큰 용량의 데이터 - 데이터 과학이 보다 일반적인 의미

 

 

 

 3  데이터 분석

합리적 판단을 위한 '통찰'을 얻기 위하여 다양한 관점으로 데이터를 살펴보는 과정

현상 진단, 원인 파악, 예측으로 합리적인 문제 해결에 접근할 수 있다.

데이터에 의하여 보여지는 현상이 아닌, 데이터 이면에 감추어진 '실체'를 파악하도록 노력해야 한다.

    - 실체: 편견을 벗어나고 데이터 발생의 맥락을 이해하는 것

 

 

 

 4  데이터 분석의 유형

  • 설명적 분석: 데이터를 요약, 집계. 발생한 사실 그 자체를 설명 ex) 외국인 관광객의 동선 패턴
  • 진단적 분석: 데이터 간의 관계를 파악, 특정 결과가 발생한 원인을 밝히기 위하여 사용 ex) 시간대에 따른 택시 운행대수 분석 - 심야시간에 운행대수가 적기 때문에 택시 잡기가 어렵다(진단)
  • 예측적 분석: 미래의 불확실한 사실을 사전에 예측하거나, 알려지지 않은 결과의 가능성을 파악하기 위해 사용 ex) 따릉이 주중 대여 이용량 예측 결과
  • 처방적 분석: 예측되는 상황을 위해 무엇을 하면 좋을지 대안 제시. 대안도출, 의사결정, 일부 실행

 

 

 5  데이터 분석 절차

상황에 따라서 이전 단계로 되돌아 갈 수 있음: 다음 단계의 결과가 쉽게 예측되지 않기 때문에 원하는 결과가 나오지 않을 경우

 

1) 문제정의

데이터로 해결하고자 하는 객관적이고 구체적인 질문.

해결 가능해야 하며, 임팩트가 있어야 하고, 사회 정서에 부합해야 한다.

 

문제 정의가 어려운 이유

  • 기존에 없었던 새로운 사실을 발견해야 함
  • 누구나 공감할 수 있는 변화 또는 혁신의 근거로 작동하여야 함
  • 한정된 자원과 이해관계 때문에 분석 결과를 예측하기 어려움
  • !! 다르게 말하면 문제 정의에서 고려해야 하는 부분 !!

문제는 '가치'와 '가능성'이 있어야 한다!

 

분석을 위한 문제 찾기

  • 서울의 도시문제 개요 TIC
  • 사회적 이슈 '빅카인즈'
  • 네이버 트랜드, 구글 트랜드

진짜 문제 찾기: 문제의 구체화, 맥락의 이해

ex) 엘리베이터가 느리다고 느낀 것은 속도가 아니라 지루함 때문 -> 속도를 높이는 것이 아니라 거울을 부착하였다!

 

2) 데이터수집

  • 필요한 데이터 요건 정의: 데이터 목록과 범위 구체화
  • 데이터 소재 파악

3) 데이터 전처리

  • 정제: 누락값 입력, 일관성 있게 수정
  • 통합
  • 변형: 범주화
  • 중복데이터 제거

4) 데이터 모델링

데이터를 시간, 공간, 관심사로 쪼개서 문제해결을 하는데 도움되는 관점으로 본다

ex) 교통사고 데이터 - 사고차량 관점, 사고일시 관점, 사고장소 관점, 가해자 관점, 피해자 관점

 

5) 시각화 및 탐색

시각화: 사람이 인지하기 용이한 형태로

장소의 경우 '집계구'라는 제일 작은 단위로 하는 것이 좋다.

 

 

 

 

 

 +  인구 데이터

 

유동인구

  • 내가 궁금해하는 지역에 사람이 얼마나 다니는가
  • 추산하는데 비용이 많이 든다
  • 특정 시간, 특정 장소에 어떤 사람이 있는가. 이 사람의 성별, 나이, 어디서 왔는가(유입지), 외국인인지, 외국인이라면 장기체류인지 단기체류인지.
  • 5일이 경과한 데이터를 서울시 열린데이터광장에 제시하고 있음
  • 광화문 집회에서 수보다는 이 사람이 어떤 특성을 갖고 있는가에 초점을 두고 분석되고 기사화

생활인구

  • 휴대폰과 기지국의 신호로 그 사람이 어떤 활동을 하고 있는지 파악한 것.
  • 어디에 얼마나 무엇을 하면서 있는지
  • 지역 축제 참가 인원 분석, 핫플레이스 분석에 활용될 수 있다
  • 단점
    • 10대 이하, 80세 이상을 추정할 방법이 없다. 휴대폰을 활용한 방법이 불가하기 때문에 다른 방법을 사용해 추정하지만 오류가 크게 발생할 때가 있다.(신용카드 매출데이터에서도 비슷하게 발생.)

 

 

 +  실습에 도움이 될 여러 사례

  • 지방행정인가데이터 : 열린데이터광장에 없는 데이터들을 찾아볼 때 유용
  • 건설교통부, kb국민은행 : 주택 관련한 자료 얻는데 유용

 

 

 

 

 

반응형