사례 분석으로 배우는 데이터 시각화 - 2. 데이터 시각화 준비하기
*본 게시글은 '사례 분석으로 배우는 데이터 시각화' 책을 읽고, 학습을 위해 정리한 내용입니다.
1. 데이터 시각화 사전 작업
1단계 : 알고 싶은 질문 생각하기
데이터 시각화의 목표가 정해지면 수집해야 하는 데이터와 그 데이터를 효과적으로 시각화하는 방법이 명확하기 때문이다.
2단계 : 데이터 획득하기
- 공공데이터 이용하기
공공데이터 포털
국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방하여 국민들이 보다 쉽고 용이하게 공유•활용할 수 있도록 공공데이터(Datase
www.data.go.kr
- 설문조사로 직접 데이터 수집하기
- 분석 목적에 맞는 데이터를 수집할 수 있다.
- 처음부터 새로 수집해야 하므로 추가 비용이 발생하고 시간이 오래 걸린다
3단계 : 데이터 정제하기
데이터를 시각화하기 전 반드시 오류를 찾아야 한다. 데이터 분석이 끝난 후 오류를 발견한다면 분석 결과의 신뢰성이 떨어지기 때문. 데이터를 획득했다면 그 데이터의 품질과 무결성을 확인하자.
데이터 무결성
데이터에 오류가 없고 분석과 관련 없는 불필요하거나 반복된 데이터가 없는 상태.
데이터 무결성을 확인하려면 데이터 정제(데이터 클렌징)가 필요하다
데이터 정제 6단계
1. 불필요한 항목 제거하기
2. 중복된 열이나 데이터 제거하기
3. 이상치나 데이터 오류 처리하기
4. 불필요한 데이터 처리하기
5. 카테고리화하기(데이터 범주화)
6. 오탈자 수정하기
4단계 : 적절한 차트 선택하기
데이터 속 메시지를 효과적으로 전달하기 위해 데이터에 맞는 적절한 차트를 사용해야 한다.
데이터 속 메시지를 보여주는 4가지 방법
1. 항목 간 상대 수치 비교하기 -> 막대 차트, 누적 막대 차트
2. 항목 간 관계 파악하기 -> 분산형 차트
3. 데이터 패턴 포착하기 -> 선 차트
4. 데이터 구성 요소 비율 파악하기 -> 파이차트
5단계 : 데이터 준비하기
시각화 방법을 결정했다면 데이터를 그에 맞는 구조로 바꿔야 한다. 하나의 차트에 모든 데이터를 담을 수 없기 때문에 중요한 데이터를 선택해서 시각화해야 한다.
5가지 데이터 구조
1. 데이터 속성 설정하기(숫자, 날짜)
2. 데이터 단위 설정하기(금액, 생산량)
3. 데이터 필터링으로 관심 있는 데이터 추려내기
4. 데이터 그룹화로 요약값 산출하기(최솟값, 최댓값, 평균, 중간값, 개수)
5. 기존 데이터를 바탕으로 새로운 항목 추가하기
6단계 : 데이터 시각화하기
데이터 시각화 4단계
1. 시각화 도구를 사용하여 데이터 불러오기
2. 사전에 계획한 차트 구현하기
3. 차트를 이용해 데이터 분석하기
4. 디자인 요소를 적용해 시각화 효과 극대화하기
* 4단계 모두 따를 필요는 없다. 데이터 시각화 목표에 맞게 사용
2. 데이터 시각화 도구
소프트웨어, 웹 사이트 기반 데이터 시각화 도구
태블로(Tableau) | - 직관적이고 쉬운 사용자 인터페이스, 상호작용이 가능한 대시보드 등 감각적인 데이터 시각화 가능 - 대용량 데이터 처리에 용이 - 라이선스 구입 필요(태블로 퍼블릭은 무료) - 예약 기능 X |
파워 BI(Power BI) | - 마이크로소프트에서 개발한 시각화 소프트웨어로, 마이크로오피스와 쉽게 연동됨. 대시보드 및 다양한 차트를 활용한 보고서 작성 - 엑셀 연동 가능, 빠른 업데이트 - 투박한 인터페이스 - 무료버전은 데이터 용량 제한 |
구글 데이터 스튜디오(Google Data Studio) | - 구글에서 제공하는 무료 데이터 시각화 도구로 다양한 차트를 활용한 대시보드와 리포트 작성 가능. 구글 스프레드시트, 구글 드라이브와 쉽게 연동 가능 - 대시보드 실시간 업데이트 어려움 - 엑셀 파일 지원 X |
엑셀(Microsoft Excel) | - 테이블 형태로 데이터를 정리하고 시각화 할 때 많이 사용. - 대용량 데이터 처리 시 속도 저하 - 협업 어려움 |
프로그래밍 언어 기반 데이터 시각화 도구
파이썬(Python) | - 범용성이 높아 다양한 분야에서 사용. 머신러닝이나 딥러닝에 많이 사용되며, 데이터를 유연하게 처리하고 분석해서 시각화할 수 있음. - 모바일 환경에서의 사용 어려움 |
R | - 통계 분석에 자주 활용되는 프로그래밍 언어로, 통계 관련 패키지가 많이 배포되어 있어 통계기법을 시각화에 적용할 때 유용. - 오픈 소스 지원 - 수준 높은 차트 및 그래프 구현 가능 |
구글 차트(Google Charts) | - 자바스크립트를 활용해 웹 사이트상에서 다양한 차트를 구현할 수 있도록 도와주는 시각화 도구. 엑셀 및 구글 스프레드시트의 데이터를 불러올 수 있음. - 무료 사용 가능 - 온라인에서만 사용 가능 - 자바스크립트 지식 필요 |