데이터 사이언스
Why 데이터 사이언스?
- 빅데이터의 시대
- 데이터 기반 의사결정(DDDM)
- 데이터 문해력(Literacy)의 중요성
- 머신러닝은 데이터로부터 학습한다
데이터 사이언스
- 데이터의 분석과 활용이 개인과 조직의 새로운 힘이 되고 경쟁력이 되는 시대
- 데이터 사이언스는 데이터 수집, 큐레이션, 통계 분석과 기계학습 등의 다양한 기술과 지식을 활용하여 복잡한 데이터로부터 인사이트를 얻거나 지능화된 시스템을 구현하기 위한 모든 업무를 총칭
데이터 사이언스 로드맵

데이터 사이언스 진행 과정
- 목표 설정 : 어떤 데이터와 리소스가 필요하고, 어떻게 이익을 내며, 일정, 최종 산출물 정의
- 데이터 획득 : 사용할 데이터 존재여부(내부, 외부), 품질 정도, 접근 가능여부 파악 후 raw 데이터 확보
- 데이터 준비 : 데이터 정제 (오류, 이상치 ,결측치 등등..) 및 가공(변환, 조합)
- 데이터 탐색 : EDA, 데이터에 대한 깊은 이해 및 해석(변수들의 상호작용, 데이터 분포), 시각화, 단순 모델링
- 데이터 모델링 및 구축 ; 도메인 지식, 통찰력으로 답을 찾는 과정, 모델 구축(변수선택>실행>진단을 반복)
- 발표 및 자동화 : 경영진 발표, 연구 보고서, 업무 수행 과정 자동화
데이터 소스 대방출
