데이터 과학의 툴 셋

데이터 분석 프로세스

Jupyter Notebook
- Jupyter = Ju(lia) + Pyt(hon) + R
- 웹 기반 + 통합 개발 환경 + 인터랙티브
- 노트북 = 문서(마크다운) + 코드 + 시각화 + 수식표현
- IPython에서 시작(2014년)
- 데이터 과학 분야의 표준 도구(Ed Facto)
- 코드 작성과 실행, 출력 보기, 시각화 출력
- 어디에 쓸까?
- 데이터 분석과 개발 과정 전반에서 사용
- 개발 프로토타입을 만들 때
- 그냥 개발용으로(지원 언어 40+)
- 누가 쓸까?
- 데이터를 다루는 누구나!
- 개발과 기록을 한번에, 내보내기와 공유
Jupyter Notebook 시작하기
- 설치형
- 그냥 설치(Python, pip)
- anaconda : 패키지 + 환경관리
- docker
- 서비스형
- Google Colab
- Kaggle
- Cloud : AWS, GCP, Azure
데이터 구하기
- Data Sources : RDB, DW, Data Lake, File(CSV, log, atxt, Excel), Service, ..
- Open Dataset, Open API : (9/5일) 데이터 사이언스 방송 참고