[빅데이터 커리어 가이드북] 2부
각 직무별 업무의 성격과 내용, 실제 그 분야 현직자의 인터뷰에 대한 파트. 책에선 여섯 가지의 직무로 나눴지만 현업에선 그리 유용한 분류는 아닐 듯. 실무에선 저렇게 데이터 파트가 잘 짜져있을 지도 미지수고, 있다고 하더라도 각 경계를 넘나들며 작업하지 않을까? 한 가지 분야에 강점을 갖되, 소통과 협업을 위해서는 각 분야에 대한 개념을 모두 가지고 있어야하나 봄.
직무별 업무와 특성
업무 | 특성 | 성공 요소 | |
---|---|---|---|
데이터 엔지니어(Data Engineer) | 요구사항을 분석하고, 데이터 파이프라인(pipeline/flow)을 설계, 구축, 구현 및 유지보수 | 데이터 레이크(Data Lake)나 데이터 웨어하우스(Data Warehouse) 및 데이터 마트(Data Mart) 등에서 Ingestion이나 ETL 등을 통해 데이터를 가져와 BI에 커넥트 데이터를 어떻게 수집할지, 시스템의 수명과 오류 처리에 대한 고민 |
컴퓨터 시스템(동작, 분산 처리, 파일 시스템, 프로토콜, 클라우드)에 대한 지식 코딩이나 시스템 같은 실무 능력은 학교 밖에서 경험을 쌓으며 배우기. Kaggle/Dacon 경험도 굿. 한 분야나 하나의 문제를 깊게 고민/파고드는 경험을 보여주면 좋음. |
데이터 애널리스트(Data Analyst) | 준비된 데이터로 인사이트를 도출하고 시각화하여 요인이나 기여도 등을 보고 | 데이터는 사내의 정형데이터나 새 데이터를 Crawling 등으로 수집 시각화 리포트를 작성하여 전달하고 이를 유지보수. 통계적 지식보다는 도메인을 잘 알아야. |
소통과 중재를 좋아하면 굿. 시각화 적용 프로젝트나 대시보드를 만들어보는 경험 추천 |
데이터 사이언티스트(Data Scientist) | 포뮬레이션(Formulation)을 통해 변환한 데이터 분석 문제를 전처리/EDA/모델링/검증해 인사이트 도출 | 데이터 간의 관계를 위해 회귀분석 등의 기법을 적용할 수 있어야 예측 문제라면 회귀분석 모델뿐 아니라 ML/DL 기반 예측 모델을 활용할 수도 전처리(=필터링=정제)와 EDA(탐색적 데이터 분석)를 통해 데이터를 이해 모델의 설정이나 데이터, 시각을 바꿔보며 선정 |
(신기술 등을) 스스로 적용해보는 호기심과 탐구를 통해 최신 기술을 학습하는 자세 겸비 빅데이터/ML 관련 수업을 수강하는 동시에, 산학 프로젝트 등을 참여하며 끊임없이 공부해야 실무는 정제되지 않은 수억 건의 데이터 활용. 열린 마음과 다양한 방법론을 이해하며 인사이트를 갖춰야 |
데이터 리서처(Data Researcher) | 데이터 분석 관련 알고리즘을 구현, 개발 및 적용, 연구 박사 이상 학위 |
학계와 현장에서는 중요시하는 성능 지표나 사용하는 데이터가 다르기에, 성능 좋은 AL이 제기능을 발휘 못하는 일이 발생 기업의 데이터와 목표에 맞춰 AL을 변형하여 응용 및 적절히 적용하는 연구를 진행 |
새로운 지식과 변화하는 환경에 거부감 없이 적응하는 능력 지적 희열, 설득하는 능력 필요. (자기 개인시간을 업무에 투자할 정도로) 진심으로 좋아해야 버틸 수 있다 스스로 연구하고 주도적으로 공부하기 위한 영어 실력과 체력 겸비 |
시티즌 데이터 사이언티스트(Citizen Data Scientist) | 기업 내 파워 데이터 유저 | 능동적으로 빅데이터를 습득해 기초적 분석 능력을 갖춘 인력. 비전공자이지만 DS를 이해하는 직원 | 본연의 업무를 더 풍성하게 만들 수 있음. 앞으로 모든 인력이 이렇게 바뀌어야 함 |
데이터 기획자(Data Project Manager; PM) | 클라이언트 요구 바탕 프로젝트를 지휘. 자원과 예산 및 비용을 컨트롤 | 프로젝트를 수행하기 위한 내외부 인적 자원, 전산 자원, 프로젝트 가용 예산 등 빅데이터 자원 파악 | - |
쓸만한 Data Tool과 Site
데이터 플랫폼
Data Lake/Warehouse/Stream
- S3: 아마존의 객체 스토리지 서비스
- Redshift: 아마존 AWS Cloud에서 관리하는 데이터 웨어하우스 시스템
- BigQuery: 구글 데이터 웨어하우스 시스템
- Db2: IBM의 데이터 웨어하우스 시스템
- Kafka: Apache의 분산 스트리밍 파이프라인 시스템
- Kinesis: 아마존의 실시간 데이터 스트리밍 시스템
데이터 처리 플랫폼
데이터 수집
- LogStash: 데이터 수집 즉시 전환하여 대상에 전송하는 데이터 처리 파이프라인
- Fluentd: 서버에서 로그 등을 수집해 중앙으로 전송하는 시스템
데이터 최적화, 안정화
- Kafka(위와 중복): Apache의 분산 스트리밍 파이프라인 시스템
- Redis: 딕셔너리 구조로 키-값을 저장하는 외부 서버. Message Queue 구축 가능
데이터 저장, 분석
- RDB(관계형 데이터베이스)
- NoSQL(비관계형 데이터베이스 언어)
- KNIME(나임): 무료 오픈소스 데이터 분석/보고/통합 플랫폼
- Rapid Miner: 데이터 전처리 및 ML/DL/TextMining, 예측 분석 가능 프로그램
- Orange: 오픈소스 Visualization/ML/DataMining 툴킷
- SAS: 고급/다변량 분석 및 BI, 데이터 관리 및 예측을 위한 SW
데이터 시각화
- Spotfire: 데이터 시각화 솔루션
- Tableau: BI/시각화 및 분석 SW
- Kibana: 데이터 탐색/발견 및 시각화 오픈소스 도구
- Power BI: MS에서 만든, Excel을 뛰어넘는 시각화 도구
기타 언어나 Competition 등
다 한번 다뤄보거나 참여해보기!
- R / MATLAB / PYTHON / C++ / SAS
- Kaggle / Dacon
- Makeover Monday : 태블로(Tableau) 사의 Challenge
- Cocodataset : 레이블된 이미지 위주 오픈소스 데이터셋