[빅데이터 커리어 가이드북] 2부

2024-03-20 2 분 소요

각 직무별 업무의 성격과 내용, 실제 그 분야 현직자의 인터뷰에 대한 파트. 책에선 여섯 가지의 직무로 나눴지만 현업에선 그리 유용한 분류는 아닐 듯. 실무에선 저렇게 데이터 파트가 잘 짜져있을 지도 미지수고, 있다고 하더라도 각 경계를 넘나들며 작업하지 않을까? 한 가지 분야에 강점을 갖되, 소통과 협업을 위해서는 각 분야에 대한 개념을 모두 가지고 있어야하나 봄.

직무별 업무와 특성

	업무	특성	성공 요소
데이터 엔지니어(Data Engineer)	요구사항을 분석하고, 데이터 파이프라인(pipeline/flow)을 설계, 구축, 구현 및 유지보수	데이터 레이크(Data Lake)나 데이터 웨어하우스(Data Warehouse) 및 데이터 마트(Data Mart) 등에서 Ingestion이나 ETL 등을 통해 데이터를 가져와 BI에 커넥트 데이터를 어떻게 수집할지, 시스템의 수명과 오류 처리에 대한 고민	컴퓨터 시스템(동작, 분산 처리, 파일 시스템, 프로토콜, 클라우드)에 대한 지식 코딩이나 시스템 같은 실무 능력은 학교 밖에서 경험을 쌓으며 배우기. Kaggle/Dacon 경험도 굿. 한 분야나 하나의 문제를 깊게 고민/파고드는 경험을 보여주면 좋음.
데이터 애널리스트(Data Analyst)	준비된 데이터로 인사이트를 도출하고 시각화하여 요인이나 기여도 등을 보고	데이터는 사내의 정형데이터나 새 데이터를 Crawling 등으로 수집 시각화 리포트를 작성하여 전달하고 이를 유지보수. 통계적 지식보다는 도메인을 잘 알아야.	소통과 중재를 좋아하면 굿. 시각화 적용 프로젝트나 대시보드를 만들어보는 경험 추천
데이터 사이언티스트(Data Scientist)	포뮬레이션(Formulation)을 통해 변환한 데이터 분석 문제를 전처리/EDA/모델링/검증해 인사이트 도출	데이터 간의 관계를 위해 회귀분석 등의 기법을 적용할 수 있어야 예측 문제라면 회귀분석 모델뿐 아니라 ML/DL 기반 예측 모델을 활용할 수도 전처리(=필터링=정제)와 EDA(탐색적 데이터 분석)를 통해 데이터를 이해 모델의 설정이나 데이터, 시각을 바꿔보며 선정	(신기술 등을) 스스로 적용해보는 호기심과 탐구를 통해 최신 기술을 학습하는 자세 겸비 빅데이터/ML 관련 수업을 수강하는 동시에, 산학 프로젝트 등을 참여하며 끊임없이 공부해야 실무는 정제되지 않은 수억 건의 데이터 활용. 열린 마음과 다양한 방법론을 이해하며 인사이트를 갖춰야
데이터 리서처(Data Researcher)	데이터 분석 관련 알고리즘을 구현, 개발 및 적용, 연구 박사 이상 학위	학계와 현장에서는 중요시하는 성능 지표나 사용하는 데이터가 다르기에, 성능 좋은 AL이 제기능을 발휘 못하는 일이 발생 기업의 데이터와 목표에 맞춰 AL을 변형하여 응용 및 적절히 적용하는 연구를 진행	새로운 지식과 변화하는 환경에 거부감 없이 적응하는 능력 지적 희열, 설득하는 능력 필요. (자기 개인시간을 업무에 투자할 정도로) 진심으로 좋아해야 버틸 수 있다 스스로 연구하고 주도적으로 공부하기 위한 영어 실력과 체력 겸비
시티즌 데이터 사이언티스트(Citizen Data Scientist)	기업 내 파워 데이터 유저	능동적으로 빅데이터를 습득해 기초적 분석 능력을 갖춘 인력. 비전공자이지만 DS를 이해하는 직원	본연의 업무를 더 풍성하게 만들 수 있음. 앞으로 모든 인력이 이렇게 바뀌어야 함
데이터 기획자(Data Project Manager; PM)	클라이언트 요구 바탕 프로젝트를 지휘. 자원과 예산 및 비용을 컨트롤	프로젝트를 수행하기 위한 내외부 인적 자원, 전산 자원, 프로젝트 가용 예산 등 빅데이터 자원 파악	-

쓸만한 Data Tool과 Site

데이터 플랫폼

Data Lake/Warehouse/Stream

S3: 아마존의 객체 스토리지 서비스
Redshift: 아마존 AWS Cloud에서 관리하는 데이터 웨어하우스 시스템
BigQuery: 구글 데이터 웨어하우스 시스템
Db2: IBM의 데이터 웨어하우스 시스템
Kafka: Apache의 분산 스트리밍 파이프라인 시스템
Kinesis: 아마존의 실시간 데이터 스트리밍 시스템

데이터 처리 플랫폼

데이터 수집

LogStash: 데이터 수집 즉시 전환하여 대상에 전송하는 데이터 처리 파이프라인
Fluentd: 서버에서 로그 등을 수집해 중앙으로 전송하는 시스템

데이터 최적화, 안정화

Kafka(위와 중복): Apache의 분산 스트리밍 파이프라인 시스템
Redis: 딕셔너리 구조로 키-값을 저장하는 외부 서버. Message Queue 구축 가능

데이터 저장, 분석

RDB(관계형 데이터베이스)
NoSQL(비관계형 데이터베이스 언어)
KNIME(나임): 무료 오픈소스 데이터 분석/보고/통합 플랫폼
Rapid Miner: 데이터 전처리 및 ML/DL/TextMining, 예측 분석 가능 프로그램
Orange: 오픈소스 Visualization/ML/DataMining 툴킷
SAS: 고급/다변량 분석 및 BI, 데이터 관리 및 예측을 위한 SW

데이터 시각화

Spotfire: 데이터 시각화 솔루션
Tableau: BI/시각화 및 분석 SW
Kibana: 데이터 탐색/발견 및 시각화 오픈소스 도구
Power BI: MS에서 만든, Excel을 뛰어넘는 시각화 도구

기타 언어나 Competition 등

다 한번 다뤄보거나 참여해보기!

R / MATLAB / PYTHON / C++ / SAS
Kaggle / Dacon
Makeover Monday : 태블로(Tableau) 사의 Challenge
Cocodataset : 레이블된 이미지 위주 오픈소스 데이터셋

Twitter Facebook LinkedIn

[빅데이터 커리어 가이드북] 2부

직무별 업무와 특성

쓸만한 Data Tool과 Site

Data Lake/Warehouse/Stream

데이터 수집

데이터 최적화, 안정화

데이터 저장, 분석

데이터 시각화

다 한번 다뤄보거나 참여해보기!

공유하기

참고

[볼록 최적화 입문 2주차] 여러 집합

[범주형 자료분석 2주차] 다항 분포와 최대우도 추정

[고급 기계학습 1주차] 판별 모델과 생성 모델

[정보이론과 추론학습 1주차] 앙상블과 베이즈 정리