데이터 분석가(애널리스트)
- 데이터 분석, 처리 및 비즈니스에 유의미한 결과 창출
- 분석 도구를 활용해서 데이터 보고서 설계 및 작성
프로모션 KPI 수립, 비즈니스 의사결정에 필요한 데이터 분석 업무
도메인 지식 매우 중요함
문제 제대로 파악해야 함
어떤 데이터가 필요할 지 정의
데이터를 분석, 개선안 마련해야 함
데이터 시각화, 커뮤니케이션 능력 매우 중요
데이터시각화 Tool: Power BI, Tableau, Google Analytics
데이터 분석 가공 업무를 위한 SQL, Python, R 등의 언어로 프로그래밍 학습 필요함
데이터 사이언티스트
- 과거 패턴으로부터 미래 예측
- 비즈니스에 여러 알고리즘 적용시켜 새로운 분석 모델 및 머신러닝 모델 수정/개발
특정 비즈니스 도메인 안에서
머신러닝, 딥러닝 모델을 연구 및 개발하고
서비스 품질을 개선하는 역할을 함
문제 파악 및 예측 모델 설계를 해야 하므로 도메인 지식 매우 중요
수학, 통계, 프로그래밍 능력 필요
알고리즘 설계를 위한 수학과 통계적 지식이 요구됨
Python, Scala 프로그래밍 공부 필요
딥러닝 모델 pytorch, tensorflow 라이브러리 능숙해야 함
Hadoop, Spark 지식이 필요할 수 있다
데이터 엔지니어
- 데이터 수집, 전처리
- 데이터 웨어하우스, 데이터 베이스 구축 및 관리
- 데이터 파이프라인 구축
- SQL 튜닝
- 대용량/실시간 시스템 개발 (Haddop, Spark)
사실상 개발자
데이터 파이프라인을 구축하고 성능을 최적화하는 등의 업무를 주로 담당
프로그래밍 지식, 데이터 웨어하우스, Haddop, Spark 빅데이터 플랫폼 관련
업무 경험과 지식 필요
도메인 지식 당연히 필요함 효율적으로 데이터를 수집/가공/저장할 수 있기 때문
데이터 엔지니어와 데이터 사이언티스트 업무가 겹치는 경우가 많아
머신러닝 관련 지식이나 기술을 요구하는 경우도 많음
예를 들어 데이터 엔지니어들은
한 구매 사이트의 로그데이터들을
유의미하게 분석하고 이용할 수 있도록
데이터 전처리 과정을 거쳐
하둡과 같은 빅데이터 시스템에 저장하는 업무를 함
데이터는 어떻게 저장할지 처음부터 잘 설계하지 않으면
나중에 데이터를 읽어오는데 굉장히 오랜 시간이 걸리거나
새로운 기능을 개발했을 때 기존의 데이터베이스 규격과 맞지 않아서
정보를 저장하지 못하는 문제들이 발생할 수 있음
때문에 빅데이터 시스템과 데이터베이스를 잘 설계하고 처리하는
데이터 엔지니어의 작업이 필요함
이렇게 수집된 데이터를 갖게 된 데이터 사이언티스트는
머신러닝이나 딥러닝을 통해
고객별 재구매 주기를 계산하는 로직을 개발함
어떤 데이터를 활용해서 재구매 주기를 계산할 수 있을지 파악하고
다음 재구매일을 예측하는 모델을 개발할 수 있음
예측 모델을 만들어서 인공지능에게 고객 행동 패턴을 학습시킴
데이터 사이언티스트가 개발한
'재구매 주기 예측 머신러닝 모델'은
고객의 데이터를 학습함 구매 편차가 +-7나오면
직전 구매일로부터 18일 후에도 구매가 일어나지 않으면 쿠폰 주는 것이 좋다..
데이터사이언티스트는 우리 고객들이 어느 동네에 살고 있고, 연령대가 어떻게 되는지,
평소에 배달료 얼마나 쓰는지, 시켜먹는 음식의 종류와 가격 등
다양한 빅데이터를 인공지능에게 학습시킬 수 있음
재구매 효과가 가장 좋을 고객군을 예측하는 모델을 개발하게 됨
데이터 분석가는 이런 이벤트 프로모션을 진행했을 때
비즈니스적으로 효과가 있을지를 종합적으로 사전에 검토하거나
이미 프로모션을 시작한 경우라면 어떤 효과를 봤는지 모니터링하고 분석하여
시각화한 후에 보고서를 만드는 작업을 함
우선적으로 타겟팅해야 할 고객군을 선정해서 의사결정권자들에게 보고를 하기도 함
예를 들어 평소에도 비싼 음식을 잘 사먹던 사람은 프로모션 대상에서 제외를 하거나
평균적으로 저가 음식을 사먹는 사람인 경우 제외해야 된다고 마케팅 제안을 할 수 있음.
회사마다 업무 범위는 조금씩 다르거나
직무 간 실제 업무는 겹칠 수 있음..
2022년 1월 컨텐츠. 설명 편안하고 깔끔하고 알차고 댓글들도 재밌었다 ㅎㅎ
내용출처: https://youtu.be/H_jQplemGnM?si=bPYn8ey8TiAbSKA8
https://www.ibm.com/blog/whats-the-difference-data-engineer-vs-data-scientist-vs-analytics-engineer/
Data Engineer vs Data Scientist vs Analytics Engineer - IBM Blog
Defining the modern data roles of Data Engineer vs Data Scientist vs Analytics Engineer can be a heated discussion. See how they differ.
www.ibm.com
How does it all fit together?
Even seeing the descriptions of data engineer, data scientist and analytics engineer side-by-side can cause confusion, as there are certainly overlaps in skills and areas of focus across each of these roles. So how does it all fit together?
A data engineer builds programs that generate data, and while they aim for that data to be meaningful, it will still need to be combined with other sources. An analytics engineer brings together those data sources to build systems that allow users to access consolidated insights in an easy-to-access, repeatable way. Finally, a data scientist develops tools to analyze all of that data at scale and identify patterns and trends faster and better than any human could.
Critically, there needs to be a strong relationship between these roles. But too often, it ends up being dysfunctional. Jeff Magnuson, Vice President, Data Platform at Stitch Fix, wrote about this topic several years ago in an article titled Engineers Shouldn’t Write ETL. The crux of his article was that teams shouldn’t have separate “thinkers” and “doers”. Rather, high-functioning data teams need end-to-end ownership of the work they produce, meaning that there shouldn’t be a “throw it over the fence” mentality between these roles.
The result is a high demand for data scientists who have an engineering background and understand things like how to build repeatable processes and the importance of uptime and SLAs. In turn, this approach has an impact on the role of data engineers, who can then work side-by-side with data scientists in an entirely different way. And of course, that cascades to analytics engineers as well.
...

https://playinpap.github.io/what-is-analytics-engineering/#responsibility
데이터잡부, 근데 이제 Analytics Engineering을 곁들인
🙆🏻♂️ 본 글은 개인블로그 에서도 확인 가능합니다. 시작하며, 먼저 작성했던 글인 포지션이라는 틀에서 벗…
playinpap.github.io