컴퓨터 공부/🌠 Journey to Data field

데이터 사이언티스트 & 데이터 엔지니어 로드맵 🚀

letzgorats 2024. 11. 12. 23:10

 

나는 언젠가 데이터 사이언티스트나 데이터 엔지니어가 되고 싶었다. 그래서 차근차근 로드맵을 따라가며 공부해보려고 한다. 미래가 어떻게 될지 나도 기대가 된다.

 

이 로드맵은 데이터 분야에서 필수적인 기술과 도구, 그리고 추천 학습 리소스를 단계별로 정리한 거라서, 순서대로 따라가면 데이터를 다루는 전문가가 되는 데 필요한 스킬을 익힐 수 있다고 한다. 특히 초보자라면 필수 기술(노란색 표시)에 집중해서 시작하는 게 좋다.

 

 

data engineer & data scientist roadmap

 

이제부터 해외에서 데이터 사이언티스트와 데이터 엔지니어로 일하는 것을 목표로, 오늘부터 본격적인 공부 여정을 시작하려고 한다. 데이터 분석과 데이터 처리 분야에서 일하는 꿈을 꾸며 이 블로그를 통해 그 과정과 배운 것들을 기록해 나갈 예정이다. 🌍

 

컴퓨터 공학도로서 데이터 커리어는 나에게 완전히 새로운 도전이다. 그동안 다른 업무를 해왔지만, 데이터의 힘과 가능성에 매료되어 이 길을 선택하게 되었다. 기술을 통해 더 나은 결정을 돕고, 데이터를 통해 세상을 이해하는 일 - 이런 것들이 내가 꿈꾸는 목표다.

 

이 블로그에서는 데이터 과학과 데이터 엔지니어링에 필요한 기초부터 실무에 필요한 프로젝트까지 나의 학습 과정을 나눌 예정이다. 한 걸음씩 목표에 다가가며, 누구든 저와 함께 이 길을 걸어갈 수 있는 내용을 공유해 보도록 하겠다. Python과 SQL부터 데이터 분석, 머신러닝, 빅데이터까지의 과정 등을 기록하며 함께 성장해 나가 보자!


 

https://javarevisited.blogspot.com/2023/01/the-2023-data-scientist-roadmap.html#axzz8rNFuIKyT

 

The 2024 Data Scientist and Data Engineering RoadMap

A blog about Java, Programming, Algorithms, Data Structure, SQL, Linux, Database, Interview questions, and my personal experience.

javarevisited.blogspot.com

 

이 글을 참고해서 로드맵을 살펴봤다.

 

📘 1단계: Python 언어 배우기

데이터 사이언티스트가 되기 위한 첫 단계는 Python을 배우는 것이다. Python은 데이터 수집, 처리, 시각화 및 머신러닝 모델 구축에 널리 사용되며, 데이터 과학 분야에서는 필수적인 프로그래밍 언어로 자리 잡았다. 

추천 학습 리소스:

  • Coursera: "Python For Everybody" – 기초부터 시작하는 Python 과정으로 데이터 타입, 데이터 구조, 웹 스크래핑 등을 포함한다
  • Udemy: Angela Yu의 "100 Days Of Python Bootcamp" – Python을 체계적으로 학습할 수 있는 부트캠프 형식의 강의이다.

📗 2단계: 데이터 처리 및 시각화

데이터를 분석 가능한 형태로 시각화하는 것은 데이터 과학의 핵심이다. 이를 위해 여러 Python 라이브러리를 활용하여 데이터를 정리하고 차트로 시각화한다.

필수 라이브러리:

  • Numpy: 배열과 수치 연산을 위한 필수 라이브러리.
  • Pandas: CSV와 같은 표 형식 데이터 조작에 유용한 데이터 분석 라이브러리.
  • Matplotlib: 시각화 라이브러리로, 다양한 그래프와 차트를 생성하는 데 사용.
  • Tableau & Power BI: 비전문가도 대시보드를 생성할 수 있는 시각화 도구.

📙 3단계: 수학 및 통계

데이터 과학에서는 수학, 특히 선형대수, 미적분, 확률과 통계의 기본 지식이 필요하다. 이러한 수학적 기초가 있으면 데이터를 처리하고 모델을 학습시키는 과정에서 큰 도움이 된다.

추천 학습 리소스:

  • Coursera의 수학 및 통계 강의 – 데이터 과학에 필요한 수학과 통계를 체계적으로 배울 수 있다.

📔 4단계: 머신러닝

머신러닝은 데이터 과학의 핵심이며, 예측 모델을 구축하여 데이터 기반의 결정을 자동화할 수 있게 한다. 머신러닝 모델을 만들기 위한 대표적인 라이브러리는 다음과 같다.

필수 라이브러리:

  • Tensor Flow: 구글이 개발한 딥러닝 프레임워크로, 대규모 데이터를 다룰 때 강력한 성능을 보여줘.
  • Scikit-Learn: 간단한 머신러닝 모델을 쉽게 만들고 데이터를 전처리할 수 있는 Python 라이브러리로, 머신러닝 입문에 좋아.

 

최근 데이터 엔지니어링과 데이터 사이언스 실무에서는 DevOps에 대한 이해가 점점 더 중요해지고 있다. 데이터 엔지니어와 데이터 사이언티스트가 DevOps를 이해하면, 데이터 파이프라인을 더 효율적으로 운영하고, 배포 및 관리 프로세스를 자동화할 수 있기 때문이다. 특히, CI/CD (지속적 통합 및 배포), 인프라 자동화클라우드 환경 관리는 데이터 프로덕션 환경에서 필수적인 요소다.

 

(선택) DevOps 학습을 위한 추가 로드맵

기존 로드맵에 DevOps 개념을 보완하는 것을 추천한다.

1단계: DevOps 기본 개념 익히기

  • 버전 관리 (Git): 협업과 코드 관리를 위해 필수적이다.
  • CI/CD 도구: GitHub Actions, Jenkins 등 기본적인 CI/CD 개념과 워크플로우를 익히면 좋다.
  • 클라우드 컴퓨팅 기초: AWS, GCP, Azure의 기본적인 서비스와 구조를 이해하면 DevOps 환경 구축에 큰 도움이 된다.

2단계: 인프라 자동화와 컨테이너 기술

  • Docker: 애플리케이션을 컨테이너로 패키징하여 쉽게 배포할 수 있게 도와주는 도구로, 데이터 파이프라인과 머신러닝 모델 배포에 유용하다.
  • Kubernetes: 여러 컨테이너를 클러스터로 관리할 수 있는 오케스트레이션 도구로, 대규모 환경에서 필수적인 스킬이다.
  • Terraform: 코드로 인프라를 관리할 수 있는 도구로, 인프라의 생성과 관리에 효율적이다.

3단계: 모니터링과 로깅

  • Prometheus, Grafana: 시스템과 애플리케이션의 성능을 모니터링하고, 데이터 파이프라인의 상태를 실시간으로 추적할 수 있다.
  • Elastic Stack (ELK): 로그를 수집하고 분석할 수 있어, 데이터 엔지니어링 파이프라인에서 오류나 성능 이슈를 모니터링하는 데 유용하다.

이렇게 DevOps 개념을 추가적으로 익히면, 데이터 파이프라인과 머신러닝 모델의 배포, 모니터링, 유지보수를 효율적으로 수행할 수 있고, 데이터 엔지니어와 데이터 사이언티스트로서의 실무 경쟁력이 크게 향상될 것이다.


데이터 사이언티스트로의 여정을 시작해 보자 🚀

 

반응형