데이터 엔지니어링 3

Understanding Data Engineering 9-Parallel computing

✅ RECAP 전 포스팅에서 공부한 내용을 복습해 보자. - 스케줄링의 중요성: 스케줄링은 데이터 파이프라인에서 작업을 실행할 순서를 지정하고, 의존성을 해결하며, 효율적인 작업 수행을 가능하게 한다.주요 스케줄링 방식은 아래와 같다. 1. 수동 스케줄링(Manual Scheduling): 사람이 직접 작업을 실행하는 방식: (단점) 비효율적이고 자동화되지 않는다.: (예시) 직원이 사무실 위치를 변경할 때 데이터베이스를 즉시 업데이트 2. 시간 기반 스케줄링(Time-Based Sceduling): 특정 시간에 작업을 실행: (예시) 매일 아침 6시에 직원 데이터베이스 업데이트 3. 센서 기반 스케줄링(Sensor-Based Sceduling): 특정 조건이 충족되었을 때 작업을 실행 : (예시) 직원..

Understanding Data Engineering 5-SQL

이번 포스팅에서는 데이터 엔지니어링과 데이터 과학에서 핵심 역할을 하는 SQL과 관계형 데이터베이스에 대해 정리해보자.1. SQL이란?SQL 의 정의- SQL은 관계형 데이터베이스 관리 시스템(RDBMS)을 다룰 때 사용되는 언어이다.- 데이터 엔지니어와 데이터 사이언티스트가 주로 사용하는 언어로, 데이터베이스에서 데이터를 생성, 관리, 쿼리할 수 있다. SQL의 특징- 여러 레코드를 한 번에 검색, 그룹화, 필터링, 집계가 가능하다.- 영어와 유사한 문법으로 쉽게 작성하고 이해할 수 있다. 데이터 엔지니어는 데이터베이스를 생성하고 관리하기 위해 SQL을 사용하고,데이터 사이언티스트는 SQL을 사용해 데이터베이스에서 필요한 정보를 쿼리한다.2. SQL을 활용한 테이블 생성Spotflix의 직원 테이블을 ..

Understanding Data Engineering 2-Data engineers vs Data scientists

✅ RECAP 전 포스팅에서 공부한 내용을 복습해 보자. - 데이터 엔지니어링의 정의와 중요성: 데이터 엔지니어는 대규모 데이터 세트를 효율적으로 처리하고 관리할 수 있는 인프라를 구축하고 유지보수하는 역할을 담당한다. - 데이터 엔지니어링과 데이터 사이언티스트의 차이점: 데이터 엔지니어는 데이터의 인프라와 아키텍처를 다루는데 중점을 두는 반면, 데이터 사이언티스트는 데이터를 통해 인사이트를 도출하는 데 집중한다. - 데이터 파이프라인이 소개: 데이터 파이프라인이란 데이터 처리 단계의 연속적인 흐름을 의미하며, 데이터가 원천에서부터 저장되고 분석 및 활용될 수 있는 위치로 효율적으로 이동하도록 보장하는 데 중요한 역할을 한다. - 빅데이터의 역할: 빅데이터의 등장으로 인해 데이터 엔지니어에 대한 수요가 ..

반응형