컴퓨터 공부/🌠 Journey to Data field 11

Understanding Data Engineering 10-Cloud Computing

클라우드 컴퓨팅(Cloud Computing)은 현대 데이터 처리 및 저장에서 핵심적인 역할을 한다. 이번 포스팅에서는 클라우드 컴퓨팅의 개념, 장단점, 주요 클라우드 제공업체 및 그들의 서비스, 그리고 Spotflix의 사례를 살펴보자.1. 클라우드 컴퓨팅(Cloud Computing) 클라우드 컴퓨팅은 데이터를 처리하거나 저장하기 위해 원격 서버를 대여하는 방식이다.- 전통적인 방식은 '온프레미스(On-Premises)'로, 회사가 직접 서버를 구매, 관리, 유지보수하는 것이다.- 클라우드 방식은 사용량에 따라 서버를 대여할 수 있으므로, 필요할 때만 자원을 사용해 비용을 최적화할 수 있다.2. 클라우드 컴퓨팅의 장점과 단점장점(+)1. 비용 최적화- 고성능 서버를 구매하지 않아도 되며, 사용량에 따..

Understanding Data Engineering 9-Parallel computing

✅ RECAP 전 포스팅에서 공부한 내용을 복습해 보자. - 스케줄링의 중요성: 스케줄링은 데이터 파이프라인에서 작업을 실행할 순서를 지정하고, 의존성을 해결하며, 효율적인 작업 수행을 가능하게 한다.주요 스케줄링 방식은 아래와 같다. 1. 수동 스케줄링(Manual Scheduling): 사람이 직접 작업을 실행하는 방식: (단점) 비효율적이고 자동화되지 않는다.: (예시) 직원이 사무실 위치를 변경할 때 데이터베이스를 즉시 업데이트 2. 시간 기반 스케줄링(Time-Based Sceduling): 특정 시간에 작업을 실행: (예시) 매일 아침 6시에 직원 데이터베이스 업데이트 3. 센서 기반 스케줄링(Sensor-Based Sceduling): 특정 조건이 충족되었을 때 작업을 실행 : (예시) 직원..

Understanding Data Engineering 8-Scheduling data

✅ RECAP 전 포스팅에서 공부한 내용을 복습해 보자. - 데이터 처리의 중요성: 데이터 처리는 원시 데이터(raw data)를 유의미한 정보로 변환하는 과정이다.: 불필요한 데이터를 제거하여 비용 최적화를 하기 위해, 데이터 사용성을 높여 분석 및 활용 용이성을 강화하기 위해 필요하다. - 핵심 개념1. 데이터 압축 : WAV 또는 FLAC 같은 고품질 음악 파일을 더 작은 .ogg 포맷으로 변환해 네트워크 비용을 줄이는 사례: 품질은 유지하면서 스토리지와 전송 비용을 절감 2. 데이터 조직화: 데이터를 구조화하고 정리하여 분석과와 데이터 사이언티스트가 쉽게 접근할 수 있도록 한다.: (예시) 음악 파일에서 메타데이터 추출, 직원 데이터를 특정 테이블 스키마에 맞게 정리한다. 3. 자동화: 데이터 준..

Understanding Data Engineering 7 - Processing data

데이터 처리 과정은 원시 데이터를 의미 있는 정보로 변환하는 단계로, 데이터 엔지니어링에서 중요한 역할을 한다. 이번 포스팅에서는 데이터 처리의 개념, 필요성, 방법, 그리고 데이터 엔지니어의 역할에 대해 알아보자.1. 데이터  처리데이터 처리는 '원시 데이터(raw data)'를 의미있는 정보로 변환하는 과정이다. 예를 들어, 원시 데이터를 정리하고, 불필요한 데이터를 제거하거나, 원하는 구조로 변환하는 작업을 포함한다.2. 왜 데이터 처리가 필요한가? 1. 불필요한 데이터 제거- 새 기능 롤아웃(출시) 시, 모니터링 데이터를 수집하지만, 안정화 이후에는 필요하지 않을 수 있다.- 불필요한 데이터는 저장 비용과 네트워크 비용을 증가시킨다. 2. 데이터 변환- 데이터가 특정 타입으로 제공되지만, 다른 타..

Understanding Data Engineering 6-Data warehouses and data lakes

✅ RECAP 전 포스팅에서 공부한 내용을 복습해 보자. - SQL: SQL은 관계형 데이터베이스 관리 시스템(RDBMS)과 상호작용하기 위한 언어로, 영어처럼 널리 사용되며 이해하기 쉬운 문법이 특징이다.: RDBMS는 관련된 여러 테이블(ex. Employees 테이블)을 포함하는 데이터베이스이다.: 다수의 레코드를 한 번에 검색, 그룹화, 필터링, 집계 가능하다.: 프로그래밍 언어로도 가능하지만, SQL이 최초로 이를 효율적으로 구현한 언어이다. - 데이터 엔지니어와 데이터 사이언티스트: 데이터베이스를 생성하고 유지 관리하며, 데이터 구조를 설계하는 역할은 데이터 엔지니어: SQL을 사용해 데이터베이스에서 필요한 데이터를 쿼리하여 분석 및 인사이트 도출에 사용하는 역할은 데이터 사이언티스트 - SQ..

반응형