데이터 사이언티스트 6

Understanding Data Engineering 8-Scheduling data

✅ RECAP 전 포스팅에서 공부한 내용을 복습해 보자. - 데이터 처리의 중요성: 데이터 처리는 원시 데이터(raw data)를 유의미한 정보로 변환하는 과정이다.: 불필요한 데이터를 제거하여 비용 최적화를 하기 위해, 데이터 사용성을 높여 분석 및 활용 용이성을 강화하기 위해 필요하다. - 핵심 개념1. 데이터 압축 : WAV 또는 FLAC 같은 고품질 음악 파일을 더 작은 .ogg 포맷으로 변환해 네트워크 비용을 줄이는 사례: 품질은 유지하면서 스토리지와 전송 비용을 절감 2. 데이터 조직화: 데이터를 구조화하고 정리하여 분석과와 데이터 사이언티스트가 쉽게 접근할 수 있도록 한다.: (예시) 음악 파일에서 메타데이터 추출, 직원 데이터를 특정 테이블 스키마에 맞게 정리한다. 3. 자동화: 데이터 준..

Understanding Data Engineering 5-SQL

이번 포스팅에서는 데이터 엔지니어링과 데이터 과학에서 핵심 역할을 하는 SQL과 관계형 데이터베이스에 대해 정리해보자.1. SQL이란?SQL 의 정의- SQL은 관계형 데이터베이스 관리 시스템(RDBMS)을 다룰 때 사용되는 언어이다.- 데이터 엔지니어와 데이터 사이언티스트가 주로 사용하는 언어로, 데이터베이스에서 데이터를 생성, 관리, 쿼리할 수 있다. SQL의 특징- 여러 레코드를 한 번에 검색, 그룹화, 필터링, 집계가 가능하다.- 영어와 유사한 문법으로 쉽게 작성하고 이해할 수 있다. 데이터 엔지니어는 데이터베이스를 생성하고 관리하기 위해 SQL을 사용하고,데이터 사이언티스트는 SQL을 사용해 데이터베이스에서 필요한 정보를 쿼리한다.2. SQL을 활용한 테이블 생성Spotflix의 직원 테이블을 ..

Understanding Data Engineering 4-Data structures

데이터 엔지니어링에서 데이터 구조와 저장 방식은 매우 중요하다. 이번 포스팅에서는 데이터 구조의 주요 유형인 구조화 데이터, 반구조화 데이터, 비구조화 데이터에 대해 알아보자. 1.  구조화 데이터(Structured Data)- 데이터를 엄격한 형식으로 입력하며, 스프레드시트처럼 컬럼과 행으로 구성되어 있다.- 각 컬럼은 텍스트, 숫자, 날짜 등 특정 데이터 타입을 가지며 관계형 데이터베이스(Relational Database)에서 저장된다.- 전체 데이터의 약 20%를 차지한다. - SQL(Structured Query Language)을 사용하여 데이터를 쿼리할 수 있다.  (예시) Spotflix의 직원 테이블- 각 행은 한 명의 직원을 나타내고, 각 열은 팀, 역할 등의 특정 정보를 나타낸다...

Understanding Data Engineering 3-The data Pipeline

✅ RECAP 전 포스팅에서 공부한 내용을 복습해 보자. - 데이터 엔지니어: 데이터 엔지니어는 데이터를 수집하고 데이터베이스에 저장하며, 데이터가 체계적으로 구성되고 분석에 용이하도록 관리한다. 이는 데이터 수집, 데이터베이스에 저장, 그리고 효율적인 데이터 검색을 위한 데이터베이스 구조 최적화를 포함한다.  - 데이터 사이언티스트: 데이터 사이언티스트는 데이터 엔지니어가 준비한 데이터를 분석한다. 이 과정에서 데이터를 정리하고 탐색하며 시각화를 통해 인사이트를 도출하거나 모델을 구축하고 실험을 진행한다. - Spotflix 예시: Spotflix라는 음악 스트리밍 회사의 예시를 통해 데이터 엔지니어와 데이터 사이언티스트의 협업을 설명했다. 데이터 엔지니어 Vivian은 고객, 아티스트, 노래 데이터를..

Understanding Data Engineering 2-Data engineers vs Data scientists

✅ RECAP 전 포스팅에서 공부한 내용을 복습해 보자. - 데이터 엔지니어링의 정의와 중요성: 데이터 엔지니어는 대규모 데이터 세트를 효율적으로 처리하고 관리할 수 있는 인프라를 구축하고 유지보수하는 역할을 담당한다. - 데이터 엔지니어링과 데이터 사이언티스트의 차이점: 데이터 엔지니어는 데이터의 인프라와 아키텍처를 다루는데 중점을 두는 반면, 데이터 사이언티스트는 데이터를 통해 인사이트를 도출하는 데 집중한다. - 데이터 파이프라인이 소개: 데이터 파이프라인이란 데이터 처리 단계의 연속적인 흐름을 의미하며, 데이터가 원천에서부터 저장되고 분석 및 활용될 수 있는 위치로 효율적으로 이동하도록 보장하는 데 중요한 역할을 한다. - 빅데이터의 역할: 빅데이터의 등장으로 인해 데이터 엔지니어에 대한 수요가 ..

반응형