데이터 44

[Introduction to Power BI] Introduction to Power BI 1-Getting Started with Power BI

Power BI 는 데이터 분석과 시각화를 통해 중요한 정보를 도출할 수 있는 강력한 도구이다. 이 포스팅에서는 POWER BI의 기본개념부터 실습까지 데이터 분석에 필요한 기초를 탄탄히 할 수 있도록 개요를 안내할 것이다.1. POWER BI  소개- Power BI 란 무엇인가? Microsoft Power BI는 다양한 데이터 소스에서 데이터를 연결하고, 정리하며, 구조화할 수 있는 도구이다. 또한, 시각화를 통해 데이터를 쉽게 분석하고 다른 사람들과 결과를 공유할 수 있다. 예를 들어, 막대 그래프를 사용하면 가장 수익성이 높은 해를 한 눈에 확인할 수 있다. 이러한 데이터 시각화는 복잡한 스프레드시트를 직접 분석하는 것보다 훨씬 효율적이다.  - Power BI 를 선택해야 하는 이유 Power..

Understanding Data Engineering 10-Cloud Computing

클라우드 컴퓨팅(Cloud Computing)은 현대 데이터 처리 및 저장에서 핵심적인 역할을 한다. 이번 포스팅에서는 클라우드 컴퓨팅의 개념, 장단점, 주요 클라우드 제공업체 및 그들의 서비스, 그리고 Spotflix의 사례를 살펴보자.1. 클라우드 컴퓨팅(Cloud Computing) 클라우드 컴퓨팅은 데이터를 처리하거나 저장하기 위해 원격 서버를 대여하는 방식이다.- 전통적인 방식은 '온프레미스(On-Premises)'로, 회사가 직접 서버를 구매, 관리, 유지보수하는 것이다.- 클라우드 방식은 사용량에 따라 서버를 대여할 수 있으므로, 필요할 때만 자원을 사용해 비용을 최적화할 수 있다.2. 클라우드 컴퓨팅의 장점과 단점장점(+)1. 비용 최적화- 고성능 서버를 구매하지 않아도 되며, 사용량에 따..

Understanding Data Engineering 9-Parallel computing

✅ RECAP 전 포스팅에서 공부한 내용을 복습해 보자. - 스케줄링의 중요성: 스케줄링은 데이터 파이프라인에서 작업을 실행할 순서를 지정하고, 의존성을 해결하며, 효율적인 작업 수행을 가능하게 한다.주요 스케줄링 방식은 아래와 같다. 1. 수동 스케줄링(Manual Scheduling): 사람이 직접 작업을 실행하는 방식: (단점) 비효율적이고 자동화되지 않는다.: (예시) 직원이 사무실 위치를 변경할 때 데이터베이스를 즉시 업데이트 2. 시간 기반 스케줄링(Time-Based Sceduling): 특정 시간에 작업을 실행: (예시) 매일 아침 6시에 직원 데이터베이스 업데이트 3. 센서 기반 스케줄링(Sensor-Based Sceduling): 특정 조건이 충족되었을 때 작업을 실행 : (예시) 직원..

Understanding Data Engineering 8-Scheduling data

✅ RECAP 전 포스팅에서 공부한 내용을 복습해 보자. - 데이터 처리의 중요성: 데이터 처리는 원시 데이터(raw data)를 유의미한 정보로 변환하는 과정이다.: 불필요한 데이터를 제거하여 비용 최적화를 하기 위해, 데이터 사용성을 높여 분석 및 활용 용이성을 강화하기 위해 필요하다. - 핵심 개념1. 데이터 압축 : WAV 또는 FLAC 같은 고품질 음악 파일을 더 작은 .ogg 포맷으로 변환해 네트워크 비용을 줄이는 사례: 품질은 유지하면서 스토리지와 전송 비용을 절감 2. 데이터 조직화: 데이터를 구조화하고 정리하여 분석과와 데이터 사이언티스트가 쉽게 접근할 수 있도록 한다.: (예시) 음악 파일에서 메타데이터 추출, 직원 데이터를 특정 테이블 스키마에 맞게 정리한다. 3. 자동화: 데이터 준..

Understanding Data Engineering 7 - Processing data

데이터 처리 과정은 원시 데이터를 의미 있는 정보로 변환하는 단계로, 데이터 엔지니어링에서 중요한 역할을 한다. 이번 포스팅에서는 데이터 처리의 개념, 필요성, 방법, 그리고 데이터 엔지니어의 역할에 대해 알아보자.1. 데이터  처리데이터 처리는 '원시 데이터(raw data)'를 의미있는 정보로 변환하는 과정이다. 예를 들어, 원시 데이터를 정리하고, 불필요한 데이터를 제거하거나, 원하는 구조로 변환하는 작업을 포함한다.2. 왜 데이터 처리가 필요한가? 1. 불필요한 데이터 제거- 새 기능 롤아웃(출시) 시, 모니터링 데이터를 수집하지만, 안정화 이후에는 필요하지 않을 수 있다.- 불필요한 데이터는 저장 비용과 네트워크 비용을 증가시킨다. 2. 데이터 변환- 데이터가 특정 타입으로 제공되지만, 다른 타..

반응형