데이터는 21세기의 가장 중요한 자산으로 자리 잡았다. 하지만 데이터를 제대로 활용하려면 데이터를 관리하고 처리할 수 있는 전문적인 역할이 필수다. 바로 데이터 엔지니어가 그 중심에 있다. 이 글에서는 데이터 엔지니어링과 빅데이터에 대한 기초 개념을 정리하고, 데이터가 조직 내에서 어떻게 흐르고 활용되는지 살펴보겠다.
1. 데이터 엔지니어링이란 무엇인가?
데이터 엔지니어링은 데이터 파이프라인을 구축하고 관리하는 과정이다. 데이터 엔지니어는 데이터 사이언티스트와 다르게 데이터를 분석하기 위한 토대를 만든다. 이 과정에는 데이터 수집, 저장, 처리 및 준비가 포함된다. 데이터 엔지니어의 역할은 데이터가 조직에서 효율적이고 신뢰성 있게 사용될 수 있도록 하는 데 중점을 둡니다.
2. 데이터 워크플로우
데이터는 조직 내에서 다음과 같은 단계로 흐른다.
- 수집 및 적재 (Data collection & Storage)
- 데이터는 웹 트래픽, 설문조사, IoT 센서 등 다양한 소스에서 수집된다.
- 이 데이터를 원시 형식(raw format)으로 저장한다.
- 준비 (Data Preparation)
- 데이터 정리: 중복 값 제거, 결측값 처리
- 조직화: 데이터를 분석하기 쉬운 형태로 변환
- 활용 (Exploration & Visualization)
- 탐색 및 시각화: 데이터를 분석하고 시각화 도구를 통해 통찰을 얻음
- 대시보드 생성: 데이터를 지속적으로 모니터링
- 실험 및 모델링 (Experimentation & Prediction)
- 예측 모델 개발: 예를 들어, 상품 수요 예측 또는 사용자 행동 분석, 주식 예측
- A/B 테스트: 최적의 콘텐츠 또는 캠페인을 찾기 위한 실험
3. 데이터 엔지니어 역할
데이터 엔지니어는 데이터 워크플로우의 첫 번째 단계를 책임진다. 이들의 주요 역할은 다음과 같다
- 다양한 소스에서 데이터 적재
- 데이터 저장소 최적화 및 유지
- 데이터 손상 및 부정확성 관리
- 대규모 데이터 아키텍처 설계 및 유지보수
데이터 엔지니어는 조직의 데이터 흐름을 설계하고 관리하며, 정확한 데이터를 올바른 형식으로 적합한 사람에게 제공하는 것을 목표로 합니다.
4. 빅데이터와 데이터 엔지니어링
빅데이터는 전통적인 데이터 관리 방법으로는 처리하기 어려운 거대한 데이터를 의미한다. 빅데이터는 다음의 5가지 특성(5Vs)으로 정의된다.
- Volume (양): 데이터 포인트의 방대한 수 (How much?)
- Variety (다양성): 텍스트, 이미지, 오디오, 비디오 등 다양한 형식 (What kind?)
- Velocity (속도): 데이터 생성 및 처리 속도 (How frequent?)
- Veracity (신뢰성): 데이터 출처의 정확성과 신뢰성 (How accurate?)
- Value (가치): 데이터의 활용 가능성과 비즈니스 가치를 창출하는 능력 (How useful?)
데이터 엔지니어는 이 모든 특성을 고려하여 데이터를 설계하고 관리해야 합니다.
5. Spotflix: 가상의 사례를 통한 실습
나중에는 Spotflix라는 가상의 음악 스트리밍 회사를 통해 데이터 엔지니어링 개념을 설명하겠다. Spotflix에서는 사용자 데이터와 스트리밍 데이터를 수집해 이를 저장, 처리, 분석하여 더 나은 추천 알고리즘과 사용자 경험을 제공한다.
6. 데이터 엔지니어링이 중요한 이유
데이터가 조직의 성공을 좌우하는 시대에서 데이터 엔지니어는 데이터 활용의 기초를 다지는 역할을 한다. 데이터가 적절히 준비되지 않았다면, 데이터 사이언티스트나 머신러닝 엔지니어는 제대로 된 결과를 도출할 수 없다.
아래 문제를 풀어보자.
1. To understand what data engineers do, why they are necessary and the impact they have, you need to know how data flows through an organization. Can you order the four steps of the data science workflow chronologically?
Data Preparation, Experimentation and PredictionData Collection and Storage, Exploration and Visualization
Answer
(1) Data Collection and Storage → (2) Data Preparation → (3) Exploration and Visualization →
(4) Experimentation and Prediction
2. You recently joined the data science team as a manager for a music streaming company named Spotflix. It's a music platform that lets users stream songs, create playlists, follow artists, watch music videos and even look up lyrics!
One of your colleagues just walked to your desk. They just got hired, but they already know you're on the data team - after training with Bootcamp, you've made a name for yourself pretty quick! They have a bunch of data tasks they need completed, and they want to make sure they ask the right person. You tell them you can help them identify what they should request from data engineers, and what they should not. Can you deliver on this promise?
1. Based on their listening behavior, predict which songs customers are likely to enjoy.
2. Optimizing the customers databases for analysis.
3. Building a visualization to understand listening patterns by city.
4. Running an experiment to identify the optimal search bar positioning in the app.
5. Gathering music consumption data from desktop and mobile sources.
6. Ensuring corrupted, unreadable music tracks are removed and don't end up facing customers. Data engineering Tasks Not data engineering Tasks
Data engineering Tasks →
Not data engineering Tasks →
Answer
Data engineering Tasks
→ Optimizing the customers databases for analysis : 분석을 위해 고객 데이터베이스 최적화
→ Gathering music consumption data from desktop and mobile sources : 데스크톱 및 모바일 소스에서 음악 소비 데이터 수집
→ Ensuring corrupted, unreadable music tracks are removed and don't end up facing customers : 손상되거나 읽을 수 없는 음악 파일을 제거하고 고객에게 노출되지 않도록 보장
Not data engineering Tasks
→ Based on their listening behavior, predict which songs customers are likely to enjoy : 고객의 청취 행동에 기반해 좋아할 가능성이 높은 곡 예측 : Data Scientist or Data analyst
→ Building a visualization to understand listening patterns by city : 도시별 청취 패턴을 이해하기 위한 시각화 구축 : Data Scientist or Data anaylst
→ Running an experiment to identify the optimal search bar positioning in the app : 앱에서 검색창의 최적 위치를 식별하기 위한 실험 실행 : Product Manager or UX Designer
데이터 사이언티스트가 데이터를 활용해 모델링, 분석, 예측을 수행한다.
3. Big time
You saw how the advent of big data increased the demand for data engineers. As more data gets generated, at a higher rate, with a growing variety of formats, the need for people able to manage this data is soaring.
Which of the following statements are true, and which are false?
1. Value refers to how actionable the data is.
2. Veracity refers to how frequently the data is generated.
3. Velocity refers to how big the data is.
4. Data types refer to the variety of the data.
5. Volume has to do with how trustworthy the data is.
Answer
1. Value refers to how actionable the data is. (True)
2. Veracity refers to how frequently the data is generated. (False : Velocity refers to how frequently the data is generated.)
3. Velocity refers to how big the data is. (False : Volume referes to how big the data is.)
4. Data types refer to the variety of the data. (True)
5. Volume has to do with how trustworthy the data is. (False : Veracity has to do with how trustworthy the data is.)
이상으로, 데이터 엔지니어링과 빅데이터의 핵심 개념을 정리했고 데이터 엔지니어링은 데이터 활용의 첫 단계를 담당하며, 데이터가 조직 내에서 제대로 흐르고 활용될 수 있도록 돕는다는 것을 알았다.
'컴퓨터 공부 > 🌠 Journey to Data field' 카테고리의 다른 글
Understanding Data Engineering 5-SQL (1) | 2024.12.07 |
---|---|
Understanding Data Engineering 4-Data structures (1) | 2024.12.07 |
Understanding Data Engineering 3-The data Pipeline (1) | 2024.11.18 |
Understanding Data Engineering 2-Data engineers vs Data scientists (3) | 2024.11.16 |
데이터 사이언티스트 & 데이터 엔지니어 로드맵 🚀 (8) | 2024.11.12 |