데이터 44

Understanding Data Engineering 4-Data structures

데이터 엔지니어링에서 데이터 구조와 저장 방식은 매우 중요하다. 이번 포스팅에서는 데이터 구조의 주요 유형인 구조화 데이터, 반구조화 데이터, 비구조화 데이터에 대해 알아보자. 1.  구조화 데이터(Structured Data)- 데이터를 엄격한 형식으로 입력하며, 스프레드시트처럼 컬럼과 행으로 구성되어 있다.- 각 컬럼은 텍스트, 숫자, 날짜 등 특정 데이터 타입을 가지며 관계형 데이터베이스(Relational Database)에서 저장된다.- 전체 데이터의 약 20%를 차지한다. - SQL(Structured Query Language)을 사용하여 데이터를 쿼리할 수 있다.  (예시) Spotflix의 직원 테이블- 각 행은 한 명의 직원을 나타내고, 각 열은 팀, 역할 등의 특정 정보를 나타낸다...

Understanding Data Engineering 3-The data Pipeline

✅ RECAP 전 포스팅에서 공부한 내용을 복습해 보자. - 데이터 엔지니어: 데이터 엔지니어는 데이터를 수집하고 데이터베이스에 저장하며, 데이터가 체계적으로 구성되고 분석에 용이하도록 관리한다. 이는 데이터 수집, 데이터베이스에 저장, 그리고 효율적인 데이터 검색을 위한 데이터베이스 구조 최적화를 포함한다.  - 데이터 사이언티스트: 데이터 사이언티스트는 데이터 엔지니어가 준비한 데이터를 분석한다. 이 과정에서 데이터를 정리하고 탐색하며 시각화를 통해 인사이트를 도출하거나 모델을 구축하고 실험을 진행한다. - Spotflix 예시: Spotflix라는 음악 스트리밍 회사의 예시를 통해 데이터 엔지니어와 데이터 사이언티스트의 협업을 설명했다. 데이터 엔지니어 Vivian은 고객, 아티스트, 노래 데이터를..

Understanding Data Engineering 2-Data engineers vs Data scientists

✅ RECAP 전 포스팅에서 공부한 내용을 복습해 보자. - 데이터 엔지니어링의 정의와 중요성: 데이터 엔지니어는 대규모 데이터 세트를 효율적으로 처리하고 관리할 수 있는 인프라를 구축하고 유지보수하는 역할을 담당한다. - 데이터 엔지니어링과 데이터 사이언티스트의 차이점: 데이터 엔지니어는 데이터의 인프라와 아키텍처를 다루는데 중점을 두는 반면, 데이터 사이언티스트는 데이터를 통해 인사이트를 도출하는 데 집중한다. - 데이터 파이프라인이 소개: 데이터 파이프라인이란 데이터 처리 단계의 연속적인 흐름을 의미하며, 데이터가 원천에서부터 저장되고 분석 및 활용될 수 있는 위치로 효율적으로 이동하도록 보장하는 데 중요한 역할을 한다. - 빅데이터의 역할: 빅데이터의 등장으로 인해 데이터 엔지니어에 대한 수요가 ..

Understanding Data Engineering 1-Data engineering and big data

데이터는 21세기의 가장 중요한 자산으로 자리 잡았다. 하지만 데이터를 제대로 활용하려면 데이터를 관리하고 처리할 수 있는 전문적인 역할이 필수다. 바로 데이터 엔지니어가 그 중심에 있다. 이 글에서는 데이터 엔지니어링과 빅데이터에 대한 기초 개념을 정리하고, 데이터가 조직 내에서 어떻게 흐르고 활용되는지 살펴보겠다.1. 데이터 엔지니어링이란 무엇인가?데이터 엔지니어링은 데이터 파이프라인을 구축하고 관리하는 과정이다. 데이터 엔지니어는 데이터 사이언티스트와 다르게 데이터를 분석하기 위한 토대를 만든다. 이 과정에는 데이터 수집, 저장, 처리 및 준비가 포함된다. 데이터 엔지니어의 역할은 데이터가 조직에서 효율적이고 신뢰성 있게 사용될 수 있도록 하는 데 중점을 둡니다.2. 데이터 워크플로우   데이터는 ..

[ADsp] 5일만에 데이터분석 준전문가 자격증 따기 - 1과목 3장. 가치 창조를 위한 데이터 사이언스와 전략 인사이트

ADsp를 5일동안 공부해도 충분히 합격할 수 있는지 궁금합니다. 그래서, 많은 사람들이 이 포스팅만 보고도 합격할 수 있도록 정리를 해보고자 글을 씁니다.✅ CHECK POINT 먼저, 빅데이터 회의론과 우려의 목소리를 들어보셨나요?과거의 CRM과 같은 경영시스템을 도입하기 위해 하드웨어와 소프트웨어를 도입하고도 성과를 충분히 내지 못했던 기업들이 많았습니다. 이런 기업들의 실패 경험들이 빅데이터 시스템의 도입도 머뭇거리고 있는데요, 기업들의 우려 섞인 목소리의 원인과 이러한 의구심을 불식시키기 위한 전력적 발전 방향을 살펴봅시다. 또, 데이터 사이언스와 데이터 사이언티스트에 대해 들어보셨나요?빅데이터 시대를 이끌어 나가기 위해서는 데이터 사이언스라는 융합 학문이 필요해요. 기존의 통계학과 컴퓨터공학..

반응형