컴퓨터 공부 220

Understanding Data Engineering 8-Scheduling data

✅ RECAP 전 포스팅에서 공부한 내용을 복습해 보자. - 데이터 처리의 중요성: 데이터 처리는 원시 데이터(raw data)를 유의미한 정보로 변환하는 과정이다.: 불필요한 데이터를 제거하여 비용 최적화를 하기 위해, 데이터 사용성을 높여 분석 및 활용 용이성을 강화하기 위해 필요하다. - 핵심 개념1. 데이터 압축 : WAV 또는 FLAC 같은 고품질 음악 파일을 더 작은 .ogg 포맷으로 변환해 네트워크 비용을 줄이는 사례: 품질은 유지하면서 스토리지와 전송 비용을 절감 2. 데이터 조직화: 데이터를 구조화하고 정리하여 분석과와 데이터 사이언티스트가 쉽게 접근할 수 있도록 한다.: (예시) 음악 파일에서 메타데이터 추출, 직원 데이터를 특정 테이블 스키마에 맞게 정리한다. 3. 자동화: 데이터 준..

Understanding Data Engineering 7 - Processing data

데이터 처리 과정은 원시 데이터를 의미 있는 정보로 변환하는 단계로, 데이터 엔지니어링에서 중요한 역할을 한다. 이번 포스팅에서는 데이터 처리의 개념, 필요성, 방법, 그리고 데이터 엔지니어의 역할에 대해 알아보자.1. 데이터  처리데이터 처리는 '원시 데이터(raw data)'를 의미있는 정보로 변환하는 과정이다. 예를 들어, 원시 데이터를 정리하고, 불필요한 데이터를 제거하거나, 원하는 구조로 변환하는 작업을 포함한다.2. 왜 데이터 처리가 필요한가? 1. 불필요한 데이터 제거- 새 기능 롤아웃(출시) 시, 모니터링 데이터를 수집하지만, 안정화 이후에는 필요하지 않을 수 있다.- 불필요한 데이터는 저장 비용과 네트워크 비용을 증가시킨다. 2. 데이터 변환- 데이터가 특정 타입으로 제공되지만, 다른 타..

Understanding Data Engineering 6-Data warehouses and data lakes

✅ RECAP 전 포스팅에서 공부한 내용을 복습해 보자. - SQL: SQL은 관계형 데이터베이스 관리 시스템(RDBMS)과 상호작용하기 위한 언어로, 영어처럼 널리 사용되며 이해하기 쉬운 문법이 특징이다.: RDBMS는 관련된 여러 테이블(ex. Employees 테이블)을 포함하는 데이터베이스이다.: 다수의 레코드를 한 번에 검색, 그룹화, 필터링, 집계 가능하다.: 프로그래밍 언어로도 가능하지만, SQL이 최초로 이를 효율적으로 구현한 언어이다. - 데이터 엔지니어와 데이터 사이언티스트: 데이터베이스를 생성하고 유지 관리하며, 데이터 구조를 설계하는 역할은 데이터 엔지니어: SQL을 사용해 데이터베이스에서 필요한 데이터를 쿼리하여 분석 및 인사이트 도출에 사용하는 역할은 데이터 사이언티스트 - SQ..

Understanding Data Engineering 5-SQL

이번 포스팅에서는 데이터 엔지니어링과 데이터 과학에서 핵심 역할을 하는 SQL과 관계형 데이터베이스에 대해 정리해보자.1. SQL이란?SQL 의 정의- SQL은 관계형 데이터베이스 관리 시스템(RDBMS)을 다룰 때 사용되는 언어이다.- 데이터 엔지니어와 데이터 사이언티스트가 주로 사용하는 언어로, 데이터베이스에서 데이터를 생성, 관리, 쿼리할 수 있다. SQL의 특징- 여러 레코드를 한 번에 검색, 그룹화, 필터링, 집계가 가능하다.- 영어와 유사한 문법으로 쉽게 작성하고 이해할 수 있다. 데이터 엔지니어는 데이터베이스를 생성하고 관리하기 위해 SQL을 사용하고,데이터 사이언티스트는 SQL을 사용해 데이터베이스에서 필요한 정보를 쿼리한다.2. SQL을 활용한 테이블 생성Spotflix의 직원 테이블을 ..

Understanding Data Engineering 4-Data structures

데이터 엔지니어링에서 데이터 구조와 저장 방식은 매우 중요하다. 이번 포스팅에서는 데이터 구조의 주요 유형인 구조화 데이터, 반구조화 데이터, 비구조화 데이터에 대해 알아보자. 1.  구조화 데이터(Structured Data)- 데이터를 엄격한 형식으로 입력하며, 스프레드시트처럼 컬럼과 행으로 구성되어 있다.- 각 컬럼은 텍스트, 숫자, 날짜 등 특정 데이터 타입을 가지며 관계형 데이터베이스(Relational Database)에서 저장된다.- 전체 데이터의 약 20%를 차지한다. - SQL(Structured Query Language)을 사용하여 데이터를 쿼리할 수 있다.  (예시) Spotflix의 직원 테이블- 각 행은 한 명의 직원을 나타내고, 각 열은 팀, 역할 등의 특정 정보를 나타낸다...

deque() vs deque([]), 뭐가 맞는 방식이지?

deque()는 python의 collections 모듈에 포함된 double-ended queue로, 양쪽에서 데이터를 효율적으로 추가하거나 제거할 수 있는 자료구조다. 일반 리스트보다 양쪽에서 데이터 추가/삭제가 더 빠르기 때문에, 시간복잡도가 O(1)인 특징이 있고, 양쪽에서 모두 작동 가능한 메서드를 제공하기도 한다.(appendleft(), popleft())from collections import dequedq = deque([1,2,3]) # 초기 값 설정dq.append(4) # 오른쪽에 추가dq.appendleft(0) # 왼쪽에 추가dq.pop() # 오른쪽에서 제거dq.popleft() # 왼쪽에서 제거print(dq) # deque([1,2,3])그런데 deque 을 초기화하는 과..

반응형