컴퓨터 공부/🌠 Journey to Data field

Understanding Data Engineering 4-Data structures

letzgorats 2024. 12. 7. 21:59

데이터 엔지니어링에서 데이터 구조와 저장 방식은 매우 중요하다. 이번 포스팅에서는 데이터 구조의 주요 유형인 구조화 데이터, 반구조화 데이터, 비구조화 데이터에 대해 알아보자.

 

1.  구조화 데이터(Structured Data)

structured data

- 데이터를 엄격한 형식으로 입력하며, 스프레드시트처럼 컬럼과 행으로 구성되어 있다.

- 각 컬럼은 텍스트, 숫자, 날짜 등 특정 데이터 타입을 가지며 관계형 데이터베이스(Relational Database)에서 저장된다.

- 전체 데이터의 약 20%를 차지한다. 

- SQL(Structured Query Language)을 사용하여 데이터를 쿼리할 수 있다.

 

 

(예시) Spotflix의 직원 테이블

직원 테이블, 오피스 정보 테이블

- 각 행은 한 명의 직원을 나타내고, 각 열은 팀, 역할 등의 특정 정보를 나타낸다.

- 인덱스는 고유 ID로 사용되며, 중복을 방지한다.

- 일부 컬럼은 논리 값(True/False)을 담아 직관적이다.

 

(장점)

직원 테이블 + 오피스 정보 테이블

- 체계적으로 저장되므로 다른 데이터와 쉽게 연결할 수 있다.


 

2.  반구조화 데이터(Semi-Structured Data)

semi-structured data

- 구조화 데이터와 유사하지만, 더 유연한 구조를 가진다.

- 데이터를 조직화하기 쉽지만, 관계형 데이터베이스만큼 명확하지는 않다.

- 주로 NoSQL 데이터베이스에 저장되며, JSON, XML, YAML 포맷을 사용한다.

 

 

(예시) Spotflix의 사용자가 좋아하는 아티스트 정보를 담은 JSON 파일

JSON 형식

(장점)

가장 좋아하는 아티스트 수가 4명, 2명,3명으로 다른 것처럼 관계형 데이터베이스보다 유연한 데이터 표현이 가능하다.


3. 비구조화 데이터(Unstructured Data)

Unstructured Data

- 명확한 모델이 없으며 행과 열로 구성되지 않는다.

- 텍스트, 이미지, 오디오, 비디오 등 검색과 조직화가 어려운 데이터를 포함한다.

- 데이터 레이크(Data Lake)나 데이터 웨어하우스(DW) 등에 저장된다.

- 전체 데이터의 대부분을 차지하며, 머신러닝 및 AI 기술로 가치를 추출할 수 있다.

 

 

(예시) Spotflix의 비구조화 데이터

- 노래가사, 음원, 앨범 이미지, 아티스트 프로필 사진, 뮤직비디오 등

노래가사, 음원, 앨범 이미지, 아티스트 프로필 사진, 뮤직비디오 등

 

(구조화 시도)

- 머신러닝 알고리즘을 통해 곡 스펙트럼, BPM, 코드 진행 등을 분석하여 장르와 카테고리를 분류하거나 아티스트가 곡 업로드 시 태그 및 장르 정보를 입력하도록 유도해 반구조화 데이터로 전환할 수 있다.


4. 결론

- 구조화 데이터 : SQL을 활용, 관계형 데이터베이스에 저장, 체계적이고 검색이 용이

- 반구조화 데이터 : NoSQL 데이터베이스, JSON 등 유연하지만 약간 복잡

- 비구조화 데이터 : 텍스트, 이미지, 비디오 등 raw한 데이터 → 머신러닝이나 초기입력조정으로 가치를 추출

 

데이터의 유형에 따라 저장방식과 처리 방법을 다르게 설계해야 한다. 예를 들어, 구조화 데이터를 SQL로 저장하고, 반구조화 데이터를 JSON으로 관리하며, 비구조화 데이터는 AI기술을 활용하여 분석하면 더 큰 가치를 창출할 수 있다.


아래 문제를 풀어보자.

 

1. In the posting, you learned about the three different types of data structure. The less structured the data, the more flexibility there is in how it's stored.

 

Which of the following statements is false?

 

1. Structured data is easier to search because values are separated and organized into columns.

2. Semi-structured data allows some flexibility that structured data doesn't: different observations have different sizes.

3. Structured data makes it harder to draw relationships with other data tables.

 

Answer

더보기

3 - Structured data makes it harder to draw relationships with other data tables.

: structured data make it super easy to draw relationships between tables.


2. What's the difference

You've just learned that data can exist in different structures. Can you correctly define structured, semi-structured and unstructured data?

 

1. Is usually stored in data lakes.

2. Corresponds to data in tabular format.

3. Is moderately easy to search and organize.

4. Is easy to search and organize.

5. Is difficult to search and organize.

6. Follows a model while allowing more flexibility than structured data.

 

Structured → 

Semi-Structured  

Unstructured

 

Answer

더보기

Structured → 2, 4 

Semi-Structured → 3, 6 

Unstructured → 1, 5


 

 

반응형