컴퓨터 공부/📗 CS

[데이터베이스] 1장 - 데이터베이스 기본 개념

letzgorats 2023. 12. 29. 08:18

데이터 베이스(Database - DB)

: 전자적으로 저장되고 사용되는 관련있는 데이터들을 조직화된 집합

: 여기에는 단어, 숫자, 이미지, 비디오 및 파일 등을 포함한 모든 유형의 데이터가 포함될 수 있다.

: 관련있는 데이터란 ? → (같은 출처나 혹은 같은 목적, 같은 서비스 안에서 생성되는) 데이터를 말함

 

데이터 베이스 관리 시스템(DataBaseManagementSystem - DBMS)

: 사용자에게 DB를 정의하고 만들고 관리하는 기능을 제공하는 소프트웨어 시스템

: (ex. PostgreSQL, MySQL, Oracle, SQLServer ...)

: DB 를 정의하다 보면, 부가적인 데이터가 발생한다.

: 여기서 부가적인 데이터란 ? → (메타데이터)

 

✅ 메타데이터(MetaData)

: data about data 라고도 하며, 데이터에 대한 데이터 즉, 데이터베이스를 정의하거나 기술하는(descriptive) 데이터 

: 카탈로그 (catalog) 라고도 부르며, DB의 메타데이터가 저장되는 곳을 카탈로그라도 보른다. 즉, 메타데이터 그 자체와 메타데이터가 저장되는 곳을 카탈로그라고 한다.

: 메타데이터의 예시 → 사진의 부가적인 정보

: 메타데이터가 포함하는 것들 → 데이터 유형, 구조, 제약조건, 보안, 저장, 인덱스, 사용자 그룹 등등

: 메타데이터 또한 DBMS 를 통해 저장/관리된다.

 

✅ 데이터베이스 시스템이 동작하는 방식

  • 사용자 / 프로그래머 : 데이터베이스 시스템을 사용하는 사람들이며, SQL 쿼리를 작성하거나 응용프로그램을 통해 데이터베이스와 상호작용한다.
  • 응용프로그램 / 쿼리 : 사용자가 데이터베이스에 보내는 명령이다. 이 명령은 데이터 검색, 삽입, 업데이트 또는 삭제를 요청할 수 있다.
  • DBMS 소프트웨어 : 데이터베이스 관리 시스템(DBMS) 소프트웨어는 쿼리 및 프로그램을 처리하고 저장된 데이터에 접근하는 데 사용된다.
  • 저장된 데이터베이스 정의 (메타데이터): 데이터베이스의 구조와 스키마를 정의하는 정보이다. 이는 테이블, 뷰, 인덱스 등의 구조를 포함할 수 있다.
  • 저장된 데이터베이스 : 실제 데이터가 저장되는 곳이다. 이는 일반적으로 여러 테이블에 걸쳐있는 행과 열의 형태로 존재한다.

해당 요소들은 함께 작동하여 사용자가 데이터베이스 시스템과 상호작용할 때 데이터를 안전하고 효율적으로 처리할 수 있도록 해준다.

 

데이터 모델(data models)

: DB의 구조(structure)를 기술하는데 사용될 수 있는 개념들이 모인 집합이다.

: DB 구조를 추상화해서 표현할 수 있는 수단을 제공한다.

: 데이터 모델은 여러 종류가 있으며 추상화 수준과 DB 구조화 방식이 조금씩 다르다.

: DB에서 읽고 쓰기 위한 기본적인 동작들(operations)도 포함한다.

 

※ 데이터 모델 분류

1. conceptual (high-level) 데이터 모델 : 개념적

  • 일반 사용자들이 쉽게 이해할 수 있는 개념들로 이뤄진 모델
  • 추상화 수준이 가장 높음 → 사람 누구나 이해할 수 있게 ! 
  • 비즈니스 요구사항을 추상화하여 기술할 때 사용
  • 대표적인 개념적 데이터 모델링 → (ERD): entity-relationship-diagram

즉, 데이터와 그 관계를 고수준에서 정의한다. 예를 들어, 쇼핑몰이라 하면, '고객', '주문', '상품' 과 같은 주요 엔티티와 이들 간의 관계를 식별한다. 이 단계는 데이터의 기본 구조를 이해하는데 중점을 둔다.

 

2. logical (representational) 데이터 모델 : 논리적

  • 이해하기 어렵지 않으면서, 디테일하게 DB를 구조화 할 수 있는 개념들을 제공한다.
  • 데이터가 컴퓨터에 저장될 때의 구조와 크게 다르지 않게 DB 구조화를 가능하게 한다.
  • 특정 DBMS 나 storage 에 종속되지 않는 수준에서 DB를 구조화할 수 있는 모델 → 어느정도 추상화는 되어 있는 셈! 
  • 대표적인 논리적 데이터 모델링 → relational data model : 관계 데이터 모델, object data model : 객체 데이터 모델, object-relational data model : 객체 관계형 모델, ...
  • 우리가 아는 대부분의 DBMS는 이 relational data model 을 기반으로  한 DBMS (Oracle, MySQL, MSSQL) 이다.
  • (PostgreSQL 은 object-relational data model 을 기반으로 하지만, 어찌됐건 관계형 데이터 모델을 기반으로 함)

논리적 모델링의 사례

 → 여기서 row는 데이터를 의미하게 되고 각각의 column은 속성(attribute)를 의미하게 된다.

 

개념적 모델을 바탕으로, 데이터를 테이블, 속성(컬럼), 관계(키) 등으로 구체화한다. 여기서는 '고객'테이블에는 이름, 주소 등의 속성이 있고, '주문'테이블에는 주문날짜, 배송상태 등이 포함된다. 이 단계는 데이터베이스의 구조를 더 자세히 정의한다.

 

3. physical (low-level) 데이터 모델 : 물리적

  • 컴퓨터에 데이터가 어떻게 파일 형태로 저장되는지를 기술할 수 있는 수단을 제공 → 데이터가 실제로 저장장치에 저장되는 형태로 가장 근접하게 데이터베이스 구조를 표현할 수 있는 모델 
  • data format, data orderings(데이터 순서), access path 등등
  • access path : 데이터 검색을 빠르게 하기 위한 구조체  → ex. 인덱스!

논리적 모델을 실제 데이터베이스 시스템에 구현하는 단계이다. 여기서는 테이블의 저장 방식, 인덱스, 성능 최적화, 엑세스 경로 등을 결정한다. 예를 들어, '고객 ID'나 '주문 ID' 에 인덱스를 설정하여 데이터 검색 속도를 높일 수 있다.

 

 

데이터 모델링의 3 단계

 

데이터베이스 스키마(database schema) & 데이터베이스 상태(database state/snapshot)

: 스키마(Schema)란 데이터베이스의 구조, 타입, 제약 조건을 명시해 놓은 메타데이터의 집합 +  Data Base의 description이다.

: 일반적으로 스키마는 데이터베이스를 설계과정에서 한 번 정해진 후에는 자주 바뀌지 않는다.

: 아래 그림은 이러한 스키마를 도식화한 스키마 다이어그램이다.

스키마 다이어그램

: 위의 그림처럼 스키마는 Entity, Attribute, Relationship, Type 등을 전반적으로 정의한다.

: 이러한 스키마에 따라 데이터 베이스를 규격화 하는데, 이때 실제 데이터는 매우 자주 바뀔 수 있다.

(ex. 학생의 이름이 바뀐다거나, 성적이 바뀐다거나 등등의 데이터가 바뀌는 경우가 있다.)

 

: 이 때, 어떤 특정 시점에 데이터베이스에 있는 콘텐츠를 데이터베이스 상태(state) 혹은 스냅샷(snapshot) 이라고 한다.

: (최초의 데이터베이스의 상태는 아무것도 없는 빈공간이니까, 데이터가 갱신될수록 다른 데이터베이스 상태를 얻는 셈!)

: 이 때 유효한 상태(Valid State) 는 데이터베이스의 구조와 제약 조건을 모두 만족하는 상태를 의미한다.

 

결론적으로 스키마는 자주 변하지 않는 반면, 상태는 업데이트가 발생할 때마다 변경된다!

또한 이 상태데이터베이스 내의 인스턴스의 현재 집합이라고도 한다.

 

3단계 스키마 구조(Three-Schema Architecture)

: 데이터베이스 시스템을 구축하는 architecture 중의 하나

: user application 으로 부터 물리적인(physical) database 를 분리시키는 목적

: 세 가지 level 이 존재하며 각각의 level 마다 스키마가 정의되어 있다.

3단계 아키텍처

 

※ 스키마 구조

1. Internal(=physical) schema : 내부 스키마

  • 내부 스키마는 데이터베이스의 물리적 저장 구조를 정의한다.
  • 가장 낮은 수준의 데이터 추상화를 제공하며, 실제 데이터가 디스크에 어떻게 저장되는지에 대한 정보를 포함한다.
  • 예시: 데이터베이스에 저장된 데이터가 실제로 디스크의 어떤 부분에 어떤 형식으로 저장되는지를 정의한다.

2. Conceptual(=logical) schema : 개념 스키마

  • 개념적 스키마는 전체 데이터베이스의 구조와 제약 조건을 설명한다.
  • 데이터 타입, 엔티티, 관계 등에 초점을 맞추며 물리적 저장 구조에 대한 정보는 숨긴다.
  • logical 데이터 모델을 통해 표현한다.
  • 예시: 온라인 쇼핑몰에서 '고객', '주문', '상품' 등의 엔티티와 이들 간의 관계를 정의합니다.

3. External(=view) schema : 외부 스키마

  • 외부 스키마는 특정 사용자가 관심을 가지는 데이터베이스의 일부를 설명한다.
  • 사용자에게 불필요한 데이터베이스의 세부 사항을 숨긴다.
  • logical 데이터 모델을 통해 표현한다.
  • 예시: 영업 부서의 사용자는 오직 판매 관련 데이터만 볼 수 있다.

: 3단계 스키마 구조는 각 레벨을 독립시켜서 어느 레벨에서의 변화가 상위 레벨에 영향을 주지 않기 위한 목적으로 사용된다.

: 대부분의 DBMS가 3단계 레벨을 완벽하게 혹은 명시적으로 나누진 않는다.

: 세 개의 스키마는 단지 데이터에 대한 기술이고, 실제 데이터는 물리적 단계(internal level) 에만 위치한다.

 

외부 스키마에서의 요구는 개념 스키마로 변환하고, 다시 내부 스키마로 변환하여 데이터베이스에 접근해야 한다.

만약 요구가 검색이라면 이를 다시 사용자 외부 뷰에 맞게 재구성한다. 아래는 이러한 데이터베이스의 스키마 아키텍쳐이다.

(※ 단계들 간에 요구와 접근 결과인 데이터를 변환하는 과정을 Mapping 이라고 한다.)

 

정리하자면,

목표

  • 모든 사용자가 동일한 데이터에 접근할 수 있지만, 맞춤형 뷰를 볼 수 있어야 한다.
  • 사용자는 물리적 데이터베이스 저장 세부사항을 직접 다룰 필요가 없다.
  • DBA(데이터베이스 관리자)는 사용자의 뷰를 방해하지 않고 데이터베이스 저장 구조를 변경할 수 있어야 한다.
  • 데이터베이스의 내부 구조는 스토리지의 물리적 측면을 변경할 때 영향을 받지 않아야 한다.

장점

  • 물리적 저장과 독립적으로 데이터를 관리할 수 있다.
  • 사용자의 인터페이스나 프론트엔드(프레젠테이션 레벨)의 변경이 데이터베이스의 논리적 구조(개념적 스키마)나 물리적 저장(내부 스키마)에 영향을 주지 않는다.

단점

  • 완전한 DB 스키마는 복잡한 구조로, 모두가 이해하기 어려울 수 있다.
  • 각 계층이 물리적으로 분리되어 있어서, 이로 인해 성능상의 문제가 발생할 수 있다. (네트워크 지연, 데이터 처리 시간 등으로 인한 성능저하 등이 발생할 수 있다는 뜻) → ( = 만약 각 계층이 서로 다른 시스템이나 위치에 존재하는 등의 물리적 분리는 데이터 처리와 전송 시간을 증가시켜 전체 시스템의 효율성에 영향을 미칠 수 있다.)

데이터 정의어(data definition language - DDL)

: conceptual schema를 정의하기 위해 사용되는 언어이다.

: internal 스키마까지 정의할 수 있는 경우도 있다.

: 즉, 데이터 정의 언어는 데이터베이스 구조나 스키마를 정의하는 데 도움이 된다.

: DDL 명령은 데이터베이스 및 기타 데이터베이스 개체의 구조를 만드는 데 도움이 되고 해당 명령은 자동 커밋되므로 변경 사항이 데이터베이스에 영구적으로 저장된다.

DDL

SDL(storage definition language)

: Internal schema를 정의하는 용도로 사용되는 언어

: 요즘은 특히 관계형 DBMS에는 SDL이 거의 없고 파라미터 등의 설정으로 대체된다.

VDL(view definition language)

: External schema 를 정의하기 위해 사용되는 언어이다.

: 대부분의 DBMS에서는 DDL 이 VDL 역할까지 수행한다.

데이터 조작어(data manipulation language -  DML)

database에 있는 data를 활용하기 위한 언어이다.

: 데이터 추가,삭제,수정, 검색 등등 기능을 제공하는 언어이다.

DML

데이터 제어어 DCL(data control language - DCL)

: 데이버테이스에 접근하거나 객체에 권한을 주는 등의 역할을 하는 언어이다.

DCL

 트랜잭션 제어어 (transaction control language - TCL)

: 논리적인 작업의 단위를 묶어서 DML에 의해 조작된 결과를 작업단위(트랜잭션) 별로 제어하는 명령어를 말함.

: COMMIT, ROLLBACK, SAVEPOINT 

트랜잭션


통합된 언어 (SQL)

: 오늘날의 DBMS 는 DML, VDL, DDL 이 다 따로 존재하기 보다는 통합된 언어로 존재한다.

: 대표적인 예가 SQL 이다.


참고자료

- 유튜브 쉬운코드

- 경북대학교 컴퓨터학부 COMP0322-004 데이타베이스 수업

DATABASE SYSTEMS 7th / Elmasri, Navathe 저 / PEARSON / 2019년

- GURU 99

반응형