클라우드 컴퓨팅(Cloud Computing)은 현대 데이터 처리 및 저장에서 핵심적인 역할을 한다. 이번 포스팅에서는 클라우드 컴퓨팅의 개념, 장단점, 주요 클라우드 제공업체 및 그들의 서비스, 그리고 Spotflix의 사례를 살펴보자.
1. 클라우드 컴퓨팅(Cloud Computing)
클라우드 컴퓨팅은 데이터를 처리하거나 저장하기 위해 원격 서버를 대여하는 방식이다.
- 전통적인 방식은 '온프레미스(On-Premises)'로, 회사가 직접 서버를 구매, 관리, 유지보수하는 것이다.
- 클라우드 방식은 사용량에 따라 서버를 대여할 수 있으므로, 필요할 때만 자원을 사용해 비용을 최적화할 수 있다.
2. 클라우드 컴퓨팅의 장점과 단점
1. 비용 최적화
- 고성능 서버를 구매하지 않아도 되며, 사용량에 따라 지불한다.
- 필요에 따라 자원을 확장하거나 줄일 수 있다.
2. 글로벌 확장성
- 전 세계에 분산된 서버를 통해 사용자와 가까운 위치에서 서비스를 제공한다.
3. 안정성
- 클라우드는 데이터를 여러 지역에 복제(Replication)해 자연재해나 서버 장애로부터 데이터를 보호한다.
4. 유연성
- 필요에 따라 컴퓨팅 파워와 저장 공간을 쉽게 조정 가능하다.
1. 데이터 보안 및 규제 문제
- 민감한 데이터를 외부 서버에 저장하는 데 따른 보안 위험이 있다.
- 지역 법률 및 규제 준수가 필요하다.
2. 벤더 종속(Vendor Lock-in)
- 클라우드 제공업체에 종속될 가능성이 있다.
- 일부 서비스는 다른 제공업체와 호환되지 않는다.
3. 관리 복잡성
- 멀티클라우드(multicloud) 환경에서는 보안과 데이터 거버넌스 관리가 더 어려워진다.
3. 주요 클라우드 제공업체와 서비스
세계 3대 클라우드 제공업체와 그들의 주요 서비스는 다음과 같다.
제공업체 | 파일 저장 | 컴퓨팅 | 데이터베이스 |
Amazon Web Services(AWS) | S3 | EC2 | RDS |
Microsoft Azure | Azure Blob Storage | Azure Virtual Machines | Azure SQL Database |
Google Cloud | Google Cloud Storage | Google Compute Engine | Google Cloud SQL |
4. Spotflix에서의 클라우드 컴퓨팅
Spotflix는 AWS를 활용하여 클라우드 컴퓨팅을 구현한다.
- S3 : 앨범 커버 저장
- EC2 : 음악 파일 변환
- RDS : 직원 정보 저장
5. 멀티클라우드(Multicloud)의 개념
멀티클라우드는 여러 클라우드 제공업체의 서비스를 조합하여 사용하는 전략이다.
- 단일 제공업체 의존도를 줄일 수 있다.
- 지역 법률 준수, 비용 최적화, 장애 대비가 가능하다.
(*mitigate : 완화시키다,완화하다)
- 서로 다른 제공업체 간의 호환성 문제가 발생할 수 있다.
- 보안 및 데이터 관리 복잡성이 증가할 수 있다.
6. 결론
- 클라우드 컴퓨팅은 온프레미스와 비교해 비용절감, 글로벌 확장성, 안정성을 제공한다.
- AWS, Microsoft Azure, Google Cloud는 대표적인 클라우드 제공업체로, 각각 파일 저장, 컴퓨팅, 데이터 베이스 서비스를 제공한다.
- 멀티클라우드는 단일 벤더 종속을 피할 수 있지만, 관리가 복잡해질 수 있다.
아래 문제를 풀어보자.
1. Obscured by clouds
Sasha, the new data engineer intern, is now trying to convince you that cloud computing and multicloud computing have absolutely no downsides. You disagree: you know for a fact that this is not true. It makes you question whether or not she is actually comfortable with the topic.
Once again, you take your manager role to heart and try to help her improve her understanding. You ask her to share her assumptions about cloud computing: you will tell her if she's right or wrong, and try to explain why. Are you up to the challenge?
1. Cloud computing encompasses storage, database and computing solutions.
2. A multicloud solution reduces reliance on a single vendor.
3. EC2, S3 and RDS are solutions offered by Microsoft Azure.
4. Multicloud solutions reduce security and governance concerns.
5. Leveraging the cloud instead of having our own on-premises data center allows us to use just the resources we need, when we need them.
6. Cloud computing reduces all kinds of risk.
Right →
Wrong →
Right → 1,2,5
Wrong → 3,4,6
4. Multicloud solutions reduce security and governance concerns.
→ Multicloud increases security and governanve concerns. You need to pay attention to the vulnerabilities of three providers instead of one. You also need to manage the availability, usability, integrity and security of the data not only over different services, but also over different platforms.
2. Somewhere I belong
Spotflix's data engineers are worried about the company's reliance on a single vendor, and are considering a multicloud approach. They also think it might allow Spotflix to reduce costs, and to be more resilient in the face of a disaster.
As you've just seen, the main cloud providers are AWS, Microsoft Azure and Google Cloud. Together, they own about half of the cloud computing market share. They have different services, some you saw in the posting, some you're about to discover. They also have competitors, some of which you're about to discover as well.
Can you help the data engineers classify the different services before they start evaluating alternatives?
1. Snowflake Data Warehouse
2. AWS Redshift(data warehouse)
3. Google Cloud Datastore(NoSQL)
4. Azure Virtual Machines
5. AWS EC2
Computing →
Databases →
Computing → 4,5
Databases → 1,2,3
Snowflake, founded in 2012, is disrupting the data warehouse industry and enjoyed a 174% revenue growth in 2019. That might be a name to remember!
Understanding Data Engineering 3 에서 모든 연습 문제 이름이 사실 노래 제목이라고 말했었다. 끝까지 완주하면 그에 해당하는 플레이리스트를 알려준다고 했는데, Spotify에서 'datachamp'를 검색하면, 그 플레이리스트를 확인할 수 있다!
Spotflix처럼 클라우드 컴퓨팅을 활용하면 데이터 처리와 저장을 효율적이고 확장 가능하게 설계할 수 있다. 다음 포스팅에서는 클라우드 컴퓨팅 환경에서 데이터 파이프라인을 설계하는 방법을 살펴보겠다.
'컴퓨터 공부 > 🌠 Journey to Data field' 카테고리의 다른 글
Understanding Data Engineering 9-Parallel computing (0) | 2024.12.15 |
Understanding Data Engineering 8-Scheduling data (1) | 2024.12.09 |
Understanding Data Engineering 7 - Processing data (1) | 2024.12.08 |
Understanding Data Engineering 6-Data warehouses and data lakes (2) | 2024.12.08 |
Understanding Data Engineering 5-SQL (1) | 2024.12.07 |