ADsp를 5일동안 공부해도 충분히 합격할 수 있는지 궁금합니다. 그래서, 많은 사람들이 이 포스팅만 보고도 합격할 수 있도록 정리를 해보고자 글을 씁니다.
✅ CHECK POINT
먼저, "빅데이터"의 정의를 알고 계신가요? 빅데이터는 말 그대로 큰 데이터를 의미합니다.
단순히 용량 뿐만 아니라 복잡성도 증가해서 기존의 데이터 처리 툴로 다루기 어려운 데이터 셋을 지칭하기도 하죠.
빅데이터가 우리 생활을 어떻게 바꾸어 갈까요?
2012년 미국의 44대 대통령 오바마의 빅데이터를 통한 선거운동, 2013년 서울의 심야버스인 올빼미 버스의 빅데이터를 통한 노선변경 등 이 생각납니다.
빅데이터가 발전함에 따라 위기 요인은 어떤 것이 있는지도 알아볼 필요가 있어요.
빅데이터활용을 통해 우리 삶이 편리해진 것은 사실이지만, 그와 반대로 사생활 침해 등의 문제도 증가함으로 인해 우리의 개인적인 삶이 노출되어 범죄에 악용될 수도 있습니다. 데이터의 오남용으로 미래를 잘못예측하는 불상사가 일어날 수도 있구요.
이처럼, 빅데이터 시대가 진행되면서 부각되는 어두운 면을 알아보고 미래의 빅데이터 시대는 어떻게 변할 것인지, 우리는 무엇을 준비해야 하는지 등도 배워봅시다.
2-1) 데이터의 가치와 미래 - 빅데이터의 이해
1) 빅데이터의 이해
✅ 출제 포인트
: 3V의 용어와 정의를 정확히 이해하고 넘어갑시다!
🧡 기출
8. 다음 중 빅데이터와 기존의 데이터 마이닝을 구분 짓는 특성으로 가장 부적절한 것은?
1) Verification
2) Velocity
3) Variety
4) Volume
답 확인
1) Verification 은 3V에 속하지 않는다.
3V
양(volume) : 데이터의 규모 측면, 센서 데이터, 비정형 데이터
다양성(variety) : 데이터의 유형과 소스 측면, 정형, 비정형 데이터(영상, 사진)
속도(velocity) : 데이터 수집과 처리 측면, 원하는 데이터의 추출, 분석 속도
1) 빅데이터의 이해
: 관점에 따라 3가지로 정의한다.
: 첫째, 3V로 요약되는 데이터 자체의 특성 변화에 초점을 맞춘 좁은 범위의 정의
: 둘째, 데이터 자체뿐 아니라 처리, 분석, 기술적 변화까지 포함되는 중간 범위의 정의
: 인재, 조직 변화까지 포함한 넓은 관점에서의 정의
[가트너 그룹(Gartner Group_의 더그 래니(Doug Laney)의 3V]
3V | ||
양(Volume) | 다양성(Variety) | 속도(Velocity) |
데이터의 규모 측면 | 데이터의 유형과 소스 측면 | 데이터의 수집과 처리 측면 |
센싱데이터, 비정형데이터 | 정형, 비정형데이터(영상, 사진) | 원하는 데이터의 추출 및 분석속도 |
↓
4V | |
가치(Value) 진실성(Veracity) 정확성(Validity) 휘발성(Volatility) |
: 3V에 가치를 추가하면, 4V
: 진실성, 정확성, 휘발성을 추가하면 7V의 개념이 생성되고 있다.
( * 퍼스널 빅데이터 : 사용자의 모든 행동을 복합적으로 축적한 데이터로 이동, 구매, 식사 같은 실생활 패턴 외에 웹이나 소셜 로그 같은 온라인 활동도 포함)
2) 빅데이터 정의의 범주 및 효과
데이터 변화 | 기술 변화 | 인재, 조직 변화 |
규모(volume) 형태(variety) 속도(velocity) |
데이터 처리, 저장, 분석 기술 및 아키텍처 클라우드 컴퓨팅 활용 |
Data Scientist 같은 새로운 인재 필요 데이터 중심 조직 |
효과 : 기존 방식으로는 얻을 수 없는 통찰 및 가치 창출 / 사업방식, 시장, 사회, 정부 등에서 변화와 혁신 주도
2) 출현 배경과 변화
빅데이터 현상은 없었던 것이 새로 등장한 것이 아니라 기존의 데이터, 처리 방식, 다루는 사람과 조직 차원에서 일어나는 '변화'를 말한다.
1) 3가지 출현 배경
출현배경 | 내용 | |||||
산업계 | 고객 데이터 축적 | 고객 데이터를 축적하여 보유함으로써 데이터에 숨어있는 가치를 발굴해 새로운 성장동력원으로 기술 확보 | ||||
학계 | 거대 데이터 활용, 과학 확산 | 거대 데이터를 다루는 학문 분야가 늘어나면서 필요한 기술 아키텍처 및 통계 도구들이 발전 | ||||
기술발전 | 관련기술의 발달 | 디지털화, 저장 기술의 발달, 인터넷 보급, 모바일 혁명, 클라우드 컴퓨팅 |
(ex) 산업계 예시 : 미국 테스코의 경우 매달 15억건 이상의 고객데이터를 수집하고 있으며, 액시엄의 경우 전세계 5억명, 미국인 96%에 관련된 데이터를 보관하고 있다.
(ex) 학계 예시 : 인간 게놈 프로젝트를 통해 인간 유전자 정보를 해석, NASA의 기후 예측 시뮬레이션 센터에서는 약 32페타바이트의 기후관찰 정보를 활용하고 있다.
(ex) 기술발전 예시 : 아날로그의 디지털화는 데이터의 생산, 유통, 저장의 편리성을 개선하였으며, 저장 기술의 발달로 비용절감, 인터넷, 모바일의 발달을 통해 기술이 발전하고 있다.
2) ICT의 발전과 빅데이터의 출현
데이터 규모 : EB(Exa Byte) → ZB(Zetta Byte) 진입 → ZB 본격화 시대
데이터 유형 : 정형데이터 (DB, 사무정보) → 비정형 데이터(이메일, 멀티미디어, SNS) → 사물정보, 인지정보
데이터 특성 : 구조화 → 다양성, 복합성, 소셜 → 현실성, 실시간성
3) 빅데이터의 기능
빅데이터에 거는 기대를 표현한 비유
산업혁명의 석탄, 철 | 제조업 뿐만 아니라 서비스 분야의 생산성을 획기적으로 끌어올려 사회, 경제, 문화, 생활 전반에 혁명적 변화를 가져올 것으로 기대됨 |
21세기의 원유 | 경제 성장에 필요한 정보를 제공함으로써 산업 전반의 생산성을 한 단계 향상시키고, 기존에 없던 새로운 범주의 산업을 만들어낼 것으로 전망됨 |
렌즈 | 렌즈를 통해 현미경이 생물학 발전에 미쳤던 영향만큼이나 데이터가 산업 발전에 영향을 미칠 것으로 기대됨 (ex) Ngram Viewer |
플랫폼 | '공동 활용의 목적으로 구축된 유무형의 구조물'로써의 다양한 서드파티, 비즈니스에 활용되면서 플랫폼 역할을 할 것으로 전망됨 (ex) 카카오톡, 페이스북, 트위터 등 |
✅ 출제 포인트
: 빅데이터의 비유 및 기능을 묻는 문제가 출제되고 있음으로 각 비유별 내용을 숙지 할 수 있도록 합니다!
🧡 기출
10. 구글의 Ngram Viewer 는 빅데이터의 어떤 기능을 보여주는 사례인가?
1) 플랫폼
2) 차세대 산업혁명의 에너지원
3) 현미경
4) 21세기의 오일
답 확인
3) 현미경 : Ngram Viewr란, 세계 주요 도서관의 모든 책을 빠르게 읽고, 절대로 오류가 생기지 않는 로봇메모리 단어를 하나하나 기억하는 프로그램
4) 빅데이터가 만들어 내는 본질적인 변화
과거에서 현재로의 변화
사전처리 → 사후처리
: 필요한 정보만 수집하고 필요하지 않은 정보를 버리는 시스템에서 가능한 한 많은 데이터를 모으고 그 데이터를 다양한 방식으로 조합해 숨은 정보를 찾아낸다.
표본조사 → 전수조사
: 데이터 수집 비용의 감소와 클라우드 컴퓨팅 기술의 발전으로 데이터 처리비용이 감소하게 되었다. 이로 인해 표본을 조사하는 기존의 지식발견 방식에서 전수조사를 통해 샘플링이 주지 못하는 패턴이나 정보를 발견하는 방식으로 데이터 활용방법이 변화되었다.
질 → 양
: 데이터가 지속적으로 추가될 경우 양질의 정보가 오류 정보보다 많아 전체적으로 좋은 결과 산출에 긍정적인 영향을 미친다는 추론에 바탕을 둔 변화가 나타나고 있다.
인과관계 → 상관관계
: 상관관계를 통해 특정 현상의 발생 가능성이 포착되고, 그에 상응하는 행동을 하도록 추천되는 일이 점점 늘어나고 있다. 이처럼 데이터 기반의 상관관계 분석이 주는 인사이트가 인과관계에 의한 미래 예측을 점점 더 압도해 가는 시대가 도래하게 될 것으로 전망된다.
✅ 출제 포인트
: 빅데이터에서 중요시 여기는 부분이 과거에서 현재로 어떻게 변화되었는지 헷갈리지 않게 체크해봐요! 예제와 연결하여 이해하면 더 도움이 될 거에요!
🧡 기출
11. 빅데이터가 만들어내는 본질적인 변화에 대한 설명이 부적절한 것은 무엇인가?(정답 2개)
1) 질 → 양
2) 상관관계 → 인과관계
3) 사전처리 → 사후처리
4) 표본조사 → 대면조사
답 확인
2) 상관관계 → 인과관계
4) 표본조사 → 대면조사
2) 인과관계 → 상관관계 로 바뀌는 것이다.
4) 표본조사 → 전수조사 로 바뀌는 것이다.
2-2) 데이터의 가치와 미래 - 빅데이터의 가치와 영향
1) 빅데이터의 가치
빅데이터 가치 산정이 어려운 이유
: 여러가지 변수로 인해 빅데이터 시대에서는 가치를 측정하는 것이 쉽지 않다.
- 데이터 활용 방식 → 데이터 활용 방식에서는 재사용이나 재조합, 다목적용 데이터 개발 등이 일반화되면서 특정 데이터를 언제, 어디서, 누가 활용할 지 알 수 없게 되었다. 따라서 가치를 산정하는 것도 어려워졌다.
- 새로운 가치 창출 → 빅데이터 시대에는 데이터가 '기존에 없던 가치'를 창출함에 따라 그 가치를 측정하기가 어려워졌다.
- 분석 기술 발전 → 현재는 가치가 없는 데이터일지라도, 추후에 새로운 분석 기법이 등장한다면 거대한 가치를 지닌 데이터가 될 수도 있다.
2) 빅데이터의 영향
다양한 시장 주체들이 빅데이터를 활용함에 따라 소비자이면서 국민인 일반인들은 맞춤형 서비스를 저렴한 비용으로 이용하게 되고, 적시에 필요한 정보를 얻음으로써 다양한 형태로 기회비용을 절약할 수 있어 사람들의 생활이 점점 스마트해지고 있다.
빅데이터가 미치는 영향 | ||
분야 | 영향 | 내용 |
기업 | 혁신, 경쟁력제고, 생산성향상 | 빅데이터를 활용해 소비자의 행동을 분석하고 시장변동을 예측해 비즈니스 모델을 혁신하거나 신사업을 발굴한다. |
정부 | 환경 탐색, 상황분석, 미래대응 | 기상, 인구이동, 각종 통계, 법제 데이터 등을 수집해 사회 변화를 추정하여, 관련 정보를 추출한다. |
개인 | 목적에 따른 활용 | 빅데이터를 서비스하는 기업의 출현이 늘어나면서, 데이터 분석 비용이 지속적으로 하락하여 정치인이나 대중 가수 등과 같은 개인도 인지도 향상에 빅데이터를 활용한다. |
↓ | ||
생활 전반의 스마트화 |
※ 맨킨지가 언급한 빅데이터가 가치를 만들어 내는 5가지 방식
1) 투명성 제고로 연구개발 및 관리 효율성 제고
2) 시뮬레이션을 통한 수요 포착 및 주요 변수 탐색으로 경쟁력 강화
3) 고객 세분화 및 맞춤 서비스 제공
4) 알고리즘을 활용한 의사결정 보조 혹은 대체
5) 비즈니스 모델과 제품, 서비스의 혁신
2-3) 데이터의 가치와 미래 - 비즈니스 모델
1) 빅데이터 활용 사례
기업
: 구글은 사용자의 로그 데이터를 활용한 검색엔진 개발, 기존 페이지랭크 알고리즘을 혁신하여 검색 서비스를 개선했다.
: 구글과 페이스북은 실시간 자동 번역시스템을 통해 의사소통의 불편을 해소했다.
: 월마트는 고객의 구매패턴을 분석해 상품진열에 활용했다.
: 아마존은 전자책 관련 데이터를 분석하여 저자에게 독서 패턴 정보를 제공했다.
정부
: 정부는 실시간 교통정보 수집, 기후 정보, 각종 지질 활동, 소방 서비스 등 다양한 국가 안전 확보 활동을 위해 실시간 모니터링을 활용한다. 이 밖에도 미래 의제인 의료와 교육 개선을 위해 빅데이터를 활용해 해결책을 모색한다.
개인
: 정치인은 선거 승리를 위해 사회관계망 분석을 통해 유세 지역을 선정하고, 해당 지역의 유권자에게 영향을 줄 수 있는 내용을 선정해 효과적인 선거활동을 펼친다.
: 가수는 팬들의 음악 청취 기록 분석을 통해 실제 공연에서 부를 노래 순서를 짜는 데 활용한다.
2) 빅데이터 활용 기본 테크닉
테크닉 | 내용 | 예시 |
연관규칙학습 | 변인들 간에 주목할 만한 상관관계가 있는지 찾아내는 방법 | 커피를 구매하는 사람이 탄산음료를 더 많이 사는가? |
유형분석 | 문서를 분류하거나 조직을 그룹으로 나눌 때, 또는 온라인 수강생들을 특성에 따라 분류할 때 사용 | 이 사용자는 어떤 특성을 가진 집단에 속하는가? |
유전자 알고리즘 | 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 메커니즘을 통해 점진적으로 진화(Evolve)시켜 나가는 방법 | 최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가? |
기계학습 | 훈련 데이터로부터 학습한 알려진 특성을 활용해 예측하는 방법 | 기존의 시청기록을 바탕으로 시청자가 현재 보유한 영화중에서 어떤 것을 가장 보고 싶어 할까? |
회귀분석 | 독립변수를 조작함에 따라, 종속변수가 어떻게 변하는지를 보면서 두 변인의 관계를 파악할 때 사용 | 구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가? |
감정분석 | 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석 | 새로운 환불 정책에 대한 고객의 평가는 어떤가? |
소셜네트워크분석 (=사회관계망분석) |
특정인과 다른 사람이 몇 촌 정도의 관계인가를 파악할 때 사용하고, 영향력 있는 사람을 찾아낼 때 사용 | 고객들 간 관계망은 어떻게 구성되어 있나? |
+ 예측적 분석 : 미래의 불확실한 사실을 사전에 예측하거나 알려지지 않은 결과의 가능성을 파악하기 위하여 사용하는 분석 방법
✅ 출제 포인트
: 빅데이터 활용 기본 테크닉 7가지를 달달 외울 필요는 없지만, 각각의 테크닉이 어떤 기술인지 , 어떻게 활용되고 있는지는 반드시 숙지해야 합니다!
🧡 기출
12. 아래 빅데이터를 활용을 위한 기본 테크닉 중 어떤 사례에 해당하는가?
<보기>
- A마트는 금요일 저녁에 맥주를 사는 사람은 기저귀도 함꼐 구매했다는 사실을 발견하고, 두 가지 상품을 가까운 곳에 진열하기로 결정했다.
1) 회귀분석
2) 연관성분석
3) 유형분석
4) 구문분석
답 확인
2)
연관성분석 : 변인들 간에 주목할 만한 상관관계가 있는지 찾아내는 방법-✅ 출제 포인트
: 빅데이터가 등장하기 이전에 정형데이터를 주로 이용했습니다. (연관규칙학습, 유형분석, 유전자 알고리즘, 기계학습, 회귀분석) 하지만, 최근 SNS가 발달함에 따라 비정형화된 데이터를 많이 이용하고 있습니다. (감정분석) 뒤에서 더 자세히 학습해봐요!
🧡 기출
13. 다음 중 감정분석(Sentimental Analysis)에 대한 설명으로 가장 부적절한 것은?
1) 특정 주제에 대한 사용자의 긍정 부정 의견을 분석한다.
2) 주로 온라인 쇼핑몰에서 사용자의 상품평에 대한 분석이 대표적 사례이다.
3) 사용자간의 소셜관계를 알아내고자 할 때 이용한다.
4) 사용자가 사용한 문장이나 단어가 분석 대상이 된다.
답 확인
3) 해당 선지는 소셜네트워크분석(=사회관계망분석)에 해당한다.
2-4) 데이터의 가치와 미래 - 위기 요인과 통제 방안
1) 빅데이터 시대의 위기 요인
1) 사생활 침해
내용 | 개인정보가 포함된 데이터를 목적 외에 활용할 경우 사생활 침해를 넘어 사회, 경제적 위협으로 변형될 수 있다. |
예시 | 여행 사실을 트위트 한 사람의 집을 강도가 노리는 고전적 사례 발생 |
2) 책임 원칙 훼손
내용 | 빅데이터 기본분석과 예측기술이 발전하면서 정확도가 증가한 만큼, 분석대상이 되는 사람들은 예측 알고리즘의 희생양이 될 가능성도 증가한다. 민주주의 국가에서는 잠재적 위협이 아닌 명확한 결과에 대한 책임을 묻고 있어 이에 따른 원리를 훼손할 가능성이 있다. |
예시 | 영화 '마이너리티 리포트'에 나오는 것처럼 범죄 예측 프로그램에 의해 범행을 저지르기 전에 체포, 자신의 신용도와 무관하고 부당하게 대출이 거절되었다. → 민주주의 국가의 형사 처벌은 잠재적 위협이 아닌 명확하게 행동한 결과에 대해 책임을 묻고 있다. |
3) 데이터 오용
내용 | 빅데이터는 일어난 일에 대한 데이터에 의존하기 때문에 이를 바탕으로 미래를 예측하는 것은 적지 않은 정확도를 가질 수 있지만 항상 맞을 수는 없다. 또한 잘못된 지표를 사용하는 것도 빅데이터의 폐해가 될 수 있다. |
예시 | 베트남 전쟁 때, 맥나마라 장군은 적군 사망자 수를 전쟁의 진척상황을 나타내는 지표로 활용했고, 그 결과 적군 사망자 수는 과장돼 보고디는 경향을 보여 결과적으로 전쟁 상황을 오보하는 결과를 일으켰다. |
✅ 출제 포인트
: 빅데이터 시대의 위기 요인과 예시, 그리고 통제 방안에 대해서 시험이 자주 출제되므로 정확히 숙지해야 합니다!
🧡 기출
1. 빅데이터의 위기 요인과 통제방안을 서로 연결한 것 중 잘못 연결된 것은?
<보기>
가. 사생활 침해 - 동의제에서 책임제로 강화
나. 책임 원칙 훼손 - 알고리즘 접근 허용
다. 데이터 오용 - 정보 선택 옵션 제공
1) 가, 나
2) 가, 다
3) 나, 다
4) 가, 나, 다
답 확인
3)
나. '책임원칙 훼손' 에 대한 통제방안 - 정보 선택 옵션 제공
다. '데이터 오용' 에 대한 통제방안 - 알고리즘 접근 허용
2) 위기 요인에 따른 통제 방안
1) 동의에서 책임으로
내용 | 빅데이터에 의한 사생활침해 문제를 해결하기에는 부족한 측면이 많고 매번 개인정보 제공 동의를 하는 비효율적인 단계를 줄이고자 개인정보를 사용하는 사용자의 '책임'으로 해결하는 방안을 제시하였다. ('개인정보 제공자의 동의'→' 개인정보 사용자의 책임') |
기대효과 | 개인정보 유출 및 사용으로 발생하는 피해에 대해 사용자가 책임을 지게됨으로 사용주체의 적극적인 보호장치를 강구할 수 있다. |
2) 결과 기반 책임 원칙 고수
내용 | 책임원칙 훼손 위기요인에 대한 통제방안으로 기존의 원칙을 좀 더 보강하고 강화할 필요가 있으며, 예측 자료에 의한 불이익을 당할 가능성을 최소화하는 장치를 마련하는 것이 필요하다. |
기대효과 | 잘못된 예측 알고리즘을 통한 판단을 근거로 불이익을 줄 수 없으며, 이에 따른 피해 최소화 장치를 마련해야 한다. |
3) 알고리즘 접근 허용
내용 | 데이터 오용의 위기요소에 대한 대응책으로 '알고리즘에 대한 접근권'을 제공하여 예측 알고리즘의 부당함을 반증할 수 있는 방법을 명시해 공개할 것을 주문한다. |
기대효과 | 불이익을 당한 사람들을 대변할 전문가(알고리즈미스트)가 필요하게 되었다. |
※ 소비자 프라이버시 보호 3대 권고사항
1) 기업은 상품 개발 단계에서부터 소비자 프라이버시 보호 방안을 적용하라.
2) 기업은 소비자에게 공유정보 선택 옵션을 제공하라.
3) 소비자에게 수집된 정보 내용 공개 및 접근권을 부여하라.
2-5) 데이터의 가치와 미래 - 미래의 빅데이터
1) 빅데이터 활용의 3요소
기본 3요소
1) 데이터
→모든 것을 데이터화(Datafication)하는 현 추세로 특정 목적없이 축적된 데이터를 통한 창의적인 분석이 가능해져, 새로운 가치로 부상하고 있다.
2) 기술
→ 대용량의 데이터를 빠르게 처리하기 위한 알고리즘의 진화와 함께 스스로 학습하고 데이터를 처리할 수 있는 인공지능 기술이 출현하였다.
3) 인력
→ 빅데이터를 처리하기 위한 데이터 사이언티스트와 알고리즈미스트의 역할을 통해 빅데이터의 다각적 분석을 통한 인사이트 도출이 중요해지고 있다.
※ 데이터 사이언티스트 : 빅데이터에 대한 이론적 지식과 숙련된 분석 기술을 바탕으로 통찰력, 전달력, 협업 능력을 두루 갖춘 전문인력으로써 빅데이터의 다각적 분석을 통해 인사이트를 도출하고 이를 조직의 전략 방향제시에 활용할 줄 아는 기획자
※ 알고리즈미스트 : 데이터 사이언티스트가 한 일로 인해 부당하게 피해가 발생하는 것을 막는 역할을 하며 알고리즘 코딩 해석을 통해 빅데이터 알고리즘에 의해 부당하게 피해를 입은 사람을 구제하는 전문인력
'컴퓨터 공부 > ELSE' 카테고리의 다른 글
[ADsp] 5일만에 데이터분석 준전문가 자격증 따기 - 1과목 3장. 가치 창조를 위한 데이터 사이언스와 전략 인사이트 (0) | 2024.05.08 |
---|---|
[ADsp] 5일만에 데이터분석 준전문가 자격증 따기 - 1과목 1장. 데이터의 이해 (0) | 2024.04.28 |