빅데이터 개요
Keyword
- key / value 파일 형식으로 처리
- 처리용량 수백TB~수십PB
- 스케일러블하게 확장 가능한 구조
(분산파일시스템 / 병렬처리 프레임워크)
- 빅데이터(BigData) 란?
많은 양의 데이터를 분산 파일 시스템(HDFS), MapReduce 등의 병렬처리 프레임워크에 보관하고 특정한 방법으로 처리하는 시스템을 빅데이터 처리 시스템이라고 한다.
- DBMS(or RDBMS)
CRUD(Create, Retrieve, Update, Delete)
생성(저장), 검색, 수정, 삭제
- 주로 테이블/레코드 형태로 관리
- RDBMS vs NoSQL(테이블단위)
- DBMS
- 빠른 검색에 최적화
- CUD가 일어나면 인덱스(index) 수정
- NoSQL
- 데이터가 빈번히 생성/수정/삭제되는 시스템에 적합
- 빠른 쓰기에 최적화
→ 큰 데이터에 빠른 검색과 쓰기 모두 필요한 경우 빅데이터 사용
- DBMS
- 빅데이터
- 일반적인 키/밸류 방식 파일 단위로 관리
- 데이터의 크기
- 일반 DBMS
- 수만~수백만 건 규모의 데이터를 다루는 시스템
- VLDB(Very Large DataBase)
- 수십억 개의 레코드로 이루어진 테라바이트 단위의 데이터를 다루는 시스템
- 파티셔닝, 샤딩, 복제 기술 사용
- 조인이 어려움 -> 반정규화(De-Normalization) 필요도 높아짐
- Big Data
- 수백 테라 단위로 수십~수만대의 서버에 데이터 분산 저장 되어 있음
- 분산DB 형식으로 사용하려면 높은 비용 소요
- 일반 DBMS
- 빅데이터의 정의
- 서버 한대로 정의할 수 없는 규모의 데이터
- 기존 소프트웨어로는 처리할 수 없는 큰 규모의 데이터
- Scale Up vs Scale Out
- 3V(Volume, velocity, Variety)
- 양, 속도, 다양성
- 20TB in 액센츄어
- 빅데이터 처리방식
- 스케일러블(Scalable) 방식 처리
- 한 시스템에 모든 정보를 담는 것이 아닌 시스템을 추가하여 처리 용량을 늘리는 방식
- 스케일 아웃(Scale Out)
- 하둡v1 - 4000대 / 하둡v2 - 10,000대 까지 연결 가능
- 처리 가능한 데이터량 수 십 PB까지 다룰 수 있음
- 시스템 추가 처리 서버의 주소 등록으로 간단하게 가능
- 스케일러블(Scalable) 방식 처리
- 데이터 분산 저장 문제점
- 여러 개의 시스템 중 원하는 파일 찾기 어려움
- 일부 시스템/네트워크에 장애가 일어날 경우
- 데이터 분산 저장 해결책
- 분산파일시스템 구축
- 여러 대의 시스템을 묶는 큰 파일시스템
- 고가용성(HA : High Availability) 를 제공
- 동일한 정보를 여러 군데에 중복해서 저장
- 중복성/다중화(Redundancy)
- 병렬처리방식 → 처리성능 up!
- 작업을 나눠 동시에 처리하는 방식
- 분업화
- 분산파일시스템 구축
반응형
'Data Science > Hadoop' 카테고리의 다른 글
[Hadoop] Hadoop Architecture (0) | 2022.03.09 |
---|---|
[Hadoop] hadoop 성공사례 및 기초 개념 (0) | 2022.03.09 |
빅데이터 정리 (0) | 2022.03.08 |
빅데이터 마케팅 (0) | 2021.09.14 |
댓글