본문 바로가기

Data Science/Hadoop

1. 빅데이터 개요

by AI_Wooah 2021. 2. 1.

빅데이터 개요

Keyword

key / value 파일 형식으로 처리

처리용량 수백TB~수십PB

스케일러블하게 확장 가능한 구조
(분산파일시스템 / 병렬처리 프레임워크)

빅데이터(BigData) 란?
많은 양의 데이터를 분산 파일 시스템(HDFS), MapReduce 등의 병렬처리 프레임워크에 보관하고 특정한 방법으로 처리하는 시스템을 빅데이터 처리 시스템이라고 한다.

DBMS(or RDBMS)
CRUD(Create, Retrieve, Update, Delete)
생성(저장), 검색, 수정, 삭제
- 주로 테이블/레코드 형태로 관리

RDBMS vs NoSQL(테이블단위)
- DBMS
  - 빠른 검색에 최적화
  - CUD가 일어나면 인덱스(index) 수정
- NoSQL
  - 데이터가 빈번히 생성/수정/삭제되는 시스템에 적합
  - 빠른 쓰기에 최적화
→ 큰 데이터에 빠른 검색과 쓰기 모두 필요한 경우 빅데이터 사용

빅데이터
- 일반적인 키/밸류 방식 파일 단위로 관리

데이터의 크기
- 일반 DBMS
  - 수만~수백만 건 규모의 데이터를 다루는 시스템
- VLDB(Very Large DataBase)
  - 수십억 개의 레코드로 이루어진 테라바이트 단위의 데이터를 다루는 시스템
  - 파티셔닝, 샤딩, 복제 기술 사용
  - 조인이 어려움 -> 반정규화(De-Normalization) 필요도 높아짐
- Big Data
  - 수백 테라 단위로 수십~수만대의 서버에 데이터 분산 저장 되어 있음
  - 분산DB 형식으로 사용하려면 높은 비용 소요

빅데이터의 정의
- 서버 한대로 정의할 수 없는 규모의 데이터
- 기존 소프트웨어로는 처리할 수 없는 큰 규모의 데이터
  - Scale Up vs Scale Out
- 3V(Volume, velocity, Variety)
  - 양, 속도, 다양성
  - 20TB in 액센츄어

빅데이터 처리방식
- 스케일러블(Scalable) 방식 처리
  - 한 시스템에 모든 정보를 담는 것이 아닌 시스템을 추가하여 처리 용량을 늘리는 방식
- 스케일 아웃(Scale Out)
  - 하둡v1 - 4000대 / 하둡v2 - 10,000대 까지 연결 가능
  - 처리 가능한 데이터량 수 십 PB까지 다룰 수 있음
- 시스템 추가 처리 서버의 주소 등록으로 간단하게 가능

데이터 분산 저장 문제점
- 여러 개의 시스템 중 원하는 파일 찾기 어려움
- 일부 시스템/네트워크에 장애가 일어날 경우

데이터 분산 저장 해결책
- 분산파일시스템 구축
  - 여러 대의 시스템을 묶는 큰 파일시스템
  - 고가용성(HA : High Availability) 를 제공
    - 동일한 정보를 여러 군데에 중복해서 저장
    - 중복성/다중화(Redundancy)
- 병렬처리방식 → 처리성능 up!
  - 작업을 나눠 동시에 처리하는 방식
  - 분업화

저작자표시 비영리 동일조건 (새창열림)

'Data Science > Hadoop' 카테고리의 다른 글

[Hadoop] Hadoop Architecture (0)	2022.03.09
[Hadoop] hadoop 성공사례 및 기초 개념 (0)	2022.03.09
빅데이터 정리 (0)	2022.03.08
빅데이터 마케팅 (0)	2021.09.14

댓글

티스토리툴바