빅데이터 성공사례
- 주로 데이터마이닝(Data Mining) 분야에서 많이 거론됨
- 넷플릭스 - 고객의 감상 기록을 보고 좋아하는 배우, 패턴, 장르 등 다양한 분석을 통해서 추천 시스템을 만들었고 고객 만족도가 높다.
- 월마트 - 판매 상호관계가 높게 나타나는 것과 동선, 판매위치를 비슷하게 만들어 놓고 판매량을 늘린다
- 데이터를 DB에 올려놓고 분석하는 시스템
- 분석에 필요한 데이터 구하기
- 데이터는 소유가 있기 때문에 유통이 쉽지 않다.
- 서울시 공공데이터(http://data.seoul.go.kr) 등
- 데이터마이닝은 비싼 솔루션이 많은데 비해 빅데이터는 오픈소스라서 비용이 적게 든다
Hadoop의 시작
더그 커팅(Doug Cutting)
루씬 제작자
- 검색엔진용 오픈소스
- 텍스트 인덱스 엔진
Hadoop의 역사
- 구글 검색엔진과 같은 대형 검색엔진 제작에 관심
- 데이터를 대량으로 저장할 수 있는 빅파일시스템과 분산처리구조에 관심을 가지고 있었음
- 구글의 두 가지 논문에 영감을 얻어 Hadoop을 제작
- The Google File System(2003)
- MapReduce : Simplified Data Processing on Large Cluster(2004)
- 2006년부터 제작(Apache Top Level Project)
- 야후에 취직 → 클라우데라로 이직
- GFS → HDFS, MapReduce → MapReduce
Hadoop의 기본사항과 특징
Hadoop의 기초
- JAVA기반
- Unix기반에서 주로 사용
- MS가 윈도우 기반으로 포팅하고 있으나 파일시스템 요구사항을 맞추기 쉽지 않음
- Linux Ubuntu 사용 예정
- 배포판
- Apache Hadoop, CDH(클라우데라판), HDP(호튼웍스판)...
- Hadoop의 빅3 회사
- Apache 재단
- Claudera
- HortonWorks
- MapR(구글/아마존과 협업)
Hadoop의 특징
- Open Source cf.github
- 데이터가 있는 곳으로 코드를 이동
- Scale Out(서버 수천대 연결 가능) vs Scale Up
- 병렬처리를 가능하게 하도록 단순화 시킨 데이터 모델
- 오프라인 배치 프로세싱에 최적화
- 실시간 처리가 안됨 - 데이터가 저장되면 처리해서 결과를 반영하는 방식
- Hadoop 이후로 real-time processing of streaming big data 처리가 나오고 있다.
반응형
'Data Science > Hadoop' 카테고리의 다른 글
[Hadoop] Hadoop Architecture (0) | 2022.03.09 |
---|---|
빅데이터 정리 (0) | 2022.03.08 |
빅데이터 마케팅 (0) | 2021.09.14 |
1. 빅데이터 개요 (0) | 2021.02.01 |
댓글