본문 바로가기

Data Science/Hadoop

[Hadoop] hadoop 성공사례 및 기초 개념

by AI_Wooah 2022. 3. 9.

빅데이터 성공사례

주로 데이터마이닝(Data Mining) 분야에서 많이 거론됨
- 넷플릭스 - 고객의 감상 기록을 보고 좋아하는 배우, 패턴, 장르 등 다양한 분석을 통해서 추천 시스템을 만들었고 고객 만족도가 높다.
- 월마트 - 판매 상호관계가 높게 나타나는 것과 동선, 판매위치를 비슷하게 만들어 놓고 판매량을 늘린다
데이터를 DB에 올려놓고 분석하는 시스템
분석에 필요한 데이터 구하기
- 데이터는 소유가 있기 때문에 유통이 쉽지 않다.
- 서울시 공공데이터(http://data.seoul.go.kr) 등
데이터마이닝은 비싼 솔루션이 많은데 비해 빅데이터는 오픈소스라서 비용이 적게 든다

Hadoop의 시작

더그 커팅(Doug Cutting)

루씬 제작자

검색엔진용 오픈소스
텍스트 인덱스 엔진

Hadoop의 역사

구글 검색엔진과 같은 대형 검색엔진 제작에 관심
데이터를 대량으로 저장할 수 있는 빅파일시스템과 분산처리구조에 관심을 가지고 있었음
구글의 두 가지 논문에 영감을 얻어 Hadoop을 제작
- The Google File System(2003)
- MapReduce : Simplified Data Processing on Large Cluster(2004)
2006년부터 제작(Apache Top Level Project)
야후에 취직 → 클라우데라로 이직
GFS → HDFS, MapReduce → MapReduce

Hadoop의 기본사항과 특징

Hadoop의 기초

JAVA기반
Unix기반에서 주로 사용
- MS가 윈도우 기반으로 포팅하고 있으나 파일시스템 요구사항을 맞추기 쉽지 않음
- Linux Ubuntu 사용 예정
배포판
Apache Hadoop, CDH(클라우데라판), HDP(호튼웍스판)...
Hadoop의 빅3 회사
- Apache 재단
- Claudera
- HortonWorks
- MapR(구글/아마존과 협업)

Hadoop의 특징

Open Source cf.github
데이터가 있는 곳으로 코드를 이동
Scale Out(서버 수천대 연결 가능) vs Scale Up
병렬처리를 가능하게 하도록 단순화 시킨 데이터 모델
오프라인 배치 프로세싱에 최적화
- 실시간 처리가 안됨 - 데이터가 저장되면 처리해서 결과를 반영하는 방식

Hadoop 이후로 real-time processing of streaming big data 처리가 나오고 있다.

저작자표시 비영리 동일조건 (새창열림)

'Data Science > Hadoop' 카테고리의 다른 글

[Hadoop] Hadoop Architecture (0)	2022.03.09
빅데이터 정리 (0)	2022.03.08
빅데이터 마케팅 (0)	2021.09.14
1. 빅데이터 개요 (0)	2021.02.01

댓글

티스토리툴바