본문 바로가기
Data Science/Hadoop

[Hadoop] hadoop 성공사례 및 기초 개념

by AI_Wooah 2022. 3. 9.

빅데이터 성공사례

  1. 주로 데이터마이닝(Data Mining) 분야에서 많이 거론됨
    • 넷플릭스 - 고객의 감상 기록을 보고 좋아하는 배우, 패턴, 장르 등 다양한 분석을 통해서 추천 시스템을 만들었고 고객 만족도가 높다.
    • 월마트 - 판매 상호관계가 높게 나타나는 것과 동선, 판매위치를 비슷하게 만들어 놓고 판매량을 늘린다
  2. 데이터를 DB에 올려놓고 분석하는 시스템
  3. 분석에 필요한 데이터 구하기
    • 데이터는 소유가 있기 때문에 유통이 쉽지 않다.
    • 서울시 공공데이터(http://data.seoul.go.kr) 등
  4. 데이터마이닝은 비싼 솔루션이 많은데 비해 빅데이터는 오픈소스라서 비용이 적게 든다

Hadoop의 시작

더그 커팅(Doug Cutting)

루씬 제작자

  • 검색엔진용 오픈소스
  • 텍스트 인덱스 엔진

Hadoop의 역사

  • 구글 검색엔진과 같은 대형 검색엔진 제작에 관심
  • 데이터를 대량으로 저장할 수 있는 빅파일시스템과 분산처리구조에 관심을 가지고 있었음
  • 구글의 두 가지 논문에 영감을 얻어 Hadoop을 제작
    • The Google File System(2003)
    • MapReduce : Simplified Data Processing on Large Cluster(2004)
  • 2006년부터 제작(Apache Top Level Project)
  • 야후에 취직 → 클라우데라로 이직
  • GFS → HDFS, MapReduce → MapReduce

Hadoop의 기본사항과 특징


Hadoop의 기초

  • JAVA기반
  • Unix기반에서 주로 사용
    • MS가 윈도우 기반으로 포팅하고 있으나 파일시스템 요구사항을 맞추기 쉽지 않음
    • Linux Ubuntu 사용 예정
  • 배포판
  • Apache Hadoop, CDH(클라우데라판), HDP(호튼웍스판)...
  • Hadoop의 빅3 회사
    • Apache 재단
    • Claudera
    • HortonWorks
    • MapR(구글/아마존과 협업)

Hadoop의 특징

  • Open Source cf.github
  • 데이터가 있는 곳으로 코드를 이동
  • Scale Out(서버 수천대 연결 가능) vs Scale Up
  • 병렬처리를 가능하게 하도록 단순화 시킨 데이터 모델
  • 오프라인 배치 프로세싱에 최적화
    • 실시간 처리가 안됨 - 데이터가 저장되면 처리해서 결과를 반영하는 방식
  • Hadoop 이후로 real-time processing of streaming big data 처리가 나오고 있다.
반응형

'Data Science > Hadoop' 카테고리의 다른 글

[Hadoop] Hadoop Architecture  (0) 2022.03.09
빅데이터 정리  (0) 2022.03.08
빅데이터 마케팅  (0) 2021.09.14
1. 빅데이터 개요  (0) 2021.02.01

댓글