본문 바로가기

Data Science/Hadoop5

[Hadoop] Hadoop Architecture Hadoop Architecture 1. Hadoop의 시작 더그 커팅(Doug Cutting) 루씬 제작자 검색엔진용 오픈소스 텍스트 인덱스 엔진 2. Hadoop의 역사 구글 검색엔진과 같은 대형 검색엔진 제작에 관심 데이터를 대량으로 저장할 수 있는 빅파일시스템과 분산처리구조에 관심을 가지고 있었음 구글의 두 가지 논문에 영감을 얻어 Hadoop을 제작 The Google File System(2003) MapReduce : Simplified Data Processing on Large Cluster(2004) 2006년부터 제작(Apache Top Level Project) 야후에 취직 → 클라우데라로 이직 GFS → HDFS, MapReduce → MapReduce Hadoop의 기본사항과 특.. 2022. 3. 9.
[Hadoop] hadoop 성공사례 및 기초 개념 빅데이터 성공사례 주로 데이터마이닝(Data Mining) 분야에서 많이 거론됨 넷플릭스 - 고객의 감상 기록을 보고 좋아하는 배우, 패턴, 장르 등 다양한 분석을 통해서 추천 시스템을 만들었고 고객 만족도가 높다. 월마트 - 판매 상호관계가 높게 나타나는 것과 동선, 판매위치를 비슷하게 만들어 놓고 판매량을 늘린다 데이터를 DB에 올려놓고 분석하는 시스템 분석에 필요한 데이터 구하기 데이터는 소유가 있기 때문에 유통이 쉽지 않다. 서울시 공공데이터(http://data.seoul.go.kr) 등 데이터마이닝은 비싼 솔루션이 많은데 비해 빅데이터는 오픈소스라서 비용이 적게 든다 Hadoop의 시작 더그 커팅(Doug Cutting) 루씬 제작자 검색엔진용 오픈소스 텍스트 인덱스 엔진 Hadoop의 역사 .. 2022. 3. 9.
빅데이터 정리 1. 빅데이터의 출현배경 빅데이터란 디지털 환경에서 발생하는 대량의 정보를 가공하여 가치 있는 데이터를 추출하고 결과를 분석하는 기술이다. 1970년도에 정부를 중심으로 세금 신고서와 지문 등의 데이터베이스로 아주 구조화된 데이터를 사용하였기 때문에 정형화 되어있었다. 1980년도 말 이후 PC 컴퓨터 시대에는 사기업과 가정으로 PC가 보급화 되고 World Wide Web이 발명되면서 하이퍼텍스트 시스템을 통해 정보 공유가 용이해졌다. 따라서 생성되는 데이터의 양도 늘어났다. 1990년대에 중반에는 슈퍼컴퓨터가 만들어졌다. 이 때의 데이터 규모는 Exa Byte 수준이었다. 21세기에 들어서면서 디지털 기기들이 전 세계적으로 보급화 되었고 생성되는 데이터가 기하급수적으로 증가했다. 2006년에 처음으로.. 2022. 3. 8.
빅데이터 마케팅 1. 빅데이터 마케팅 기존의 4P 마케팅 빅데이터 4P 마케팅 -Product -Price -Place -Promotion -Performance -Personalization & Preference -Prediction -Privacy 2. 개인 맞춤형 마케팅 [기존의 맞춤형을 위한 조건] 1) 데이터 수집과 분석의 어려움 2) 맞춤화 시스템을 갖추기 위해 필요한 자본의 부담 [빅데이터를 활용한 맞춤화] 1) 기술과 비용 면에서 실현이 용이함. 2) 예시 - 사람들 간, 물건들 간 상관관계를 파악하여 맞춤화 - 개인 간의 차이, 선호하는 물건이나 서비스 차이 파악 - 개인이 과거에 좋아한 상품 파악하여 이후에 유사한 아이템 추천 - 제품의 유사성 분석하여 콘텐츠 기반의 서비스에서 유사한 콘텐츠 추천 -.. 2021. 9. 14.
1. 빅데이터 개요 ✔️빅데이터 개요Keywordkey / value 파일 형식으로 처리처리용량 수백TB~수십PB스케일러블하게 확장 가능한 구조(분산파일시스템 / 병렬처리 프레임워크) 빅데이터(BigData) 란?많은 양의 데이터를 분산 파일 시스템(HDFS), MapReduce 등의 병렬처리 프레임워크에 보관하고 특정한 방법으로 처리하는 시스템을 빅데이터 처리 시스템이라고 한다.DBMS(or RDBMS)CRUD(Create, Retrieve, Update, Delete)생성(저장), 검색, 수정, 삭제주로 테이블/레코드 형태로 관리RDBMS vs NoSQL(테이블단위)DBMS- 빠른 검색에 최적화- CUD가 일어나면 인덱스(index) 수정 NoSQL- 데이터가 빈번히 생성/수정/삭제되는 시스템에 적합- 빠른 쓰기에 최적.. 2021. 2. 1.
728x90
반응형
LIST