본문 바로가기
Data Science/Hadoop

빅데이터 정리

by AI_Wooah 2022. 3. 8.

1.  빅데이터의 출현배경

빅데이터란 디지털 환경에서 발생하는 대량의 정보를 가공하여 가치 있는 데이터를 추출하고 결과를 분석하는 기술이다.

1970년도에 정부를 중심으로 세금 신고서와 지문 등의 데이터베이스로 아주 구조화된 데이터를 사용하였기 때문에 정형화 되어있었다.

1980년도 이후 PC 컴퓨터 시대에는 사기업과 가정으로 PC 보급화 되고 World Wide Web 발명되면서 하이퍼텍스트 시스템을 통해 정보 공유가 용이해졌다.

따라서 생성되는 데이터의 양도 늘어났다.

1990년대에 중반에는 슈퍼컴퓨터가 만들어졌다. 때의 데이터 규모는 Exa Byte 수준이었다.

21세기에 들어서면서 디지털 기기들이 세계적으로 보급화 되었고 생성되는 데이터가 기하급수적으로 증가했다.

2006년에 처음으로 빅데이터라는 용어가 등장하기 시작했으며 기존의 데이터를 관리하고 처리하는 것이 어려울 정도로 양이 불어났다.

2000년대 초반 구글이 만든 MapReduce 전체 web 있는 데이터를 색인하여 검색할 있도록 구조화 했다.

SNS 발달로 개인이 콘텐츠를 생산하는 문화가 시작되며 빅데이터를 분석하는 신생 기업들도 점점 늘어나기 시작했다.

또한 데이터를 활용하여 마케팅이나 조직 의사결정에 적용하는 기업의 사례도 늘어나기 시작했다.

20세기 까지는 데이터 규모가 Exa Byte 정도였는데 2000년대 중반에는 1 사이에 해당 규모의 데이터를 생산하며 Zetta Byte 진입하기 시작한다

2010 중반부터는 IoT 센서 기술이 발전하고 단가가 내려가 보급되며 하루 이틀에 EB 수준의 데이터를 생산하고 본격적인 ZB시대로 들어선다.

점점 많아지는 데이터 속에서 어떤 데이터가 중요하고 필요한지 선별하고 데이터간의 인과성을 찾아 미래를 예측하는 적절하게 활용하는 능력이 필요해지고 있다.

 

 

2. 데이터과학자란?

최근 빅데이터를 활용하여 의사결정과 마케팅을 하는 기업이 늘어나며 데이터 분석가의 수요가 높아지고 있다.

데이터 분석가란 수많은 비정형 데이터를 모아 가치 있는 정보로 만들고 정보를 기반으로 나은 결론을 도출하기 위해서 데이터와 숫자를 다룬다.

데이터 처리 과정에 따라 데이터 과학자의 직무도 세분화 있다.

데이터를 준비, 처리, 분석, 시각화 하고 패턴과 추세를 파악는 단계로 나눌 있다.

데이터를 준비하는 과정에서 정규표현식을 활용해 데이터를 크롤링한다. 처리하는 과정에서는 비정형 데이터를 정형화시키는 전처리 과정을 거친다. 분석 과정에서는 선형회귀분석, 정규분포, 통계 등의 수학을 이용해 기하학적인 모델을 짜서 데이터를 분석한다. 분석된 데이터를 사람들이 보기 쉽게 그림이나 그래프 등으로 나타내는 시각화 과정을 거치면 데이터과학자의 역할이 완성된다.

데이터를 통해 본질을 파악하며 소비자의 잠재적 니즈를 발견해 기획이나 마케팅을 진행하고, 공정의 잠재적 에러 등을 예측한다.

 

 

3. 네이버 검색어트렌드를 이용한 주제어 추출과 의미 도출

 

1) 주제어 추출

코로나가 사람들의 여가생활에 미치는 영향을 분석하기 위해 코로나와 여가를 두고 비교하였다.

그래프를 분석하며 백신의 보급이 여행에 미치는 영향이 궁금해져 추가하였다.

코로나 코로나19
여가 trip, 해외여행, 국내여행, 비행기, 여행, 휴가, 외출, 약속, 해외, 맛집, 바다, 계곡, 리조트, 펜션, 호텔
백신 코로나백신

여행 연관 키워드를 참고하여 작성하였다.

 

 2) 그래프 비교

2020 12월에 검색이 많이 되었던 코로나가 점차 줄어들면서 여가 관련 키워드의 검색이 늘어났다.

2020 12월에 강력한 거리두기 조치로 인해 검색량이 급증하였다. 또한 사람들의 불안감으로 인한 백신 요구와 함께 정부의 백신 도입 정책 발표로 백신 키워드의 검색도 함께 늘어났다. 반대로 여행은 더욱 줄어서 바닥에 가까워진 모습을 확인할 있다.

 

3) 결론

2021 2 코로나 키워드가 점점 줄어들면서 여행 키워드가 급증한 적이 있다. 이후에도 코로나 키워드는 계속 줄어들면서 여행 키워드는 점점 늘어나는 추세이다. 2021 6 이후로 코로나 키워드가 급증하지만 여행 키워드는 줄어들지 않고 있다. 실질적으로 코로나 확진자 수는 늘고 있지만 코로나 검색 키워드가 줄어들고 여행 키워드가 늘어나고 있다. 이유는 백신 접종자가 늘어나면서 코로나에 대한 불안감이 줄어들어 여행을 계획하는 사람들이 늘었다고 있다.

코로나와 백신은 정비례하며 여행은 반비례 관계임을 확인할 있었다.

 

4. 구글 Ngram 이용하여 tea, coffee, alcohol 비교

 

1) 키워드 추출

키워드
tea coffee alcohol

오랜 역사에 걸쳐 모두에게 꾸준히 사랑받는 음료인 tea, coffee, alcohol을 키워드로 삼아 비교해보았다.

1990이전에는 꾸준히 차랑 커피가 낮고 술이 압도적으로 높았다. 그 중에서도 1940년도 이전에는 커피보다는 차를 소비하는 문화였기 때문에 커피가 가장 낮았다.

 

1980년대 중반을 기점으로 커피와 차는 늘고 술은 줄어드는 추세로 반전됐다.

그땐 술>>커피 순서였는데 최근에는 반대로 돼서 커피>>술 순이다. 커피는 제일 급성장하는 추세이다.

 

1990년대부터 술이 줄어들고 커피랑 차가 급격하게 늘어난 이유는 GDP가 올라가는 것과 관련이 있다. 사람들이 굶을 걱정이 줄어들면서 건강에 관심을 가지기 시작했고 상대적으로 건강을 해치는 술에 대한 관심이 급격하게 줄기 시작했다. 반대로 커피와 차는 활력을 주는 현대인의 필수품 이미지로 자리하며 관심이 급격하게 증가하였다.

또한 재미있는 점이 육체노동이 대다수였던 시대에는 노동에 새참처럼 술이 함께하고 음식을 먹을때도 항상 술이 함께했지만 사무직이 늘어나는 시점부터 일할 때 술이 금기시되고 피곤한 정신을 카페인으로 일깨우는 문화로 바뀌어 음식에도 커피와 함께하며 커피의 관심이 더 늘어났다. 따라서 문화 자체가 바뀌는 영향으로 추측할 수 있다.

 

2) 구글 트렌드

 

Tea

차에 대한 관심도는 큰 기복 없이 꾸준히 소폭 늘어나는 것을 볼 수 있다.

coffee

커피에 대한 관심도는 높아졌다 낮아졌다를 반복하며 어느 시점부터 격차를 벌려가며 늘어나고 있다.

alcohol

술에 대한 관심도는 가장 많았다가 점점 줄어들었으며 증가하는 차와 커피와는 격차가 커지고 있다. 최근 잠시 급증하였다가 다시 감소하는 추세로 돌아섰다.

 

전체적으로 커피 관심도가 엄청 늘었으며 술은 줄어들었다. 차는 대체로 커피의 관심도와 함께 따라서 올라가고 있다.

 

3) 시간대별로 연계해서 찾아낸 종합적 의미

키워드를 Ngram으로 분석했을 때와 2000년대 초반부터의 트렌드와 함께 놓고 시간대별로 비교했을 때 대체로 일치하는 것을 확인할 수 있었다.

2020년을 기점으로 Ngram과 트렌드 모두 순위가 변경되었으며 점점 더 격차가 벌어지는 것도 확인하였다.

트렌드에서 올라갔다 내려갔다 했던 시점을 합쳐서 증가 유지하는 그래프로 확인

더 자세하게 트렌드에서 확 올라갔던게 엔그램에서 이렇게 나타났다

 

2012년부터 커피에 대한 트렌드가 확 급증했다가 다시 내려왔는데 Ngram에서는 거의 떨어지지 않았으며 오히려 ngram에서 coffee 단어의 집계가 감소되었던 2016~2018 시기에 트렌드에서는 급격히 올라가는 것은 커피의 종류가 세분화 되어 단순히 커피라는 단어보다 다양한 방법으로 커피에 관심을 표현할 수 있어서 그렇다고 볼 수 있다.

 

5. 아마존의 빅데이터를 이용하여 얻은 혁신

 

온라인 서점으로 시작해 미국의 가장 큰 테크 기업들 중에 속하며 기술 시장을 이끌어가게 된 아마존이 빅데이터를 활용하여 만든 제품인 인공지능 Alexa는 소비자의 삶을 혁신하여 생활의 질을 대폭 높였다.

 

블랙프라이데이로 유명한 아마존은 오랜 기간 이커머스의 최강자로 자리하며 이용자 수가 2억명을 돌파했다. 블랙프라이데이에 사이트로 사람이 너무 많이 몰려 증설하기 시작한 서버를 특정 시간 이외에는 다른 기업에 임대하게 된 AWS의 스토리는 이미 유명하다.

이처럼 많은 고객들이 아마존 사이트에 방문하는데 고객이 체류한 시간과 검색하고 클릭하고 등의 작은 데이터까지 모두 수집해 방대한 양의 빅데이터를 소유하게 되었다.

이 빅데이터를 활용해 기계학습으로 사용자가 좋아할만한 제품을 노출시켜주는 알고리즘 추천은 이미 많은 사람들이 접했고 익숙한 기술이 되어버렸다.

 

아마존은 여기서 멈추지 않고 IoT 기술을 통해 고객의 생활 깊숙히 자리잡았다. 이제는 사용자가 사이트에 방문한 시간뿐만 아니라 눈을 뜰 때부터 잠들 때 까지 심지어는 수면데이터까지 수집하고 패턴을 분석해주는 등 생활하는 모든 데이터를 수집한다. 아마존 빅데이터 활용의 집약체가 Alexa의 형태로 등장했다.

 

2020 IT 박람회에 참관하여 집이나 회사에 아마존 IoT 기기로 생태계가 구축되어있는 Alexa 체험존을 방문하여 기술을 직접 체험해보았다.

Alexa는 인공지능 스피커부터 시작하여 TV, 냉장고, 화장실 등 마주하는 수많은 속에 설치되어 인간의 행동을 모두 모니터링하며 학습한다.

비서가 따로 필요 없이 행동 패턴을 분석하여 다음 행동을 예측하여 미리 알림을 제공하고 필요한 것을 타이밍에 맞추어 제공해준다.

 

그 중 가장 진화한 쇼핑방법이라고 느꼈던 것이 자동 구매다. 사용자가 기존에 구매했던 물건을 기반으로 소비패턴을 분석하여 구매할 때가 되면 자동으로 tv나 인터페이스에 띄워 구매 알람과 동시에 어떤 상품을 구매하면 되는지 최적화 해서 알려준다. 심지어는 추천도 귀찮은 사람들을 위해 물건이 어떤게 떨어질 때가 됐는지 예측하여 자동으로 결제하여 상품을 배송해준다.

반응형

'Data Science > Hadoop' 카테고리의 다른 글

[Hadoop] Hadoop Architecture  (0) 2022.03.09
[Hadoop] hadoop 성공사례 및 기초 개념  (0) 2022.03.09
빅데이터 마케팅  (0) 2021.09.14
1. 빅데이터 개요  (0) 2021.02.01

댓글