본문 바로가기
Data Science/Data Mining

[DataMining] 데이터마이닝이란?

by AI_Wooah 2022. 4. 3.

 

1. 데이터마이닝의 개념

데이터마이닝은 대용량 데이터로부터 이 데이터 안에 존재하는 관계, 패턴 규칙 등을 찾고 모델링해서 유용한 지식을 추출하는 작업이다.

대량의 데이터를 모아서 활용할 수 있고 실시간으로 데이터의 큰 특징을 뽑아내서 분석으로 가치를 창출할 수 있다.

데이터마이닝을 이해하기 위해서는 모수적 모형과 알고리즘 접근 방법을 비교해 봐야 한다.

 

두 가지 방법중 하나를 사용할 수도 있고 두가지 방법을 다 사용해서 데이터를 분선할 수 있다.

1) 모수적 모형 접근법

모수적 모형 접근법은 모형을 설정하고 단순선형회귀분석과 같이 수치적으로 파라미터를 찾아내서 데이터를 적합하는 것이다.

로지스틱 회귀모형, 선형 회귀 분석, 나이브베이즈, 단순 신경망 등에 쓰인다.

장점

- 더 단순하기 때문에 결과를 이해하고 해석하기 쉽다.

- 데이터에서 학습하는 것이 굉장히 빠르다.

- 훈련 데이터가 많이 필요하지 않고 데이터 적합성이 완벽하지 않아도 대체로 잘 작동한다.

 

단점

- 간혹 가정이 맞지 않거나 실무적으로 적용하는 것에 오류가 생길 수 있다.

- 단순한 것은 잘 다룰 수 있지만 복잡한 것에는 제한적이다.

 

2) 알고리즘 접근법

알고리즘 접근법은 프로그래밍을 통해서 컴퓨터로 데이터의 특징을 추출한다.

 

장점

- 기본 기능에 대한 가정이 없어서 더 다양하고 복잡한 기능을 만들 수 있다.

- 성능을 향상시키는 것에 제한이 적다.

단점

- 과도적합될 가능성이 있고, 특정 예측이 수행되는 이유를 설명하거나 결과를 해석하기 어렵다.

- 훈련할 파라미터가 훨씬 더 많기 때문에 트레이닝이 훨씬 느리다.

- 훈련할 데이터가 훨씬 많이 필요하다.

 

접근방법 모수적 모형 접근방법 알고리즘 모형 접근방법
특징 단순선형회귀분석 Y=a+bx와 같이
모수 a와b를 과거 데이터로 부터 적합(fitting)
알고리즘에 의해 정해진 방식에 의해
계산된 결과에 의해 분석되는 방식
장점 결과의 해석이 대체로 용이하며, 결과가 복잡하지 않음 데이터 복잡성이 높아도 적용이 가능
단점 가정이나 설정한 식에 부합하지 않는 데이터의경우,정확도등의성능이낮음 과도적합(over-fitting),결과해석어려움
해당방법 선형회귀분석,로지스틱회귀모형등 의사결정나무, 배깅(bagging), 부스팅(boosting), 랜덤 포레스트(random forest), 신경망모형등

 

3) 사례

금융 네트워크 계층 구조 및 시스템 리스크 예측과 분석 하는 방법을 기존에는 모수적 모형 방법으로 계량적 분석을 많이 시도 했었는데 아래 논문에 따르면 기존 네트워크 구조 모형들이 금융 네트워크 구조 분석에 적합한지 의문을 가지고 모수적 모형 방법 이외에도 비모수적 방법을 활용해서 데이터 분석을 진행했다.

모수적 접근법으로 분석할 때는 주로 요소를 추출하거나 특이한 위험을 가지고 있는 요소의 특징을 정리했는데 비모수적 방법 즉, 알고리즘 접근법으로 심층 신경망을 통해 학습한 빅데이터의 요소들을 바탕으로 시스템 리스크의 크기와 변동성을 예측했다.

* The analysis on the hierarchial structure of a financial network and the systemic risk by parametric econometric and deep-learning methods | 유재인 | 아주대학교

 

 

2. 데이터마이닝 특징

1) 대용량 관측 가능한 자료

2) 컴퓨터 활용적 기법

3) 경험적 방법이 중시되는 특징(일반화와 관련)

데이터가 주어졌을 때 데이터를 보고 경험을 바탕으로 파악하고 패턴을 발견한다.

4) 일반화(generalization)의 특징

빵을 살 때 우유를 함께 구매하는 고객이 한 명일 땐 신경쓰지 않겠지만

여러 고객이 빵 을 살 때 우유를 함께 구매한다면 일반화를 할 수 있는 것이 데이터마이닝의 특징적인 방법이다.

5) 다양한 분야의 업무에 활용하여 의사결정에 사용

 

3. 데이터마이닝 관련 분야

1) KDD(Knowledge Discovery in Database)

대용량 데이터들로부터 패턴을 찾아내는 과정이다.

OLAP(On-Line-Analytical Processing)

 

2) Machine Learning

인공지능(Articial Intelligence)의 한 분야로서 컴퓨터가 판단을 할 수 있도록 학습시키는 것이다.

기계학습과 데이터마이닝의 차이는 시각화다.

기계학습은 데이터를 많이 축적하면 컴퓨터가 알아서 규칙을 찾아내고 공통적인 패턴을 찾아내 학습한다.

데이터마이닝은 컴퓨터를 이용해서 뜻을 추출하는 데이터분석가의 입장을 표현한다.

 

3) 패턴 인식(Pattern Recognition)

컴퓨터에 의존해서 패턴을 판독하는 기법이다.

+
엑스레이를 찍어서 의사가 전달받아서 판정하는데 최초 판독 과정에서 의사가 전부 하기는 힘드니까
의료비용 저렴한 인도쪽으로 보내서 초벌 진료를 한 다음에 특수한걸 다시 받아서 한국 의사가 진단 결과를 내린다.
요즘엔 기계 판독시켜서 정밀하게 최종 판정을 내릴땐 사람 의사가 한다.
정상인지 비정상인지 구분하는 것을 이제는 컴퓨터를 이용해서 한다.
심지어 요새는 과도하게 머신이 다 하자는 의견도 있는데 기계 만든 사람의 주관이 들어가있을 수 있기 때문에 그건 좀 위험하다.

 

4) 통계학

모수적 모형 사용하는 것이 데이터분석 및 예측모형 적합과 연관이 있다.

 

4. 데이터 마이닝 기법

크게 지도학습과 자율학습 두 가지로 나뉘는데 데이터마이닝에서 사용하는 대부분의 방식이 지도학습 방식을 사용하지만 두 가지 방법을 함께 병합해서 쓸 수도 있다.

1) 지도학습(Supervised Learning)

입출력 간의 관계를 결정하는 시스템에 대한 유용한 근사 시스템을 구하는 것으로 정의한다.

뉴스, 주가, 날씨 등을 분석할때 많이 사용한다.

  • 회귀
    • 회귀분석
    • 회귀나무
    • 신경망
    • 앙상블 기법
  • 분류
    • 판별분석
    • 로지스틱 회귀분석
    • 의사결정나무
    • 신경망
    • 앙상블기법
    • 서포트벡터머신

2) 자율학습(Unsupervised Learning)

목표변수가 존재하며 데이터가 존재하는 여러 가지 특징을 찾는다.

x, y 끼리 모여있으면 특정한 특색에 따라서 스스로 묶이거나 유사성에 따라서 묶이거나 다양한 기준을 가지고 군집화 될 수 있다.

예를 들어 식료품점에서 우유하고 빵을 같이 사라고 강요하지 않더라도 같이 담겨있는 경우가 많은데 그 이유는 둘이 서로 필요의 관계라고 볼 수 있다.

  • 군집분석
    • 계층적 군집분석
      - 응집분석
      - 분할분석
    • 비계층적 군집분석
      - k-means 군집분석
  • 연관성분석
    • 장바구니분석
    • 순차적 장바구니분석
  • 가중치 결정
    • 신경망

 

3) 비정형분석

  • 텍스트마이닝
  • 사회연결망 분석

 

5. 데이터 마이닝 수행 단계

1) 목적 결정

2) 데이터 수집

3) 데이터 전처리 및 탐색

4) 데이터마이닝 방법 결정

5) 모형 선택

6) 성능평가

7) 적용

 

6. 데이터마이닝 대표적 사례

활용 분야가 다양하고 제한이 없다.

1) 고객관계관리(CRM : Customer Relationship Management)

  • 타겟 마케팅(target marketing)
  • 고객 세분화(segmentation)
  • 고객 성향 변동 분석(churn analysis)
  • 교차판매(cross selling)
  • 장바구니 분석(market basket analysis)

 

2) 신용평가

특정 사람의 과거 거래 내역을 바탕으로 신용거래 대출 한도를 결정할 수 있다.

  • 신용카드
  • 소비자대출
  • 주택할부금융
  • 상업대출

 

3) 비즈니스 프로세스

제조업 생산 단계에서 좋은 품질을 유지할 수 있도록 불량품을 골라낼 수 있고 서비스업에서는 데이터를 기반으로 품질을 개선할 수 있다.

  • 제조업 제품 생산 활동
  • 음원, 영상 등의 미디어 서비스
  • 대중교통
  • 세관 통과 프로세스

 

4) 부정행위 적발

패턴을 분석하여 사기 행위를 발견하거나 사전에 방지한다.

  • 신용카드 거래사기
  • 보험금의 허위/과다 청구
  • 스미싱 문자

 

5) 이미지 분석

디지털화 된 사진, 영상으로부터 패턴을 추출한다.

  • 의료진단
  • OCR(문자인식)
  • 방위산업
  • 천문학

 

6) 바이오 데이터 공학

유전자 염기서열 데이터를 분석해서 유전체의 기능이 정상적으로 작동하고 있는지 판단하고 유전자 변이를 일으킬 요소가 있는지 사전에 예측하고 예방한다.

 

 

 

 

 

 

반응형

'Data Science > Data Mining' 카테고리의 다른 글

[DataMining] 로지스틱회귀모형  (1) 2022.04.05
[DataMining] 선형회귀모형  (1) 2022.04.04

댓글