Data Science/Machine Learning4 [Machine Learning] 특징추출(feature extraction) 선형 변환에 대한 특징추출 특징추출이란? 입력 데이터가 $x_i$로 주어지고 출력 데이터가 $y_i$로 주어질 수도 있다. 주어진 데이터에 대해서 n차원의 랜덤벡터를 통해 변환함수 Φ(파이)를 찾게 된다. 변환함수의 Φ를 찾으면 입력 데이터를 $y_{new}$라는 m차원의 특징벡터로 변환해서 표현된다. 특징추출은 크게 두가지의 목적을 가지고 수행된다. 1) 분류를 하거나 군집 등의 분석을 할 때 불필요한 정보들을 제거하고 핵심적인 정보만 추출하기 위함이다. 2) 원래의 n차원의 데이터를 m차원으로 차원축소해서 계산량을 줄이고 메모리를 감소시켜서 분석 시스템의 효율과 성능을 향상시키기 위함이다. 변환함수(Embedding Function, Transformation Function)란? n차원의 입력값을 .. 2022. 10. 2. [Machine Learning] 성능 평가 모델 학습에 들어가기에 앞서 학습시킬 데이터를 먼저 살펴보겠습니다. 머신러닝을 하기 전 먼저 머신러닝 첫 포스팅에서 말씀드린 것과 같이 EDA를 하며 데이터를 파악하는데요 그 과정을 상세히 설명드리겠습니다. 데이터와 데이터 분포 데이터 표현(수치화) 기계는 현실에 있는 언어나 그림을 알아듣지 못하기 때문에 기계가 인식할 수 있도록 수치값으로 변형해서 학습시킬 수 있다. 위와 같은 프로세스를 다른 데이터들에게 적용할 수 있도록 바탕을 n차원의 벡터로 두고 식을 구한다. n차원 공간상의 한 점 x에 대해서 열벡터를 구해보면 다음과 같이 식이 표현된다. 데이터 집합의 분포 수치화된 데이터의 특성을 직관적으로 파악할 수 있도록 분포를 확인한다. 제일 기본적이고 처음에 많이 하는방법은 2차원 데이터 집합의 산점도.. 2022. 9. 7. [Machine Learning] Decision Tree(의사결정트리) 분류 문제의 사용 분류문제는 고객의 특성에 맞게 쿠폰 선호 여부를 알기 위해 필요하다. 나무 그림을 적용하면 의사를 묻지 않아도 결과를 추측할 수 있다. 의사결정 트리를 만들기 위해서는 엔트로피와 지니계수, 카이제곱스퀘어를 알아야 한다. 엔트로피의 이해 A~F 속성은 고객의 속성을 뜻한다. G 쿠폰반응여부가 머신러닝에서 맞춰야 할 타겟값이다. 이것은 나무그림에서 잎사귀에 해당된다. 타겟값이 있기 때문에 이 문제는 감독학습이며 분류문제에 해당한다. 여기서 직장여부를 Root Node로 잡는다. 엔트로피가 큰 폭으로 줄어드는 방향으로 데이터를 나누어야 한다. 엔트로피란? 무질서한 정도를 나타내는 물리학적 양이다. 자연의 모든 변화는 entropy가 증대되는 방향으로 일어난다. 확률 p란 전체 데이터에서 특정.. 2022. 8. 10. [Machine Learning] 머신러닝 개요 머신러닝이란? 컴퓨터가 주변의 환경에서 발생하는 데이터를 학습하여 유의미한 패턴과 통계적인 함수를 발견하여 앞으로의 행동에 지침이 되는 지식이 얻어내는 행위를 말한다. 기계 학습은 인공 지능의 하위 분야로 광범위하게는 지능적인 인간 행동을 모방하는 기계의 능력으로 정의된다. 인공 지능 시스템은 인간이 문제를 해결하는 방식과 유사한 방식으로 복잡한 작업을 수행하는데 사용된다. 기계 학습은 은행 거래, 사람 사진 또는 빵집 등 과 같이 숫자, 사진 또는 텍스트, 수리 기록, 센서의 시계열 데이터 또는 판매 보고서와 같은 데이터로부터 시작한다. 데이터를 수집해서 훈련 데이터로 사용하거나 기계 학습 모델이 훈련할 수 있도록 정보로 가공한다. 일반적으로 데이터가 많을수록 학습 결과가 더 좋아진다. 머신러닝이 필요.. 2022. 8. 8. 이전 1 다음 728x90 반응형 LIST