본문 바로가기

Data Science50

[Machine Learning] 특징추출(feature extraction) 선형 변환에 대한 특징추출 특징추출이란? 입력 데이터가 $x_i$로 주어지고 출력 데이터가 $y_i$로 주어질 수도 있다. 주어진 데이터에 대해서 n차원의 랜덤벡터를 통해 변환함수 Φ(파이)를 찾게 된다. 변환함수의 Φ를 찾으면 입력 데이터를 $y_{new}$라는 m차원의 특징벡터로 변환해서 표현된다. 특징추출은 크게 두가지의 목적을 가지고 수행된다. 1) 분류를 하거나 군집 등의 분석을 할 때 불필요한 정보들을 제거하고 핵심적인 정보만 추출하기 위함이다. 2) 원래의 n차원의 데이터를 m차원으로 차원축소해서 계산량을 줄이고 메모리를 감소시켜서 분석 시스템의 효율과 성능을 향상시키기 위함이다. 변환함수(Embedding Function, Transformation Function)란? n차원의 입력값을 .. 2022. 10. 2.
[Paper Review] EfficientNetV2 논문 번역 [https://arxiv.org/pdf/2104.00298.pdf](https://arxiv.org/pdf/2104.00298.pdf) Mingxing Tan, Quoc V. Le 세줄요약! Our contributions are threefold: 우리의 기여는 세 가지입니다. - We introduce EfficientNetV2, a new family of smaller and faster models. Found by our training-aware NAS and scaling, EfficientNetV2 outperform previous models in both training speed and parameter efficiency. 더 작고 빠른 모델의 새로운 제품군인 Efficient.. 2022. 9. 22.
[Machine Learning] 성능 평가 모델 학습에 들어가기에 앞서 학습시킬 데이터를 먼저 살펴보겠습니다. 머신러닝을 하기 전 먼저 머신러닝 첫 포스팅에서 말씀드린 것과 같이 EDA를 하며 데이터를 파악하는데요 그 과정을 상세히 설명드리겠습니다. 데이터와 데이터 분포 데이터 표현(수치화) 기계는 현실에 있는 언어나 그림을 알아듣지 못하기 때문에 기계가 인식할 수 있도록 수치값으로 변형해서 학습시킬 수 있다. 위와 같은 프로세스를 다른 데이터들에게 적용할 수 있도록 바탕을 n차원의 벡터로 두고 식을 구한다. n차원 공간상의 한 점 x에 대해서 열벡터를 구해보면 다음과 같이 식이 표현된다. 데이터 집합의 분포 수치화된 데이터의 특성을 직관적으로 파악할 수 있도록 분포를 확인한다. 제일 기본적이고 처음에 많이 하는방법은 2차원 데이터 집합의 산점도.. 2022. 9. 7.
[Bayes] Bayesian inference(베이즈 추론)의 배경 베이즈 추론이란? (블로그가 지루하다는 친구의 피드백을 받아 물음표 이모티콘 넣어드렸습니다ㅎ헿) 베이즈 추론은 토마스 베이즈와 라플라스가 18세기에 창시한 것으로 통계학의 베이즈 확률론을 기반으로 한 통계적 추론이다. 추론할 대상의 확률 분포를 추정하는 것이 목적이며 확률은 다양한 이벤트와 지식을 바탕으로 주관적인 정도로 해석해 업데이트 한다. 확률 1. 함수 𝑃 ∶ ℬ → [0, 1] 𝓧 : 집합 ℬ : 𝓧의 부분집합들의 모임 𝑃는 𝓧의 부분집합들의 모임에서 0으로 가는 함수다. 아래의 세가지 성질을 만족해야 한다. (i) 𝑃(𝐵) ≥ 0, ∀𝐵 ∈ ℬ; 💡 함수값은 항상 0보다 크거나 같다. (ii) 𝑃(𝓧) = 1; 💡 전체집합에서 확률값은 1이다. (iii) (가산 가법성) ℬ의 부분 집합으로 이.. 2022. 8. 18.
[Machine Learning] Decision Tree(의사결정트리) 분류 문제의 사용 분류문제는 고객의 특성에 맞게 쿠폰 선호 여부를 알기 위해 필요하다. 나무 그림을 적용하면 의사를 묻지 않아도 결과를 추측할 수 있다. 의사결정 트리를 만들기 위해서는 엔트로피와 지니계수, 카이제곱스퀘어를 알아야 한다. 엔트로피의 이해 A~F 속성은 고객의 속성을 뜻한다. G 쿠폰반응여부가 머신러닝에서 맞춰야 할 타겟값이다. 이것은 나무그림에서 잎사귀에 해당된다. 타겟값이 있기 때문에 이 문제는 감독학습이며 분류문제에 해당한다. 여기서 직장여부를 Root Node로 잡는다. 엔트로피가 큰 폭으로 줄어드는 방향으로 데이터를 나누어야 한다. 엔트로피란? 무질서한 정도를 나타내는 물리학적 양이다. 자연의 모든 변화는 entropy가 증대되는 방향으로 일어난다. 확률 p란 전체 데이터에서 특정.. 2022. 8. 10.
[Machine Learning] 머신러닝 개요 머신러닝이란? 컴퓨터가 주변의 환경에서 발생하는 데이터를 학습하여 유의미한 패턴과 통계적인 함수를 발견하여 앞으로의 행동에 지침이 되는 지식이 얻어내는 행위를 말한다. 기계 학습은 인공 지능의 하위 분야로 광범위하게는 지능적인 인간 행동을 모방하는 기계의 능력으로 정의된다. 인공 지능 시스템은 인간이 문제를 해결하는 방식과 유사한 방식으로 복잡한 작업을 수행하는데 사용된다. 기계 학습은 은행 거래, 사람 사진 또는 빵집 등 과 같이 숫자, 사진 또는 텍스트, 수리 기록, 센서의 시계열 데이터 또는 판매 보고서와 같은 데이터로부터 시작한다. 데이터를 수집해서 훈련 데이터로 사용하거나 기계 학습 모델이 훈련할 수 있도록 정보로 가공한다. 일반적으로 데이터가 많을수록 학습 결과가 더 좋아진다. 머신러닝이 필요.. 2022. 8. 8.
[Forecasting] 부분자기상관과 시계열의 주파수 분석 부분자기상관 1. 표본부분자기상관계수 1) 시계열 $Z_{t+h}$로부터 $Z_{t+1}$, ..., $Z_{t+h-1}$의 영향력을 제거 2) 시차가 h인 표본부분자기상관계수 2. 부분상관도표 x축 시차(h) , y축 표본부분자기상관계수 -> 부분자기상관계수가 유의적으로 0과 다른지 검정한다 검정을 위해서는 분포가 필요하다. 1) 백색잡음계열 2) 시계열의 주파수 분석 1. 시계열의 주파수 정보 시계열은 특정한 주기의 변동들이 모여서 만들어진다. - 주기가 긴 시계열은 저주파 변동을 가진 시계열이다. - 주기가 짧은 시계열은 고주파 변동을 가진 시계열이다. 2. 삼각함수 주기를 잘 대표할 수 있도록 측정하는 것이 삼각함수다. 3. 시계열의 주파수 정보 - 시계열 $f$ :주파수즉단위시간당순환의수를의미 .. 2022. 4. 20.
[Forecasting] 예측 데이터 분석의 기초 시계열의 요약 1. 시계열의 중심측도 - 표본평균 - 중앙값 크기순으로 나열할 때 중앙의 값이다. 특이값이 있을 경우 영향을 줄이기 위해 중앙값을 찾아서 평균을 계산하는데 도움을 준다. - 최빈값 빈도가 가장 많은 값이다. 투표결과처럼 가장 많이 출현한 데이터를 측정한다. 2. 시계열의 산포 - 표본분산 - 표본 표준편차 - 사분위편차 특이값의 영향을 줄이기 위해 중심값을 확인하여 보정하는 것이다. 3. 시계열의 사례 - 경제성장률 추이 GDP는 계절조정계열과 원계열 두가지 형태로 발표된다. 경제성장률은 계정조정계열의 전기대비 증감률로 확인한다. 시계열의 분포 1. 시계열분포란? 시계열 값들이 얼마나 퍼져있고 공통점을 가지고 있는지 개형을 파악하는 것이다. - 히스토그램(histogram) - 확률밀도함.. 2022. 4. 7.
[Forecasting] 예측 데이터 1. 시계열의 정의 1) 시계열이란? 시간에 따라서 관측된 자료를 말한다. 관측 시점과 관측시점 사이의 시차간격이 중요하다 $Y_t$ : t=1, 2, 3, ... 시간 t를 하첨자로 표현한다. 2) 횡단면 데이터 3) 시계열의 예 경제 시계열 : 국내총생산(GDP), 소비자 물가지수 등 물리 시계열 : 일일 강수량, 기온, 지짂 발생 건수 등 경영 시계열 : 상품의 판매량, 매출액 인구 시계열 : 총인구, 농가수 통신공학 시계열 : (0,1)-확률과정 사회 시계열 : 교통사고 건수, 범죄발생 수 2. 시계열 도표 시간의 경과에 따라 시계열 값이 변하는 것을 그림으로 나타낸 것이다. 직관적으로 시계열 자료가 가지는 특징을 파악할 수 있다. ex) 1인당 국민소득 3. 시계열의 변동요인 1) 시계열의 정보.. 2022. 4. 6.
728x90
반응형
LIST