본문 바로가기

분류 전체보기156

[Regression] 가중회귀 1. 가중회귀란? 잔차의 분산이 일정하지 않아서 최소제곱법 가정을 사용할 수 없는 경우에 가중회귀를 사용한다. 가중치를 적절하게 부여하여 가중된 잔차 제곱합을 최소화함으로써 분산이 일정한 잔차를 만들어낼 수 있다. 2. 가중회귀분석 평균이 0이고 분산이 σ2인 정규분포라고 가정했을 때 이 오차항의 분산이 오차항마다 다른 경우 이럴 때 가중최소제곱법을 사용하여 가중값을 제곱하여 적합시킨다. > x = c(1, 2, 3, 4, 5) > y = c(2, 3, 5, 8, 7) > w = 1/x > # 가중치를 w로 한 가중회귀모형을 적합시키기 > w.lm = lm(y ~ x, weights=w) > summary(w.lm) Call: lm(formula = y ~ x, weights = w) Weighted R.. 2022. 3. 31.
[Regression] 회귀계수의 신뢰구간 및 검정 방법 1. 단순회귀의 추정과 검정 기울기에 대한 추정값 $b_1$과 절편에 대한 추정값 $b_0$을 이용해 구간추정과 가설검정을 한다. 정규분포를 따른다고 가정할 수 있다. 따라서 관측되는 값들이 전부 회귀선과 가까이 있다면 분산의 추정값은 작아진다. 2. $\beta_1$의 신뢰구간 - 회귀계수 기울기 $\beta_1$의 추정량 - 기댓값, 분산 - $\sigma^2$의 추정값은 MSE에 의하여 구해짐 - $b_1$의 분산에 대한 추정값 - $\beta_1$의 신뢰계수 100(1-$\alpha$)% 신뢰구간 - 절편 $\beta_0$의 추정량 - 기댓값 및 분산 - $\beta_0$의 100(1-$\alpha$)%의 신뢰구간 3. R 결과에서 $\beta_1$과 $\beta_0$ 신뢰구간 구하기 > mark.. 2022. 3. 30.
[Multivariate Analysis] Factor analysis(인자분석) 인자분석이란? 서로 관련이 있는 변수들로 측정된 자료에서 그 변수들을 설명할 수 있는 새로운 공통변수를 파악하는 통계적 분석방법이다. 이 변수들은 관측되지 않은 가상의 변수가 이해력 분석력에 대한 측정을 한 것이 아니기 때문에 이 인자들을 생성하는 것은 주관적으로 해석하게 된다. 사회적, 경제적 변수 5개를 예로 들어서 보면 관찰되지 않은 변수들로부터 서로 상관관계가 숨어있는 잠재적 요인을 찾게 된다. x의 분산은 스케일링을 시프트 해도 모양이 바뀌지 않는다. $X=LF+\epsilon$ (X 2022. 3. 21.
[Windows] cmd 창에서 한글이 깨질 경우 간단하게 임시 조치하는 방법 cmd 창에서 한글이 깨질 경우에 아무리 인코딩을 맞춰둬도 안되는 경우가 있다 그럴 경우 간단하게 내용을 확인하는 방법은 아래와 같이 chcp 65001을 입력하고 엔터를 누르면 코드 페이지 65001이 활성화 된다 이 상태로 사용하면 한글이 들어간 내용을 원활하게 확인할 수 있다. 이 상태를 영구적으로 유지하도록 설정하는 방법도 있다. to be continued... 2022. 3. 21.
[Multivariate Analysis] 주성분분석 실행 with R, Python 전체 코드 install.packages("HSAUR2") library(HSAUR2) data(heptathlon) head(heptathlon) heptathlon summary(heptathlon) write.csv(heptathlon, file="/Users/DataAnalytics/MultivariateAnalysis/mva/heptathlon.csv") # R 2.3 heptathlon$hurdles = max(heptathlon$hurdles) - heptathlon$hurdles heptathlon$run200m = max(heptathlon$run200m) - heptathlon$run200m heptathlon$run800m = max(heptathlon$run800m) - heptat.. 2022. 3. 21.
[Multivariate Analysis] Principal Component Analysis(PCA) 주성분분석 1. 주성분분석이란? 서로 관련이 있는(즉, 상관계수가 0이 아닌) 변수들의 선형결합을 이용하여 새로운 변수를 만드는 과정이다. 즉, 원래 변수들이 가지고 있는 정보의 일정수준을 확보하도록 소수의 새로운 변수들을 만드는 방법으로 새로 만들어진 변수들이 서로 직교인 특성이 있다 분석 가장 강한 영향력을 가지고 있는 주된 변수의 갯수를 추려내는 것이다. 좀 전문적인 말로 쓴다면 서로 관련있는 변수들이 전체적으로 가지고 있는 정보들을 최대한 확보하는 적은 수의 새로운 주성분 변수를 생성하는 방법이다. 1) 주성분(principal component)이란? 다변량 자료가 가지고 있는 총변이의 주요부분을 함유하고 있는 성분을 의미한다. 2) 변이(variation)의 크기란? - 정보의 크기를 나타내는 개념이다 .. 2022. 3. 18.
[Mulivariate Analysis] eigenvalue(고유값)과 eigenvector(고유벡터) 정방행렬 $A$에 대하여 $Ax = λx$, $Av=\lambda v$ (상수 λ) 가 성립하는 0이 아닌 벡터 x가 존재할 때 상수 λ 를 행렬 $A$의 고유값 (eigenvalue), x 를 이에 대응하는 고유벡터 (eigenvector) 라고 한다. 고유값과 고유벡터를 벡터곱 해주면 방향은 그대로 있고 배율만 바뀐다. 이 성질이 주성분 분석 할 때 차원축소에 중요한 키가 된다. $Av$ : 열벡터 v에 선형 변환 A 한 결과 Ax = λx를 만족하는 모든 상수 λ와 0이 아닌 모든 벡터 x (1개 ~ 최대 n 개)를 찾아야 한다. 이 글에서는 정방행렬로 된 고유값과 고유벡터 구해봤다 여기서 더 나아가면 정방행렬이 아닌 행렬에도 적용할 수 있는 SVD 특이값 분해를 할 수 있다. 2022. 3. 18.
[Python] colab에서 python으로 url 날려서 파일 다운로드 크롤링 하기 보호되어 있는 글 입니다. 2022. 3. 17.
[Python] 코랩과 파이썬을 이용해 구글 드라이브에 폴더 만들고 파일 쌓고 불러오기 1탄 코랩과 파이썬을 이용해 구글 드라이브에 폴더 만들고 파일 쌓고 불러오기 2탄 법원 사이트에서 공개된 전국법원 주요판결 판결문(글제목, 작성법원, 작성일, 파일다운url) 크롤링 해오기 (대법원 관계자분의 필요에 의해 허락받고 크롤링 한 것임을 알립니다. 허가받지 않거나 허가가 필요 없더라도 서버에 부하를 주거나 크롤링은 법에 저촉될 수 있으니 주의하시기 바랍니다.) 3탄 SQLite를 이용해서 크롤링 해온 내용 DB화 하기 (create, drop | insert, delete) 4탄 colab에서 python으로 url 날려서 파일 다운로드 크롤링 하기 코랩에서 크롤링을 하기 앞서서 폴더 만드는 작업을 진행한다. 필요한 라이브러리를 import 해준다. 여기서! 크롤링 하는 과정에서 다양한 라이브.. 2022. 3. 17.
728x90
반응형
LIST