분류 전체보기155 [Regression] 회귀계수의 신뢰구간 및 검정 방법 1. 단순회귀의 추정과 검정 기울기에 대한 추정값 $b_1$과 절편에 대한 추정값 $b_0$을 이용해 구간추정과 가설검정을 한다. 정규분포를 따른다고 가정할 수 있다. 따라서 관측되는 값들이 전부 회귀선과 가까이 있다면 분산의 추정값은 작아진다. 2. $\beta_1$의 신뢰구간 - 회귀계수 기울기 $\beta_1$의 추정량 - 기댓값, 분산 - $\sigma^2$의 추정값은 MSE에 의하여 구해짐 - $b_1$의 분산에 대한 추정값 - $\beta_1$의 신뢰계수 100(1-$\alpha$)% 신뢰구간 - 절편 $\beta_0$의 추정량 - 기댓값 및 분산 - $\beta_0$의 100(1-$\alpha$)%의 신뢰구간 3. R 결과에서 $\beta_1$과 $\beta_0$ 신뢰구간 구하기 > mark.. 2022. 3. 30. [Multivariate Analysis] Factor analysis(인자분석) 인자분석이란? 서로 관련이 있는 변수들로 측정된 자료에서 그 변수들을 설명할 수 있는 새로운 공통변수를 파악하는 통계적 분석방법이다. 이 변수들은 관측되지 않은 가상의 변수가 이해력 분석력에 대한 측정을 한 것이 아니기 때문에 이 인자들을 생성하는 것은 주관적으로 해석하게 된다. 사회적, 경제적 변수 5개를 예로 들어서 보면 관찰되지 않은 변수들로부터 서로 상관관계가 숨어있는 잠재적 요인을 찾게 된다. x의 분산은 스케일링을 시프트 해도 모양이 바뀌지 않는다. $X=LF+\epsilon$ (X 2022. 3. 21. [Windows] cmd 창에서 한글이 깨질 경우 간단하게 임시 조치하는 방법 cmd 창에서 한글이 깨질 경우에 아무리 인코딩을 맞춰둬도 안되는 경우가 있다 그럴 경우 간단하게 내용을 확인하는 방법은 아래와 같이 chcp 65001을 입력하고 엔터를 누르면 코드 페이지 65001이 활성화 된다 이 상태로 사용하면 한글이 들어간 내용을 원활하게 확인할 수 있다. 이 상태를 영구적으로 유지하도록 설정하는 방법도 있다. to be continued... 2022. 3. 21. [Multivariate Analysis] 주성분분석 실행 with R, Python 전체 코드 install.packages("HSAUR2") library(HSAUR2) data(heptathlon) head(heptathlon) heptathlon summary(heptathlon) write.csv(heptathlon, file="/Users/DataAnalytics/MultivariateAnalysis/mva/heptathlon.csv") # R 2.3 heptathlon$hurdles = max(heptathlon$hurdles) - heptathlon$hurdles heptathlon$run200m = max(heptathlon$run200m) - heptathlon$run200m heptathlon$run800m = max(heptathlon$run800m) - heptat.. 2022. 3. 21. [Multivariate Analysis] Principal Component Analysis(PCA) 주성분분석 1. 주성분분석이란? 서로 관련이 있는(즉, 상관계수가 0이 아닌) 변수들의 선형결합을 이용하여 새로운 변수를 만드는 과정이다. 즉, 원래 변수들이 가지고 있는 정보의 일정수준을 확보하도록 소수의 새로운 변수들을 만드는 방법으로 새로 만들어진 변수들이 서로 직교인 특성이 있다 분석 가장 강한 영향력을 가지고 있는 주된 변수의 갯수를 추려내는 것이다. 좀 전문적인 말로 쓴다면 서로 관련있는 변수들이 전체적으로 가지고 있는 정보들을 최대한 확보하는 적은 수의 새로운 주성분 변수를 생성하는 방법이다. 1) 주성분(principal component)이란? 다변량 자료가 가지고 있는 총변이의 주요부분을 함유하고 있는 성분을 의미한다. 2) 변이(variation)의 크기란? - 정보의 크기를 나타내는 개념이다 .. 2022. 3. 18. [Mulivariate Analysis] eigenvalue(고유값)과 eigenvector(고유벡터) 정방행렬 $A$에 대하여 $Ax = λx$, $Av=\lambda v$ (상수 λ) 가 성립하는 0이 아닌 벡터 x가 존재할 때 상수 λ 를 행렬 $A$의 고유값 (eigenvalue), x 를 이에 대응하는 고유벡터 (eigenvector) 라고 한다. 고유값과 고유벡터를 벡터곱 해주면 방향은 그대로 있고 배율만 바뀐다. 이 성질이 주성분 분석 할 때 차원축소에 중요한 키가 된다. $Av$ : 열벡터 v에 선형 변환 A 한 결과 Ax = λx를 만족하는 모든 상수 λ와 0이 아닌 모든 벡터 x (1개 ~ 최대 n 개)를 찾아야 한다. 이 글에서는 정방행렬로 된 고유값과 고유벡터 구해봤다 여기서 더 나아가면 정방행렬이 아닌 행렬에도 적용할 수 있는 SVD 특이값 분해를 할 수 있다. 2022. 3. 18. [Python] colab에서 python으로 url 날려서 파일 다운로드 크롤링 하기 보호되어 있는 글 입니다. 2022. 3. 17. [Python] 코랩과 파이썬을 이용해 구글 드라이브에 폴더 만들고 파일 쌓고 불러오기 1탄 코랩과 파이썬을 이용해 구글 드라이브에 폴더 만들고 파일 쌓고 불러오기 2탄 법원 사이트에서 공개된 전국법원 주요판결 판결문(글제목, 작성법원, 작성일, 파일다운url) 크롤링 해오기 (대법원 관계자분의 필요에 의해 허락받고 크롤링 한 것임을 알립니다. 허가받지 않거나 허가가 필요 없더라도 서버에 부하를 주거나 크롤링은 법에 저촉될 수 있으니 주의하시기 바랍니다.) 3탄 SQLite를 이용해서 크롤링 해온 내용 DB화 하기 (create, drop | insert, delete) 4탄 colab에서 python으로 url 날려서 파일 다운로드 크롤링 하기 코랩에서 크롤링을 하기 앞서서 폴더 만드는 작업을 진행한다. 필요한 라이브러리를 import 해준다. 여기서! 크롤링 하는 과정에서 다양한 라이브.. 2022. 3. 17. [sqlite3] database disk image is malformed 에러 뜨는 경우 sqlite3에서 크롤링한 객체를 인서트 하려고 하는데 아래와 같은 에러가 떴다. database disk image is malformed 생성된 DB 파일은 백업해둔 후(확장자가 .db 인 sql 파일!) drop으로 테이블을 삭제해 준 후 drop table ~ 기존에 작성해놨던 create문으로 새로 생성해준 후 똑같이 돌려줬다. create table ~ 간단한 조치로 아주 잘 돌아가는 것을 확인할 수 있다. 현재는 디비 양이 많지 않고 적재해놨던 양도 크지 않아서 싹 밀고 다시 했는데 적재돼있었던 디비 양이 많아서 처음부터 하기 부담스럽다면 다른 sql로 내용을 덤프해놓고 새로운 디비를 만들어서 다시 복사해오는 방법도 있다. 2022. 3. 17. 이전 1 2 3 4 5 6 7 8 ··· 18 다음 728x90 반응형 LIST