본문 바로가기

분류 전체보기155

[Python] 크롤링 돌리면서 생긴 에러 법원 사이트 크롤링해서 페이지마다 글 리스트랑 번호 가져오고 글 리스트+번호로 상세페이지 들어가서 제목, 작성자, 등록일, 파일다운로드url 추출해가지고 그 내용 디비로 만들고 파일 url로 파일 다운로드받아서 구글드라이브에 저장하는거까지 만들었다 데이터를 첫 페이지 10개로 제한해서 처음부터 끝까지 프로세스를 만든 후 성공적으로 돌아가서 전체 2000개 돌리기 전에 테스트로 50개를 돌려봤다. 50개에서도 한번에 잘 돌아가서 오예 하고 전체를 돌렸는데 에러가 튀어나왔다. 당연히 모든 글에 첨부파일이 있을거라고 생각했는데 아니 첨부파일이 없는 글이 있을 거라고 상상도 못해봤는데 첨부파일 없는 것이 에러를 내뱉었다. 바로 예외처리를 해줬다. prefilepath=prefilepath.find_all('a'.. 2022. 3. 16.
[Python] colab에서 폴더 생성하고 sqlite3로 테이블 생성하기 with logging 코랩은 기존 프레임워크에서 실행문을 위에 쓰고 함수를 아래 쓰는 방식과 다르게 함수가 위에 있고 실행문이 아래에 있어야 한다. 먼저 필요한 라이브러리들을 import 한다. 로깅은 소프트웨어를 실행할 때 발생하는 이벤트를 기록하고 추적하기 위해 사용한다. 로그를 찍어줄 로거를 생성하고 config 설정에서 로그 중요도 수준(level)을 설정할 수 있다. 보통은 level=DEBUG를 사용하지만 여기서는 print 찍듯이 로그만 보고 모든 실행 현황을 파악할 수 있도록 info 수준까지 찍어주려고 한다. 코랩에서는 지나간 로그를 보기가 까다로워서 파일로 저장해준 후 덮어쓰기인 filemode='a'로 해준다. 자세한 설정은 아래 설명을 참고한다. level 설명 DEBUG 상세한 정보. 보통 문제를 진단.. 2022. 3. 15.
[Computer Security] 컴퓨터 보안이란? 1. 정보보호의 개념 정보를 여러 가지 위협으로부터 보호하기 위한 정책 및 기법이다. - 정보의 상태 : 저장, 전달 - 위협의 종류 : 허락되지 않은 접근, 수정, 훼손, 유출 등 2. 컴퓨터보안의 개념 컴퓨터 보안은 정보보호에 포함된다. 컴퓨터 환경이 관여된 모든 상황에 대한 정보보호다. 컴퓨팅 환경에 저장되거나 처리되는 정보를 다양한 위협으로부터 보호하기 위한 정책 및 기법이다. 3. 정보보호의 목포 1) 기밀성(Confidentiality) 기밀성은 허가되지 않은 사람이 데이터와 개체에 무단으로 접근할 수 없도록 보호하는 것을 의미한다. - 정보에 접근을 못하게 만든다 - 정보에 접근하더라도 무의미한 내용만 보이게 한다. ex) 비밀번호 2) 무결성(Integrity) 데이터를 신뢰할 수 있도록 .. 2022. 3. 15.
[자동매매] LSTM 기반 주가 예측 보호되어 있는 글 입니다. 2022. 3. 14.
[Multivariate Analysis] 다차원 통계그래프 Python R 산점도 행렬 sns.pairplot(social) #변수의 분포까지 확인 가능 # sns.pairplot(iris, hue='species', height=2.5) pairs(social) 상관계수행렬 round(cor(social, use="complete.obs"), 3) round(social.corr(), 3) 별그림 stars(social2) 얼굴그림 faces(social2, face.type=0) 1. R 1) R 산점도 행렬 > social = read.table("/Users/DataAnalytics/MultivariateAnalysis/mva/social.txt", header=T) > head(social, 3) YEAR POP GNI VEH CRIME ACCI HOS.. 2022. 3. 13.
[Multivariate Analysis] 이변량 통계그래프 Python R 선으로 그리기 plt.plot(co2.seq, co2.x) lines(smooth(co2),col='BLUE' 수학적 함수 그래프 plt.plot(x, y) plot(x,y,type="l") 버블플롯 plt.scatter('temp', 'wind', s='SO2', alpha=0.9, data=USairpollution) plot(wind~temp, data=USairpollution, pch=9) with(USairpollution, symbols(temp, wind, circle=SO2, inches=0.5, add=T) 이변량으로 확대한 상자그림 bvbox(x, xlab="manu", ylab="popul", pch=19) 1) R 이변량 그래프 - R bivariate graph .. 2022. 3. 13.
[Multivariate Analysis] 단변량 통계그래프 1. 단변량 그래프 먼저 빈도표를 구해야 한다. 빈도표를 구해서 Python R 캔버스 분할 plt.figure() plt.subplot(121) par(mfrow=c(1,2)) 새 창에서 그리기 dev.new() dev.off() 그래프 이름 title("Education of Female") 대화형 그래프 identify(x) 빈도수 막대그래프 plt.bar(edu_freq.index, edu_freq["count"]) barplot(edu_tb) 빈도표 겹친막대그래프 edu_sex_tb.plot.bar(stacked=True) barplot(sex_edu_tb, legend.text=rownames(sex_edu_tb), col=c(2,4)) 원그래프 plt.pie(edu_freq["count"],.. 2022. 3. 13.
[Multivariate Analysis] 기술통계량 및 분할표 기술통계량 및 분할표 Python과 R 비교 Python R csv 파일 불러오기 survey = pd.read_csv("survey.csv") survey = read.csv("survey.csv") 엑셀 파일 불러오기 beer = pd.read_excel("beer.xlsx, sheet_name=Beer") survey_data = read.xlsx"survey.xlsx", 1) 데이터 확인 survey.head(5) head(USairpollution, 6) 일정한 간격으로 자료 생성 range(0, 5, 2) np.arange(0, 20, 0.1) seq(0, 20, 0.1) 정규분포를 따르는 난수 생성 np.random.normal(-5, 2.5, 100) rnorm(100, -0.5, 2.5).. 2022. 3. 12.
[Python] 파이썬의 기초 1. import libraries import math math.sqrt(25) # import a function from math from math import sqrt sqrt(25) # import multiple functions at once from math from math import cos, floor import os os.getcwd()# in R, getwd() os.chdir(“c:/data/pydata”)# in R, setwd(“c:/data/rdata”) import pandas as pd bmi = pd.read_csv(“bmi.csv”) 2. comment # comments in line 파이썬 주석은 아래처럼 달 수 있다. “”” Comments in sentenc.. 2022. 3. 12.
728x90
반응형
LIST