본문 바로가기

Programming/Python6

[Python] colab에서 python으로 url 날려서 파일 다운로드 크롤링 하기 보호되어 있는 글 입니다. 2022. 3. 17.
[Python] 코랩과 파이썬을 이용해 구글 드라이브에 폴더 만들고 파일 쌓고 불러오기 1탄 코랩과 파이썬을 이용해 구글 드라이브에 폴더 만들고 파일 쌓고 불러오기 2탄 법원 사이트에서 공개된 전국법원 주요판결 판결문(글제목, 작성법원, 작성일, 파일다운url) 크롤링 해오기 (대법원 관계자분의 필요에 의해 허락받고 크롤링 한 것임을 알립니다. 허가받지 않거나 허가가 필요 없더라도 서버에 부하를 주거나 크롤링은 법에 저촉될 수 있으니 주의하시기 바랍니다.) 3탄 SQLite를 이용해서 크롤링 해온 내용 DB화 하기 (create, drop | insert, delete) 4탄 colab에서 python으로 url 날려서 파일 다운로드 크롤링 하기 코랩에서 크롤링을 하기 앞서서 폴더 만드는 작업을 진행한다. 필요한 라이브러리를 import 해준다. 여기서! 크롤링 하는 과정에서 다양한 라이브.. 2022. 3. 17.
[Python] 크롤링 돌리면서 생긴 에러 법원 사이트 크롤링해서 페이지마다 글 리스트랑 번호 가져오고 글 리스트+번호로 상세페이지 들어가서 제목, 작성자, 등록일, 파일다운로드url 추출해가지고 그 내용 디비로 만들고 파일 url로 파일 다운로드받아서 구글드라이브에 저장하는거까지 만들었다 데이터를 첫 페이지 10개로 제한해서 처음부터 끝까지 프로세스를 만든 후 성공적으로 돌아가서 전체 2000개 돌리기 전에 테스트로 50개를 돌려봤다. 50개에서도 한번에 잘 돌아가서 오예 하고 전체를 돌렸는데 에러가 튀어나왔다. 당연히 모든 글에 첨부파일이 있을거라고 생각했는데 아니 첨부파일이 없는 글이 있을 거라고 상상도 못해봤는데 첨부파일 없는 것이 에러를 내뱉었다. 바로 예외처리를 해줬다. prefilepath=prefilepath.find_all('a'.. 2022. 3. 16.
[Python] colab에서 폴더 생성하고 sqlite3로 테이블 생성하기 with logging 코랩은 기존 프레임워크에서 실행문을 위에 쓰고 함수를 아래 쓰는 방식과 다르게 함수가 위에 있고 실행문이 아래에 있어야 한다. 먼저 필요한 라이브러리들을 import 한다. 로깅은 소프트웨어를 실행할 때 발생하는 이벤트를 기록하고 추적하기 위해 사용한다. 로그를 찍어줄 로거를 생성하고 config 설정에서 로그 중요도 수준(level)을 설정할 수 있다. 보통은 level=DEBUG를 사용하지만 여기서는 print 찍듯이 로그만 보고 모든 실행 현황을 파악할 수 있도록 info 수준까지 찍어주려고 한다. 코랩에서는 지나간 로그를 보기가 까다로워서 파일로 저장해준 후 덮어쓰기인 filemode='a'로 해준다. 자세한 설정은 아래 설명을 참고한다. level 설명 DEBUG 상세한 정보. 보통 문제를 진단.. 2022. 3. 15.
[Python] 파이썬의 기초 1. import libraries import math math.sqrt(25) # import a function from math from math import sqrt sqrt(25) # import multiple functions at once from math from math import cos, floor import os os.getcwd()# in R, getwd() os.chdir(“c:/data/pydata”)# in R, setwd(“c:/data/rdata”) import pandas as pd bmi = pd.read_csv(“bmi.csv”) 2. comment # comments in line 파이썬 주석은 아래처럼 달 수 있다. “”” Comments in sentenc.. 2022. 3. 12.
[Python] 출력 1. 첫번째와 세번째 문자를 출력하세요. letters='python' print(letters[0],letters[2]) letters = 'python' 2. 뒤에 4자리만 출력하세요. cn="24가 2210" print(cn[-4::]) cn="24가 2210" 3. 문자열에서 '파' 만 출력하세요. print(s[0::3]) # split() 이용 s = "파이썬파이썬파이썬" 4. 문자열 '720'를 정수형으로 변환해보세요. num_str = int(num_str) num_str = "720" 5. 문자열 "15.79"를 실수(float) 타입으로 변환해보세요. data = float(data); data = "15.79" 6. 에어컨이 월 48,584원에 무이자 36개월의 조건으로 홈쇼핑에서 판.. 2022. 3. 7.
728x90
반응형
LIST