법원 사이트 크롤링해서
페이지마다 글 리스트랑 번호 가져오고
글 리스트+번호로 상세페이지 들어가서
제목, 작성자, 등록일, 파일다운로드url 추출해가지고
그 내용 디비로 만들고
파일 url로 파일 다운로드받아서 구글드라이브에 저장하는거까지 만들었다
데이터를 첫 페이지 10개로 제한해서 처음부터 끝까지 프로세스를 만든 후
성공적으로 돌아가서 전체 2000개 돌리기 전에 테스트로 50개를 돌려봤다.
50개에서도 한번에 잘 돌아가서 오예 하고 전체를 돌렸는데
에러가 튀어나왔다.
당연히 모든 글에 첨부파일이 있을거라고 생각했는데
아니 첨부파일이 없는 글이 있을 거라고 상상도 못해봤는데
첨부파일 없는 것이 에러를 내뱉었다.
바로 예외처리를 해줬다.
prefilepath=prefilepath.find_all('a')
logger.info('[insertDB] prefilepath' + str(prefilepath))
if prefilepath:
filepath_attr=prefilepath[0].attrs
sfilepath = str(filepath_attr['href'])
이제 됐겠지 라는 생각으로 돌렸는데
또 에러가 났다.
이번에는 insert 쿼리를 "로 감쌌기 때문에 value 안에 TEXT 값을 '로 감싸서 보냈는데 예상치 못하게 title 내용 안에 '가 들어있어서 텍트스화가 의도치 않은 곳에서 풀려버린 것이었다.
이번 크롤링의 목적은 정확한 제목을 모으는 것은 아니라서
간단하게 title을 수집할 때 그 안에 들어있는 '만 제거해서 들고왔다.
sTitle=str(title).replace("'", "")
반응형
'Programming > Python' 카테고리의 다른 글
[Python] colab에서 python으로 url 날려서 파일 다운로드 크롤링 하기 (0) | 2022.03.17 |
---|---|
[Python] 코랩과 파이썬을 이용해 구글 드라이브에 폴더 만들고 파일 쌓고 불러오기 (0) | 2022.03.17 |
[Python] colab에서 폴더 생성하고 sqlite3로 테이블 생성하기 with logging (0) | 2022.03.15 |
[Python] 파이썬의 기초 (0) | 2022.03.12 |
[Python] 출력 (0) | 2022.03.07 |
댓글