본문 바로가기
Programming/Python

[Python] 크롤링 돌리면서 생긴 에러

by AI_Wooah 2022. 3. 16.

법원 사이트 크롤링해서
페이지마다 글 리스트랑 번호 가져오고
글 리스트+번호로 상세페이지 들어가서
제목, 작성자, 등록일, 파일다운로드url 추출해가지고
그 내용 디비로 만들고
파일 url로 파일 다운로드받아서 구글드라이브에 저장하는거까지 만들었다

데이터를 첫 페이지 10개로 제한해서 처음부터 끝까지 프로세스를 만든 후

성공적으로 돌아가서 전체 2000개 돌리기 전에 테스트로 50개를 돌려봤다.

50개에서도 한번에 잘 돌아가서 오예 하고 전체를 돌렸는데

에러가 튀어나왔다.

당연히 모든 글에 첨부파일이 있을거라고 생각했는데

아니 첨부파일이 없는 글이 있을 거라고 상상도 못해봤는데

첨부파일 없는 것이 에러를 내뱉었다.

바로 예외처리를 해줬다.

prefilepath=prefilepath.find_all('a')
            logger.info('[insertDB] prefilepath' + str(prefilepath))
            if  prefilepath:
              filepath_attr=prefilepath[0].attrs
              sfilepath = str(filepath_attr['href'])

 

이제 됐겠지 라는 생각으로 돌렸는데

또 에러가 났다.

이번에는 insert 쿼리를 "로 감쌌기 때문에 value 안에 TEXT 값을 '로 감싸서 보냈는데 예상치 못하게 title 내용 안에 '가 들어있어서 텍트스화가 의도치 않은 곳에서 풀려버린 것이었다.

이번 크롤링의 목적은 정확한 제목을 모으는 것은 아니라서

간단하게 title을 수집할 때 그 안에 들어있는 '만 제거해서 들고왔다.

sTitle=str(title).replace("'", "")

 

 

 

 

 

반응형

댓글