본문 바로가기

cs,코딩,알고리즘/스파르타코딩(불꽃대학반)웹개발일지

#3-1. 스파르타 3주차 과제(python, 크롤링)

728x90

이번 과제는 지니뮤직 1~50위 곡을 스크래핑/크롤링

순위/제목/가수

 

1. 일단 기본셋팅

아까했던 hello.py파일에서 sb4틀 가져오고(run돌렸는데 갑자기 안되서 화들짝,,, 인터프리터가 문제라고 해서 대충 꼬물꼬물대면서 바꿖더니 해결됬다,, 왜 안됬을까나..?..)

2. 홈페이지에서 어디를 어떻게 가져올지 보고 

틀을 분석하기 위해 곡정보->검사해봤더니 얘도 tr로 묶여있다

 

어짜피 다 뽑아야 하니 tr들을 반복문으로 돌려주고

tr에서 뽑아쓰는거니까

뽑아쓰려는 변수=tr.select_one('')으로

제몰이 엄청난 공백들 사이에 중간에 있어서 공백 제거해주기->title=tr.select_one('td.info > a.title.ellipsis').text.strip()
순위를 매기려는데 상승, 하강 이런거까지 나와서 문자열 잘라주기->rank=tr.select_one('td.number').text[0:2].strip()

가수는 깔끔하게 나와서 그냥 뒤에 .text만 붙여주면 됨!! artist=tr.select_one('td.info > a.artist.ellipsis').text

끄하아앙ㅇ완성♡♡♡♡♡♡

3주차가 제일 쉬웠다 허버버버법행복한 것,, 파이썬이 직관적이라서 그런가?... 암튼 가장 쉽고빠르게 끝낸듯!!

내일 수업도 이러하면 좋겠구만!!!