파이썬을 활용해 네이트판 톡커들의 선택 랭크 리스트를 크롤링 해보도록 하겠습니다.
파이썬 설치가 필요하신 경우 아래 url을 참고해주세요.
아래 이미지는 네이트판 톡커들의 선택 랭크 리스트를 하기 위해
html태그를 찾아기는 화면입니다.
<ol>과 <li>태그로 구성되어있는 것을 알 수 있습니다.
해당 태그를 가져와서 태그 안의 텍스트를 출력해주면 될 것으로 보입니다.
BeautifulSoup 라이브러리를 활용해 일단 <a href>태그들만 가져와 보았습니다.
import requests
from bs4 import BeautifulSoup
pann_talk = "https://pann.nate.com/talk"
pann_talk_html = requests.get(pann_talk)
pann_talk_html_list = BeautifulSoup(pann_talk_html.content ,"html.parser" ,from_encoding='utf=8')
pann_rank_list = pann_talk_html_list.select('#talkerChoiceArea0 > li > a')[:10]
for i in pann_rank_list:
print(i)
아래와 같이 a태그가 출력 된것을 알 수 있습니다.
a 태그내에서 "title" 어트리뷰트만 가져오면 실시간 톡 리스트를 출력 할 수 있을 것 같네요.
텍스트만 출력하는 코드입니다.
import requests
from bs4 import BeautifulSoup
pann_talk = "https://pann.nate.com/talk"
pann_talk_html = requests.get(pann_talk)
pann_talk_html_list = BeautifulSoup(pann_talk_html.content ,"html.parser" ,from_encoding='utf=8')
pann_rank_list = pann_talk_html_list.select('#talkerChoiceArea0 > li > a')[:10]
k = 0
for i in pann_rank_list:
k += 1;
print(k, '위 : ',i["title"]);
실제 화면과 똑같은지 확인 해보면 동일한 것을 알 수 있습니다.
아래와 같이 해당 제목의 원본글로 이동하는 URL까지 출력 할 수 도 있습니다.
필요에 따라 다양한 용도로 활용 할 수 있습니다.
import requests
from bs4 import BeautifulSoup
pann_talk = "https://pann.nate.com/talk"
pann_talk_html = requests.get(pann_talk)
pann_talk_html_list = BeautifulSoup(pann_talk_html.content ,"html.parser" ,from_encoding='utf=8')
pann_rank_list = pann_talk_html_list.select('#talkerChoiceArea0 > li > a')[:10]
print(pann_rank_list)
k = 0
for i in pann_rank_list:
k += 1;
print(k, '위 : ',i["title"], '(https://pann.nate.com'+i["href"],')');
아래 URL주소를 통해 누르면 원본글로 이동도 가능합니다.
LIST
'python > 크롤링' 카테고리의 다른 글
[python] 파이썬 웹 크롤링 - 6 : 한국 피파랭킹 크롤링 (0) | 2019.11.12 |
---|---|
[python] 파이썬 웹 크롤링 - 4 : 프리미어리그 전체 팀 순위 조회(Selenium, BeautifulSoup) (0) | 2019.10.10 |
[python] 파이썬 웹 크롤링 - 3 : 프리미어리그 팀 순위 (0) | 2019.10.10 |
[python] 파이썬 웹 크롤링 - 2 : 네이버 실시간 검색어 (0) | 2019.10.10 |
[python] 파이썬 웹 크롤링 -1 : 네이버 스포츠 댓글많은 뉴스(jupyter notebook, BeautifulSoup) (0) | 2019.10.09 |
최근댓글