You are looking for information, articles, knowledge about the topic nail salons open on sunday near me 네이버 카페 크롤링 on Google, you do not find the information you need! Here are the best content compiled and compiled by the https://chewathai27.com team, along with other related topics such as: 네이버 카페 크롤링 네이버 카페 크롤링 불법, 네이버 카페 크롤링 로그인, 네이버 카페 API 크롤링, 네이버 카페 크롤링 프로그램, 네이버 카페 크롤링 파이썬, 네이버 카페 이미지 크롤링, 네이버카페 크롤링 2022, 네이버카페 파싱
Contents
[파이썬]네이버 카페 게시판 크롤링 웹 스크래핑 2021년 버전
- Article author: stricky.tistory.com
- Reviews from users: 39027 Ratings
- Top rated: 4.1
- Lowest rated: 1
- Summary of article content: Articles about [파이썬]네이버 카페 게시판 크롤링 웹 스크래핑 2021년 버전 [파이썬]네이버 카페 게시판 제목, 본문, 작성자, 글번호 웹 스크래핑 2021년 버전 안녕하세요. 한 2년여전에 네이버 카페 스크래핑을 할 일이 있어서 … …
- Most searched keywords: Whether you are looking for [파이썬]네이버 카페 게시판 크롤링 웹 스크래핑 2021년 버전 [파이썬]네이버 카페 게시판 제목, 본문, 작성자, 글번호 웹 스크래핑 2021년 버전 안녕하세요. 한 2년여전에 네이버 카페 스크래핑을 할 일이 있어서 … [파이썬]네이버 카페 게시판 제목, 본문, 작성자, 글번호 웹 스크래핑 2021년 버전 안녕하세요. 한 2년여전에 네이버 카페 스크래핑을 할 일이 있어서 했었고, 이번에 다시 하는데, 안되더라구요. 역시.. 네이버…
- Table of Contents:
태그
‘DB엔지니어가 공부하는 python’ Related Articles
티스토리툴바
파이썬으로 네이버 카페 게시글 크롤링
- Article author: mumin-blog.tistory.com
- Reviews from users: 38209 Ratings
- Top rated: 4.4
- Lowest rated: 1
- Summary of article content: Articles about 파이썬으로 네이버 카페 게시글 크롤링 이에 대한 정보를 찾기 위해 구글에 “파이썬 셀레니움 네이버 카페 크롤링”를 검색해 나온 결과들을 종합해서 저만의 코드로 짜보았습니다. …
- Most searched keywords: Whether you are looking for 파이썬으로 네이버 카페 게시글 크롤링 이에 대한 정보를 찾기 위해 구글에 “파이썬 셀레니움 네이버 카페 크롤링”를 검색해 나온 결과들을 종합해서 저만의 코드로 짜보았습니다. 이번에 배틀그라운드 모바일을 플레이하는 유저들의 실시간 반응을 얻기 위해 공식 카페에 있는 유저들의 반응들을 한 번 셀레니움을 이용해서 모아보았습니다. 이에 대한 정보를 찾기 위해 구글에 “파이썬 셀레..
- Table of Contents:
태그
관련글
댓글1
공지사항
최근글
인기글
태그
티스토리툴바
크롤링 – webdriver(selenium)으로 네이버 카페글 긁어오기
- Article author: steadiness-193.tistory.com
- Reviews from users: 1353 Ratings
- Top rated: 4.8
- Lowest rated: 1
- Summary of article content: Articles about 크롤링 – webdriver(selenium)으로 네이버 카페글 긁어오기 비건디저트를 검색한 카페 1페이지로 들어간 뒤. 맨 처음 게시글을 클릭하고. 탭을 변경하자. 여기까지 됐으면 네이버 카페 크롤링에서 중요한. …
- Most searched keywords: Whether you are looking for 크롤링 – webdriver(selenium)으로 네이버 카페글 긁어오기 비건디저트를 검색한 카페 1페이지로 들어간 뒤. 맨 처음 게시글을 클릭하고. 탭을 변경하자. 여기까지 됐으면 네이버 카페 크롤링에서 중요한. https://steadiness-193.tistory.com/139 크롤링 – webdriver(selenium)으로 네이버 카페 페이지 넘기기 크롬 브라우저로 실행한다. 방법은 간단하다. 크롬 브라우저를 browser 라는 변수명으로 넣어주고 browser…
- Table of Contents:
[크롤링] 네이버 카페 크롤링(파싱) 하기 – 카페 소개
- Article author: domdom.tistory.com
- Reviews from users: 19674 Ratings
- Top rated: 4.3
- Lowest rated: 1
- Summary of article content: Articles about [크롤링] 네이버 카페 크롤링(파싱) 하기 – 카페 소개 본격적으로 크롤링하기에 앞서… 아래는 이번에 크롤링 해볼 네이버 카페(동물의숲 포켓캠프 한국 커뮤니티 카페)의 카페소개 화면입니다. …
- Most searched keywords: Whether you are looking for [크롤링] 네이버 카페 크롤링(파싱) 하기 – 카페 소개 본격적으로 크롤링하기에 앞서… 아래는 이번에 크롤링 해볼 네이버 카페(동물의숲 포켓캠프 한국 커뮤니티 카페)의 카페소개 화면입니다. 본격적으로 크롤링하기에 앞서… 아래는 이번에 크롤링 해볼 네이버 카페(동물의숲 포켓캠프 한국 커뮤니티 카페)의 카페소개 화면입니다. 아래 이미지에서 보이는 “카페 이름, 카페 주소, 모바일카페명 & 카페..
- Table of Contents:
티스토리 뷰
티스토리툴바
[Python] 네이버 카페 게시글 크롤러(feat. 크롬 드라이버 & 셀레니움)
- Article author: wookidocs.tistory.com
- Reviews from users: 4869 Ratings
- Top rated: 4.9
- Lowest rated: 1
- Summary of article content: Articles about [Python] 네이버 카페 게시글 크롤러(feat. 크롬 드라이버 & 셀레니움) 네이버 카페 게시글의 제목과 링크를 크롤링 하기 위한 코드이다. 아마 가장 깔끔하게 잘 돌아가는 코드이지 않을까 싶다. …
- Most searched keywords: Whether you are looking for [Python] 네이버 카페 게시글 크롤러(feat. 크롬 드라이버 & 셀레니움) 네이버 카페 게시글의 제목과 링크를 크롤링 하기 위한 코드이다. 아마 가장 깔끔하게 잘 돌아가는 코드이지 않을까 싶다. 네이버 카페 게시글의 제목과 링크를 크롤링 하기 위한 코드이다. 아마 가장 깔끔하게 잘 돌아가는 코드이지 않을까 싶다. 많은 분들께 도움이 되었으면 한다. 기본적으로 크롬의 버전과 크롬 드라이버의 버전이..
- Table of Contents:
태그
관련글
댓글0
공지사항
최근글
인기글
최근댓글
태그
전체 방문자
티스토리툴바
네이버 카페 크롤링 하기(with selenium) : 네이버 블로그
- Article author: blog.naver.com
- Reviews from users: 5054 Ratings
- Top rated: 3.2
- Lowest rated: 1
- Summary of article content: Articles about 네이버 카페 크롤링 하기(with selenium) : 네이버 블로그 네이버 카페 크롤링 하기(with selenium) … 작년에 골든나이츠유니버스란 게임을 할 때 골나유카페에서 팁게시판 내용을 긁어오려고 만들었습니다. …
- Most searched keywords: Whether you are looking for 네이버 카페 크롤링 하기(with selenium) : 네이버 블로그 네이버 카페 크롤링 하기(with selenium) … 작년에 골든나이츠유니버스란 게임을 할 때 골나유카페에서 팁게시판 내용을 긁어오려고 만들었습니다.
- Table of Contents:
블로그
악성코드가 포함되어 있는 파일입니다
작성자 이외의 방문자에게는 이용이 제한되었습니다
[python] 네이버카페 크롤링 코드
- Article author: doljokilab.tistory.com
- Reviews from users: 12869 Ratings
- Top rated: 3.6
- Lowest rated: 1
- Summary of article content: Articles about [python] 네이버카페 크롤링 코드 [python] 네이버카페 크롤링 코드. Dol42 2021. 1. 28. 21:15. python, beautifulsoup와 크롬드라이버를 사용해 네이버카페 게시물을 드래그 해서 csv파일로 만들어 … …
- Most searched keywords: Whether you are looking for [python] 네이버카페 크롤링 코드 [python] 네이버카페 크롤링 코드. Dol42 2021. 1. 28. 21:15. python, beautifulsoup와 크롬드라이버를 사용해 네이버카페 게시물을 드래그 해서 csv파일로 만들어 … python, beautifulsoup와 크롬드라이버를 사용해 네이버카페 게시물을 드래그 해서 csv파일로 만들어주는 코딩을 진행해 보았다. 네이버 아이디와 비밀번호 입력까지 자동으로 진행 한 수 원하는 카페에서 게시물..돌조끼의 개발/생활/취미 블로그
[email protected] / [email protected]
https://github.com/dol42 - Table of Contents:
소스코드
티스토리툴바
[Selenium+bs4] 네이버 카페 검색창, iframe 크롤링 방법, 네이버 로그인 방법
- Article author: gorokke.tistory.com
- Reviews from users: 45559 Ratings
- Top rated: 4.1
- Lowest rated: 1
- Summary of article content: Articles about [Selenium+bs4] 네이버 카페 검색창, iframe 크롤링 방법, 네이버 로그인 방법 네이버 카페 내에서 카페내 검색 결과를 크롤링하는 방법. 일단 iframe 이란 것을 알아야한다. 아이프레임은 HTML Inline Frame 요소이며. …
- Most searched keywords: Whether you are looking for [Selenium+bs4] 네이버 카페 검색창, iframe 크롤링 방법, 네이버 로그인 방법 네이버 카페 내에서 카페내 검색 결과를 크롤링하는 방법. 일단 iframe 이란 것을 알아야한다. 아이프레임은 HTML Inline Frame 요소이며. 이 글은 네이버 카페내의 결과에서 게시글 제목을 리스트로 출력하고, 게시글을 순서대로 클릭해서 들어갔다가 나가는 코드 설명입니다. # 1. iframe이란? 네이버 카페 내에서 카페내 검색 결과를 크롤링하는 방법..
- Table of Contents:
다크 모드
글자 크기
카테고리
최근 글
인기 글
최근 댓글
방문자 통계
+ 내용 추가
++내용추가 댓글 작성 방법
네이버 로그인 문제점 해결
태그
댓글14
티스토리툴바
[Python/Crawling] 네이버 카페 크롤링 – Kang의 데이터사이언스
- Article author: riverkangg.github.io
- Reviews from users: 39220 Ratings
- Top rated: 4.2
- Lowest rated: 1
- Summary of article content: Articles about [Python/Crawling] 네이버 카페 크롤링 – Kang의 데이터사이언스 네이버 카페에서 원하는 키워드를 검색 후, 검색되는 글에 대한 정보를 크롤링 한다. □ 코드 구성Permalink. 카페 크롤러는 두가지 단계로 구성된다. …
- Most searched keywords: Whether you are looking for [Python/Crawling] 네이버 카페 크롤링 – Kang의 데이터사이언스 네이버 카페에서 원하는 키워드를 검색 후, 검색되는 글에 대한 정보를 크롤링 한다. □ 코드 구성Permalink. 카페 크롤러는 두가지 단계로 구성된다. 네이버 카페를 크롤링하는 코드를 작성해보자.
- Table of Contents:
Skip links
넷플릭스의 추천시스템
네이버 멤버십 후기
[논문리뷰] Item-based Collaborative Filtering Recommendation Algorithms [논문리뷰] Abstractive Summarization of Spoken and Written Instructions with BERT네이버 카페 크롤링 webdriver 말고 사용가능한게 있을까요? : 클리앙
- Article author: www.clien.net
- Reviews from users: 19185 Ratings
- Top rated: 3.3
- Lowest rated: 1
- Summary of article content: Articles about 네이버 카페 크롤링 webdriver 말고 사용가능한게 있을까요? : 클리앙 현재는 셀레니움 써서 크롤링하고 있는데 중간에 드라이버가 자주 뻗기도 … 크롬 웹드라이버로 네이버 카페 크롤링 프로그램이랑 타 사이트 크롤링 … …
- Most searched keywords: Whether you are looking for 네이버 카페 크롤링 webdriver 말고 사용가능한게 있을까요? : 클리앙 현재는 셀레니움 써서 크롤링하고 있는데 중간에 드라이버가 자주 뻗기도 … 크롬 웹드라이버로 네이버 카페 크롤링 프로그램이랑 타 사이트 크롤링 … 현재는 셀레니움 써서 크롤링하고 있는데 중간에 드라이버가 자주 뻗기도 하고, 무슨 이유에선지 특정 게시물에서는 html을 제대로 읽지 못하는 문제도 있고 그래서 다른 방법을 찾고 있습니다. 다른 방법 알고 계신 것 있나요?
- Table of Contents:
See more articles in the same category here: 721+ tips for you.
[파이썬]네이버 카페 게시판 크롤링 웹 스크래핑 2021년 버전
[파이썬]네이버 카페 게시판 제목, 본문, 작성자, 글번호 웹 스크래핑 2021년 버전 [파이썬]네이버 카페 게시판 제목, 본문, 작성자, 글번호 웹 스크래핑 2021년 버전안녕하세요.
한 2년여전에 네이버 카페 스크래핑을 할 일이 있어서 했었고, 이번에 다시 하는데, 안되더라구요.
역시.. 네이버..ㅎㅎ
많이 바꿨더군요.
그래서 아예 새롭게 개발을 했습니다.
다른 여러분들께도 조언도 구하고, 구글링도 해가면서 여차저차 완성을 하여 이렇게 공개를 합니다.
바로 시작 해보겠습니다.
database 테이블 생성
우선, 저는 스크래핑한 데이터를 DB에 저장 할겁니다. mysql을 기반으로 사용했습니다.
저장 하기 위해선 테이블이 필요하겠죠.
테이블 생성 DDL은 다음과 같습니다.
mysql이 있으시면 접속하셔서 생성 하시면 됩니다.
create table clubrav4.jau_2021 ( seq varchar(100) null, title varchar(2000) null, contents text null, writer varchar(200) null, reg_date varchar(100) null, chk varchar(1) null );
mysql에 자신이 없으신 분은 아래 링크로 가셔서 설치 하는 방법을 잘 참고 하시길 바랍니다.
2020.08.13 – [Database/mariaDB administrator] – 윈도우10 MySQL Community 8.0 버전 다운로드 및 설치 방법 가이드
import library
import time import pandas as pd import os import pymysql import re from selenium import webdriver # pip install selenium from bs4 import BeautifulSoup as bs # pip install bs4
뭐 여차저차 이렇게 많은 library가 필요 하더라구요.
음.. 전 전문 파이썬 개발자는 아니라.. 흔히들 이야기 하는 파이써니컬한 코드는 제 코드에서 보기 어려울것 입니다.
그저 동작이 가능한 코드일 뿐이에요.
간혹 좋은 조언들, 그러닌깐 이건 이런식으로~ 저건 저런식으로 작성 방법을 댓글로 남겨주시는 분들 계신데 정말 감사합니다. 그렇게 남겨주시고, “뭔 파이썬 코드를 이따위로 짰냐” 라고 생각이 드실법 하지만, 그런 말은 속으로~ 해주시면 정말 감사하겠습니다.
아무튼, 저런 라이브러리들을 불러다 쓰겠습니다.
database 연동
다음은 database 연동 부분 입니다.
저는 웹 스크래핑 결과를 DB에 저장을 하는 방식을 택했습니다. 그러니 DB 연동을 해줘야 겠죠.
# db connect conn = pymysql.connect(host=’111.222.333.444′, user = ‘DB계정’, password=’DB비밀번호’, db = ‘keyword’,charset = ‘utf8’) curs = conn.cursor(pymysql.cursors.DictCursor)
위와 같이 DB 연결을 설정 해두겠습니다.
크롬 드라이버 및 네이버 로그인
# chrome 드라이버 driver = webdriver.Chrome(“c:/chromedriver.exe”) driver.get(‘https://nid.naver.com/nidlogin.login?svctype=262144&url=http://naver.com/’) # 카페로 이동 driver.get(‘https://nid.naver.com/nidlogin.login?mode=form&url=https%3A%2F%2Fwww.naver.com’) driver.find_element_by_xpath(‘//*[@id=”id”]’).send_keys(“네이버계정”) time.sleep(35) # 카페로 이동 driver.get(‘https://cafe.naver.com/xxxxxx’) #(스크래핑 할 카페주소)
크롬 드라이버를 미리 다운받으시고, 설정 하시면 됩니다.
크롬 드라이버는 아래 링크로 가셔서 다운로드 하세요.
https://chromedriver.chromium.org/downloads
아마 selenium 버전이랑 맞아야 할겁니다.
자신의 PC타입에 맞게 다운로드하세요.
그리고, 네이버 계정을 미리 입력해두고 진행하시면 됩니다. 음, 저는 아무리 해도 비밀번호까지 입력을 해도 자동으로 로그인이 안되서 그냥 뺐습니다.
마지막에 sleep(35)는 로그인을 수동으로 하는데 걸리는 시간을 미리 잡아둔것 입니다. 손빠르신분들은 좀 줄여도 됩니다. 그럼 그 시간이 흐른 후 스크래핑 할 카페로 이동을 짜잔 하게 됩니다.
자유게시판 스크래핑
이젠 본격적으로 네이버 카페 스크래핑을 시작 합니다.
여러가지 방법이 있겠지만, 간략하게 제가 한 방식을 소개 하겠습니다.
우선, 특정 게시판별로 스크래핑을 진행하는데, 웹에서 네이버 카페의 특정 게시판으로 들어가면 우측 상단에 목록을 50개씩 불러오는 옵션이 있습니다.
리스트 50개씩 보기
해당 옵션의 목록 링크를 사용 할 것 입니다.
그래고 50개를 불러온 페이지에서 글번호, 제목, 작성자, 작성일을 스크래핑하여 DB에 저장을 쭉 합니다.
목록
그리고 list 자료형에 해당 글번호와 제목, 작성자, 작성일을 쭉 저장을 합니다.
insert문을 만들어 써야 하닌깐요.
그리고 다시 해당 자료형을 참조하여 insert 문을 만들어 DB에 저장을 하게 됩니다.
이때, 아래 소스코드를 보시면 아시겠지만, 첫페이지 게시판 목록에는 공지사항이 있습니다. 해당 공지사항의 글번호는 목록에 나타나지 않기때문에, for문에서 리스트를 불러올때 변수로 제어를 해주게 됩니다.
그렇게 목록에서 필요한 정보를 다 스크래핑하고, 이젠 게시글 하나 하나 들어가서 본문에서 텍스트만 추출을 하게 됩니다. 그리고 해당 글 번호를 이용하여 update 해주게 되죠.
그리고 게시판 링크나, 게시글 링크에 보면 menuid가 있습니다. 이 menuid는 웹 스크래핑 하시려는 clubid와 함께 원하시는 카페와 게시판 번호를 알아서 넣어주시면 됩니다. 알아내는 방법은 아래 그림과 같은 위치에서 해당 버튼을 클릭하여 메모장 같은데 붙여 넣으시면 확인이 가능 합니다.
clubid 와 menuid 확인하기
그럼 코드를 공개 하겠습니다.
다음과 같습니다.
# 자유게시판 리스트 50개 짜리로 이동 for i in range(60): #스크래핑 할 페이지수 #강제# 중간에 끊겼을때 해당 페이수보다 -1 한 값을 입력하고 주석 제거 #i = i + 15 #강제# pg = str(i+1) addr = ‘https://cafe.naver.com/ArticleList.nhn?search.clubid=네이버카페ID&search.menuid=44&userDisplay=50&search.boardtype=L&search.specialmenutype=&search.totalCount=501&search.page=’+pg driver.get(addr) driver.switch_to.frame(‘cafe_main’) html = driver.page_source soup = bs(html, ‘html.parser’) a_num_list = soup.findAll(“div”,{“class”:”inner_number”}) a_title_list = soup.findAll(“a”,{“class”:”article”}) a_writer_list = soup.findAll(“a”,{“class”:”m-tcol-c”}) a_regdate_list = soup.findAll(“td”,{“class”:”td_date”}) total_list = [] article_link_list = [] #글 링크 if i == 0: for a, b, c, d in zip(a_num_list, a_title_list[7:], a_writer_list[7:], a_regdate_list[7:]): # 나눔해요게시판, 목격담, 5세대 시공 장착 정비 수리 list = [] list.append(a.text) list.append(b.text.strip()) list.append(c.text) list.append(d.text) total_list.append(list) article_link_list.append(“https://cafe.naver.com/ArticleRead.nhn?clubid=19553263&page=” + pg + “&userDisplay=50&menuid=44&boardtype=L&articleid=” + a.text + “&referrerAllArticles=false”) else: for a, b, c, d in zip(a_num_list, a_title_list, a_writer_list, a_regdate_list): list = [] list.append(a.text) list.append(b.text.strip()) list.append(c.text) list.append(d.text) total_list.append(list) article_link_list.append(“https://cafe.naver.com/ArticleRead.nhn?clubid=네이버카페ID&page=” + pg + “&userDisplay=50&menuid=44&boardtype=L&articleid=” + a.text + “&referrerAllArticles=false”) # DB 저장 for x in total_list: print(“insert into cl.jau_2021(seq, title, writer, reg_date, chk) values (‘” + x[0]+ “‘,'” + re.sub(‘[^A-Za-z0-9가-힣\s,.,?,!]’, “”, x[1]) + “‘,'” + re.sub(‘[^A-Za-z0-9가-힣\s,.,?,!]’, “”, x[2]) + “‘,'” + x[3] + “‘, ‘4’)”) sql = “insert into cl.jau_2021(seq, title, writer, reg_date, chk) values (‘” + x[0]+ “‘,'” + re.sub(‘[^A-Za-z0-9가-힣\s,.,?,!]’, “”, x[1]) + “‘,'” + re.sub(‘[^A-Za-z0-9가-힣\s,.,?,!]’, “”, x[2]) + “‘,'” + x[3] + “‘, ‘4’)” curs.execute(sql) conn.commit() # 글 스크랩핑 for x in total_list: adrs = “https://cafe.naver.com/ArticleRead.nhn?clubid=19553263&page=” + str(pg) + “&userDisplay=50&menuid44&boardtype=L&articleid=” + x[0] +”&referrerAllArticles=false” print(adrs) driver.get(adrs) time.sleep(2) driver.switch_to.frame(‘cafe_main’) html = driver.page_source soup = bs(html, ‘html.parser’) list = soup.find_all(“div”, {“class”:”article_viewer”}) for xx in list: cont = ” cont += re.sub(‘[^A-Za-z0-9가-힣\s,.,?,!]’, “”, xx.text.strip()).replace(‘
‘,”) #driver.close() print(cont) sql = “update cl.jau_2021 set contents = ‘” + str(cont).replace(“‘”, “”) + “‘ where seq = ‘” + x[0] + “‘” print(sql) curs.execute(sql) conn.commit() # 리스트 변수 초기화 a_num_list = [] a_title_list = [] a_writer_list = [] a_regdate_list = [] print(“############################################# ” + pg + ” 페이지 완료 #############################################”) driver.close()
자, 이렇게 네이버 카페 스크래핑을 할 수 있습니다.
필요 하신 분들은 해보시고, 잘 안되면 아래 댓글 남겨 주세요!
아는 내용 한해서는 답글을 달아 드리도록 하겠습니다.
생각보다 어렵지 않으니 필요하신 분들은 도전하세요!!
감사합니다.
by.sTricky
파이썬으로 네이버 카페 게시글 크롤링
728×90
이번에 배틀그라운드 모바일을 플레이하는 유저들의 실시간 반응을 얻기 위해 공식 카페에 있는 유저들의 반응들을 한 번 셀레니움을 이용해서 모아보았습니다.
이에 대한 정보를 찾기 위해 구글에 “파이썬 셀레니움 네이버 카페 크롤링”를 검색해 나온 결과들을 종합해서 저만의 코드로 짜보았습니다.
기초적인 부분들은 어느정도 이해가 되었지만 이 내용을 가지고 이제 네이버 카페가 아닌 다른 웹사이트에서 활용을 할 수 있어야되는데 그게 현재 안되는 것 같네요..
자세한 코드 분석은 다음 포스팅에서 이야기하도록 하겠습니다.
그럼 코드를 확인해보겠습니다.
import chromedriver_autoinstaller import time from selenium import webdriver from bs4 import BeautifulSoup as bs import csv #카페 게시글 제목,링크를 저장하는 리스트 생성 total_list = [‘제목’, ‘링크’] #데이터를 저장하는 csv파일 생성 f = open(‘craw.csv’, ‘w’, encoding=”euc-kr”, newline=”) wr = csv.writer(f) wr.writerow([total_list[0], total_list[1]]) f.close() # 변수 기본값 지정 url = ‘https://nid.naver.com/nidlogin.login’ id = “네이버아이디” pw = “네이버비밀번호” # 크롬 드라이버는 이렇게 실행해야지 편하게 작업이 가능합니다. # 자동으로 크롬 버전을 확인하는 코드chromedriver_autoinstaller dir_driver = chromedriver_autoinstaller.get_chrome_version().split(‘.’)[0] driver = webdriver.Chrome(f’./{dir_driver}/chromedriver.exe’) driver.get(url) driver.implicitly_wait(2) # execute_script 함수 사용하여 자바스크립트로 id,pw 넘겨주기 driver.execute_script(“document.getElementsByName(‘id’)[0].value=\'” + id + “\'”) driver.execute_script(“document.getElementsByName(‘pw’)[0].value=\'” + pw + “\'”) # 로그인 버튼 클릭하기 driver.find_element_by_xpath(‘//*[@id=”frmNIDLogin”]/fieldset/input’).click() time.sleep(1) # 로그인 정보 저장안함 클릭하기 # login_btn = driver.find_element_by_id(‘new.dontsave’) # login_btn.click() # time.sleep(1) # 내가 검색하려는 카페 주소 입력하기 baseurl = ‘https://cafe.naver.com/battlegroundsmobile/’ driver.get(baseurl) # &search.menuid = : 게시판 번호 # &search.page = : 데이터 수집 할 페이지 번호 # &userDisplay = 50 : 한 페이지에 보여질 게시글 수 clubid = 카페 클럽 ID 번호 입력 menuid = 메뉴 ID 번호 입력 pageNum = 1 userDisplay = 50 driver.get( baseurl + ‘ArticleList.nhn?search.clubid=’ + str(clubid) + ‘&search.menuid=’ + str(menuid) + ‘&search.page=’ + str( pageNum) + ‘&userDisplay=’ + str(userDisplay)) # iframe으로 접근 driver.switch_to.frame(‘cafe_main’) soup = bs(driver.page_source, ‘html.parser’) print(str(soup)) soup = soup.find_all(class_=’article-board m-tcol-c’)[1] # 네이버 카페 구조 확인후 게시글 내용만 가저오기 # datas = soup.find_all(‘td’, class_ = ‘td_article’) datas = soup.find_all(class_=’td_article’) dates = soup.find_all(class_=’td_date’) for data in datas: article_title = data.find(class_=’article’) link = article_title.get(‘href’) article_title = article_title.get_text().strip() print(article_title) print(baseurl + link) # 인코딩은 utf-8이 좋아 보임 f = open(‘craw.csv’, ‘a+’, newline=”,encoding=’utf-8′) wr = csv.writer(f) wr.writerow([article_title, baseurl + link]) f.close() print(‘종료’) # driver.close()
실행 결과 값
728×90
크롤링 – webdriver(selenium)으로 네이버 카페글 긁어오기
반응형
https://steadiness-193.tistory.com/139
https://steadiness-193.tistory.com/140
위 두개의 포스팅으로 네이버 카페에 접속해서
카페글 클릭한 뒤 탭 변경하는 것 까지 살펴봤다.
이제 카페로 들어가 필요한 내용을 긁어오자.
브라우저를 실행해
비건디저트를 검색한 카페 1페이지로 들어간 뒤
맨 처음 게시글을 클릭하고
탭을 변경하자.
여기까지 됐으면 네이버 카페 크롤링에서 중요한
프레임 변경을 해줘야 한다.
그냥 태그를 가져오면 원하는 값이 안나오기 때문에
브라우저의 프레임을 바꿔줘야 한다.
카페 프레임 변경
네이버 카페의 주된 글이 있는 프레임은 cafe_main이다.
page_source로 html을 얻고
soup을 구하자
이제 크롤링을 진행할 모든 준비가 끝났다.
제목 / 조회수 / 날짜
본문 / 좋아요 수
댓글
우선 모든 댓글을 담은 all_reply를 만든다.
그 다음 text 들만 뽑아서 reply_list에 append 해주자
마지막으로 이를 하나의 문자열로 이어주기 위해
seperate 문자열과 join을 이용한다.
위 모든 내용을 리스트로 감싸서 data 변수에 넣자
마지막으로 이 전체를 get_data라는 함수로 정의한다.
get_data 함수 실행
영상 광고는 자동으로 설정된 것이며 블로그의 수익과 관계 없습니다.
반응형
So you have finished reading the 네이버 카페 크롤링 topic article, if you find this article useful, please share it. Thank you very much. See more: 네이버 카페 크롤링 불법, 네이버 카페 크롤링 로그인, 네이버 카페 API 크롤링, 네이버 카페 크롤링 프로그램, 네이버 카페 크롤링 파이썬, 네이버 카페 이미지 크롤링, 네이버카페 크롤링 2022, 네이버카페 파싱