Top 50 네이버 카페 크롤링 The 21 Detailed Answer

You are looking for information, articles, knowledge about the topic nail salons open on sunday near me 네이버 카페 크롤링 on Google, you do not find the information you need! Here are the best content compiled and compiled by the https://chewathai27.com team, along with other related topics such as: 네이버 카페 크롤링 네이버 카페 크롤링 불법, 네이버 카페 크롤링 로그인, 네이버 카페 API 크롤링, 네이버 카페 크롤링 프로그램, 네이버 카페 크롤링 파이썬, 네이버 카페 이미지 크롤링, 네이버카페 크롤링 2022, 네이버카페 파싱

Python + BeautifulSoup + Selenium 네이버 크롤러 2강

Contents

[파이썬]네이버 카페 게시판 크롤링 웹 스크래핑 2021년 버전

Article author: stricky.tistory.com
Reviews from users: 39027 Ratings
Top rated: 4.1
Lowest rated: 1
Summary of article content: Articles about [파이썬]네이버 카페 게시판 크롤링 웹 스크래핑 2021년 버전 [파이썬]네이버 카페 게시판 제목, 본문, 작성자, 글번호 웹 스크래핑 2021년 버전 안녕하세요. 한 2년여전에 네이버 카페 스크래핑을 할 일이 있어서 … …
Most searched keywords: Whether you are looking for [파이썬]네이버 카페 게시판 크롤링 웹 스크래핑 2021년 버전 [파이썬]네이버 카페 게시판 제목, 본문, 작성자, 글번호 웹 스크래핑 2021년 버전 안녕하세요. 한 2년여전에 네이버 카페 스크래핑을 할 일이 있어서 … [파이썬]네이버 카페 게시판 제목, 본문, 작성자, 글번호 웹 스크래핑 2021년 버전 안녕하세요. 한 2년여전에 네이버 카페 스크래핑을 할 일이 있어서 했었고, 이번에 다시 하는데, 안되더라구요. 역시.. 네이버…
Table of Contents:

[파이썬]네이버 카페 게시판 제목 본문 작성자 글번호 웹 스크래핑 2021년 버전

태그

‘DB엔지니어가 공부하는 python’ Related Articles

티스토리툴바

Article author: mumin-blog.tistory.com
Reviews from users: 38209 Ratings
Top rated: 4.4
Lowest rated: 1
Summary of article content: Articles about 파이썬으로 네이버 카페 게시글 크롤링 이에 대한 정보를 찾기 위해 구글에 “파이썬 셀레니움 네이버 카페 크롤링”를 검색해 나온 결과들을 종합해서 저만의 코드로 짜보았습니다. …
Most searched keywords: Whether you are looking for 파이썬으로 네이버 카페 게시글 크롤링 이에 대한 정보를 찾기 위해 구글에 “파이썬 셀레니움 네이버 카페 크롤링”를 검색해 나온 결과들을 종합해서 저만의 코드로 짜보았습니다. 이번에 배틀그라운드 모바일을 플레이하는 유저들의 실시간 반응을 얻기 위해 공식 카페에 있는 유저들의 반응들을 한 번 셀레니움을 이용해서 모아보았습니다. 이에 대한 정보를 찾기 위해 구글에 “파이썬 셀레..
Table of Contents:

태그

공지사항

최근글

[파이썬]네이버 카페 게시판 크롤링 웹 스크래핑 2021년 버전

[파이썬]네이버 카페 게시판 제목, 본문, 작성자, 글번호 웹 스크래핑 2021년 버전
[파이썬]네이버 카페 게시판 제목, 본문, 작성자, 글번호 웹 스크래핑 2021년 버전

안녕하세요.

한 2년여전에 네이버 카페 스크래핑을 할 일이 있어서 했었고, 이번에 다시 하는데, 안되더라구요.

역시.. 네이버..ㅎㅎ

많이 바꿨더군요.

그래서 아예 새롭게 개발을 했습니다.

다른 여러분들께도 조언도 구하고, 구글링도 해가면서 여차저차 완성을 하여 이렇게 공개를 합니다.

바로 시작 해보겠습니다.

database 테이블 생성

우선, 저는 스크래핑한 데이터를 DB에 저장 할겁니다. mysql을 기반으로 사용했습니다.

저장 하기 위해선 테이블이 필요하겠죠.

테이블 생성 DDL은 다음과 같습니다.

mysql이 있으시면 접속하셔서 생성 하시면 됩니다.

create table clubrav4.jau_2021 ( seq varchar(100) null, title varchar(2000) null, contents text null, writer varchar(200) null, reg_date varchar(100) null, chk varchar(1) null );

mysql에 자신이 없으신 분은 아래 링크로 가셔서 설치 하는 방법을 잘 참고 하시길 바랍니다.

2020.08.13 – [Database/mariaDB administrator] – 윈도우10 MySQL Community 8.0 버전 다운로드 및 설치 방법 가이드

import library

import time import pandas as pd import os import pymysql import re from selenium import webdriver # pip install selenium from bs4 import BeautifulSoup as bs # pip install bs4

뭐 여차저차 이렇게 많은 library가 필요 하더라구요.

음.. 전 전문 파이썬 개발자는 아니라.. 흔히들 이야기 하는 파이써니컬한 코드는 제 코드에서 보기 어려울것 입니다.

그저 동작이 가능한 코드일 뿐이에요.

간혹 좋은 조언들, 그러닌깐 이건 이런식으로~ 저건 저런식으로 작성 방법을 댓글로 남겨주시는 분들 계신데 정말 감사합니다. 그렇게 남겨주시고, “뭔 파이썬 코드를 이따위로 짰냐” 라고 생각이 드실법 하지만, 그런 말은 속으로~ 해주시면 정말 감사하겠습니다.

아무튼, 저런 라이브러리들을 불러다 쓰겠습니다.

database 연동

다음은 database 연동 부분 입니다.

저는 웹 스크래핑 결과를 DB에 저장을 하는 방식을 택했습니다. 그러니 DB 연동을 해줘야 겠죠.

# db connect conn = pymysql.connect(host=’111.222.333.444′, user = ‘DB계정’, password=’DB비밀번호’, db = ‘keyword’,charset = ‘utf8’) curs = conn.cursor(pymysql.cursors.DictCursor)

위와 같이 DB 연결을 설정 해두겠습니다.

크롬 드라이버 및 네이버 로그인

# chrome 드라이버 driver = webdriver.Chrome(“c:/chromedriver.exe”) driver.get(‘https://nid.naver.com/nidlogin.login?svctype=262144&url=http://naver.com/’) # 카페로 이동 driver.get(‘https://nid.naver.com/nidlogin.login?mode=form&url=https%3A%2F%2Fwww.naver.com’) driver.find_element_by_xpath(‘//*[@id=”id”]’).send_keys(“네이버계정”) time.sleep(35) # 카페로 이동 driver.get(‘https://cafe.naver.com/xxxxxx’) #(스크래핑 할 카페주소)

크롬 드라이버를 미리 다운받으시고, 설정 하시면 됩니다.

크롬 드라이버는 아래 링크로 가셔서 다운로드 하세요.

https://chromedriver.chromium.org/downloads

아마 selenium 버전이랑 맞아야 할겁니다.

자신의 PC타입에 맞게 다운로드하세요.

그리고, 네이버 계정을 미리 입력해두고 진행하시면 됩니다. 음, 저는 아무리 해도 비밀번호까지 입력을 해도 자동으로 로그인이 안되서 그냥 뺐습니다.

마지막에 sleep(35)는 로그인을 수동으로 하는데 걸리는 시간을 미리 잡아둔것 입니다. 손빠르신분들은 좀 줄여도 됩니다. 그럼 그 시간이 흐른 후 스크래핑 할 카페로 이동을 짜잔 하게 됩니다.

자유게시판 스크래핑

이젠 본격적으로 네이버 카페 스크래핑을 시작 합니다.

여러가지 방법이 있겠지만, 간략하게 제가 한 방식을 소개 하겠습니다.

우선, 특정 게시판별로 스크래핑을 진행하는데, 웹에서 네이버 카페의 특정 게시판으로 들어가면 우측 상단에 목록을 50개씩 불러오는 옵션이 있습니다.

리스트 50개씩 보기

해당 옵션의 목록 링크를 사용 할 것 입니다.

그래고 50개를 불러온 페이지에서 글번호, 제목, 작성자, 작성일을 스크래핑하여 DB에 저장을 쭉 합니다.

목록

그리고 list 자료형에 해당 글번호와 제목, 작성자, 작성일을 쭉 저장을 합니다.

insert문을 만들어 써야 하닌깐요.

그리고 다시 해당 자료형을 참조하여 insert 문을 만들어 DB에 저장을 하게 됩니다.

이때, 아래 소스코드를 보시면 아시겠지만, 첫페이지 게시판 목록에는 공지사항이 있습니다. 해당 공지사항의 글번호는 목록에 나타나지 않기때문에, for문에서 리스트를 불러올때 변수로 제어를 해주게 됩니다.

그렇게 목록에서 필요한 정보를 다 스크래핑하고, 이젠 게시글 하나 하나 들어가서 본문에서 텍스트만 추출을 하게 됩니다. 그리고 해당 글 번호를 이용하여 update 해주게 되죠.

그리고 게시판 링크나, 게시글 링크에 보면 menuid가 있습니다. 이 menuid는 웹 스크래핑 하시려는 clubid와 함께 원하시는 카페와 게시판 번호를 알아서 넣어주시면 됩니다. 알아내는 방법은 아래 그림과 같은 위치에서 해당 버튼을 클릭하여 메모장 같은데 붙여 넣으시면 확인이 가능 합니다.

clubid 와 menuid 확인하기

그럼 코드를 공개 하겠습니다.

다음과 같습니다.

# 자유게시판 리스트 50개 짜리로 이동 for i in range(60): #스크래핑 할 페이지수 #강제# 중간에 끊겼을때 해당 페이수보다 -1 한 값을 입력하고 주석 제거 #i = i + 15 #강제# pg = str(i+1) addr = ‘https://cafe.naver.com/ArticleList.nhn?search.clubid=네이버카페ID&search.menuid=44&userDisplay=50&search.boardtype=L&search.specialmenutype=&search.totalCount=501&search.page=’+pg driver.get(addr) driver.switch_to.frame(‘cafe_main’) html = driver.page_source soup = bs(html, ‘html.parser’) a_num_list = soup.findAll(“div”,{“class”:”inner_number”}) a_title_list = soup.findAll(“a”,{“class”:”article”}) a_writer_list = soup.findAll(“a”,{“class”:”m-tcol-c”}) a_regdate_list = soup.findAll(“td”,{“class”:”td_date”}) total_list = [] article_link_list = [] #글 링크 if i == 0: for a, b, c, d in zip(a_num_list, a_title_list[7:], a_writer_list[7:], a_regdate_list[7:]): # 나눔해요게시판, 목격담, 5세대 시공 장착 정비 수리 list = [] list.append(a.text) list.append(b.text.strip()) list.append(c.text) list.append(d.text) total_list.append(list) article_link_list.append(“https://cafe.naver.com/ArticleRead.nhn?clubid=19553263&page=” + pg + “&userDisplay=50&menuid=44&boardtype=L&articleid=” + a.text + “&referrerAllArticles=false”) else: for a, b, c, d in zip(a_num_list, a_title_list, a_writer_list, a_regdate_list): list = [] list.append(a.text) list.append(b.text.strip()) list.append(c.text) list.append(d.text) total_list.append(list) article_link_list.append(“https://cafe.naver.com/ArticleRead.nhn?clubid=네이버카페ID&page=” + pg + “&userDisplay=50&menuid=44&boardtype=L&articleid=” + a.text + “&referrerAllArticles=false”) # DB 저장 for x in total_list: print(“insert into cl.jau_2021(seq, title, writer, reg_date, chk) values (‘” + x[0]+ “‘,'” + re.sub(‘[^A-Za-z0-9가-힣\s,.,?,!]’, “”, x[1]) + “‘,'” + re.sub(‘[^A-Za-z0-9가-힣\s,.,?,!]’, “”, x[2]) + “‘,'” + x[3] + “‘, ‘4’)”) sql = “insert into cl.jau_2021(seq, title, writer, reg_date, chk) values (‘” + x[0]+ “‘,'” + re.sub(‘[^A-Za-z0-9가-힣\s,.,?,!]’, “”, x[1]) + “‘,'” + re.sub(‘[^A-Za-z0-9가-힣\s,.,?,!]’, “”, x[2]) + “‘,'” + x[3] + “‘, ‘4’)” curs.execute(sql) conn.commit() # 글 스크랩핑 for x in total_list: adrs = “https://cafe.naver.com/ArticleRead.nhn?clubid=19553263&page=” + str(pg) + “&userDisplay=50&menuid44&boardtype=L&articleid=” + x[0] +”&referrerAllArticles=false” print(adrs) driver.get(adrs) time.sleep(2) driver.switch_to.frame(‘cafe_main’) html = driver.page_source soup = bs(html, ‘html.parser’) list = soup.find_all(“div”, {“class”:”article_viewer”}) for xx in list: cont = ” cont += re.sub(‘[^A-Za-z0-9가-힣\s,.,?,!]’, “”, xx.text.strip()).replace(‘

‘,”) #driver.close() print(cont) sql = “update cl.jau_2021 set contents = ‘” + str(cont).replace(“‘”, “”) + “‘ where seq = ‘” + x[0] + “‘” print(sql) curs.execute(sql) conn.commit() # 리스트 변수 초기화 a_num_list = [] a_title_list = [] a_writer_list = [] a_regdate_list = [] print(“############################################# ” + pg + ” 페이지 완료 #############################################”) driver.close()

자, 이렇게 네이버 카페 스크래핑을 할 수 있습니다.

필요 하신 분들은 해보시고, 잘 안되면 아래 댓글 남겨 주세요!

아는 내용 한해서는 답글을 달아 드리도록 하겠습니다.

생각보다 어렵지 않으니 필요하신 분들은 도전하세요!!

감사합니다.

by.sTricky

파이썬으로 네이버 카페 게시글 크롤링

728×90

이번에 배틀그라운드 모바일을 플레이하는 유저들의 실시간 반응을 얻기 위해 공식 카페에 있는 유저들의 반응들을 한 번 셀레니움을 이용해서 모아보았습니다.

이에 대한 정보를 찾기 위해 구글에 “파이썬 셀레니움 네이버 카페 크롤링”를 검색해 나온 결과들을 종합해서 저만의 코드로 짜보았습니다.

기초적인 부분들은 어느정도 이해가 되었지만 이 내용을 가지고 이제 네이버 카페가 아닌 다른 웹사이트에서 활용을 할 수 있어야되는데 그게 현재 안되는 것 같네요..

자세한 코드 분석은 다음 포스팅에서 이야기하도록 하겠습니다.

그럼 코드를 확인해보겠습니다.

import chromedriver_autoinstaller import time from selenium import webdriver from bs4 import BeautifulSoup as bs import csv #카페 게시글 제목,링크를 저장하는 리스트 생성 total_list = [‘제목’, ‘링크’] #데이터를 저장하는 csv파일 생성 f = open(‘craw.csv’, ‘w’, encoding=”euc-kr”, newline=”) wr = csv.writer(f) wr.writerow([total_list[0], total_list[1]]) f.close() # 변수 기본값 지정 url = ‘https://nid.naver.com/nidlogin.login’ id = “네이버아이디” pw = “네이버비밀번호” # 크롬 드라이버는 이렇게 실행해야지 편하게 작업이 가능합니다. # 자동으로 크롬 버전을 확인하는 코드chromedriver_autoinstaller dir_driver = chromedriver_autoinstaller.get_chrome_version().split(‘.’)[0] driver = webdriver.Chrome(f’./{dir_driver}/chromedriver.exe’) driver.get(url) driver.implicitly_wait(2) # execute_script 함수 사용하여 자바스크립트로 id,pw 넘겨주기 driver.execute_script(“document.getElementsByName(‘id’)[0].value=\'” + id + “\'”) driver.execute_script(“document.getElementsByName(‘pw’)[0].value=\'” + pw + “\'”) # 로그인 버튼 클릭하기 driver.find_element_by_xpath(‘//*[@id=”frmNIDLogin”]/fieldset/input’).click() time.sleep(1) # 로그인 정보 저장안함 클릭하기 # login_btn = driver.find_element_by_id(‘new.dontsave’) # login_btn.click() # time.sleep(1) # 내가 검색하려는 카페 주소 입력하기 baseurl = ‘https://cafe.naver.com/battlegroundsmobile/’ driver.get(baseurl) # &search.menuid = : 게시판 번호 # &search.page = : 데이터 수집 할 페이지 번호 # &userDisplay = 50 : 한 페이지에 보여질 게시글 수 clubid = 카페 클럽 ID 번호 입력 menuid = 메뉴 ID 번호 입력 pageNum = 1 userDisplay = 50 driver.get( baseurl + ‘ArticleList.nhn?search.clubid=’ + str(clubid) + ‘&search.menuid=’ + str(menuid) + ‘&search.page=’ + str( pageNum) + ‘&userDisplay=’ + str(userDisplay)) # iframe으로 접근 driver.switch_to.frame(‘cafe_main’) soup = bs(driver.page_source, ‘html.parser’) print(str(soup)) soup = soup.find_all(class_=’article-board m-tcol-c’)[1] # 네이버 카페 구조 확인후 게시글 내용만 가저오기 # datas = soup.find_all(‘td’, class_ = ‘td_article’) datas = soup.find_all(class_=’td_article’) dates = soup.find_all(class_=’td_date’) for data in datas: article_title = data.find(class_=’article’) link = article_title.get(‘href’) article_title = article_title.get_text().strip() print(article_title) print(baseurl + link) # 인코딩은 utf-8이 좋아 보임 f = open(‘craw.csv’, ‘a+’, newline=”,encoding=’utf-8′) wr = csv.writer(f) wr.writerow([article_title, baseurl + link]) f.close() print(‘종료’) # driver.close()

실행 결과 값

728×90

크롤링 – webdriver(selenium)으로 네이버 카페글 긁어오기

반응형

https://steadiness-193.tistory.com/139

https://steadiness-193.tistory.com/140

위 두개의 포스팅으로 네이버 카페에 접속해서

카페글 클릭한 뒤 탭 변경하는 것 까지 살펴봤다.

이제 카페로 들어가 필요한 내용을 긁어오자.

브라우저를 실행해

비건디저트를 검색한 카페 1페이지로 들어간 뒤

맨 처음 게시글을 클릭하고

탭을 변경하자.

여기까지 됐으면 네이버 카페 크롤링에서 중요한

프레임 변경을 해줘야 한다.

그냥 태그를 가져오면 원하는 값이 안나오기 때문에

브라우저의 프레임을 바꿔줘야 한다.

카페 프레임 변경

네이버 카페의 주된 글이 있는 프레임은 cafe_main이다.

page_source로 html을 얻고

soup을 구하자

이제 크롤링을 진행할 모든 준비가 끝났다.

제목 / 조회수 / 날짜

본문 / 좋아요 수

댓글

우선 모든 댓글을 담은 all_reply를 만든다.

그 다음 text 들만 뽑아서 reply_list에 append 해주자

마지막으로 이를 하나의 문자열로 이어주기 위해

seperate 문자열과 join을 이용한다.

위 모든 내용을 리스트로 감싸서 data 변수에 넣자

마지막으로 이 전체를 get_data라는 함수로 정의한다.

get_data 함수 실행

영상 광고는 자동으로 설정된 것이며 블로그의 수익과 관계 없습니다.

반응형

So you have finished reading the 네이버 카페 크롤링 topic article, if you find this article useful, please share it. Thank you very much. See more: 네이버 카페 크롤링 불법, 네이버 카페 크롤링 로그인, 네이버 카페 API 크롤링, 네이버 카페 크롤링 프로그램, 네이버 카페 크롤링 파이썬, 네이버 카페 이미지 크롤링, 네이버카페 크롤링 2022, 네이버카페 파싱

Top 50 네이버 카페 크롤링 The 21 Detailed Answer

[파이썬]네이버 카페 게시판 크롤링 웹 스크래핑 2021년 버전

파이썬으로 네이버 카페 게시글 크롤링

크롤링 – webdriver(selenium)으로 네이버 카페글 긁어오기

[크롤링] 네이버 카페 크롤링(파싱) 하기 – 카페 소개

[Python] 네이버 카페 게시글 크롤러(feat. 크롬 드라이버 & 셀레니움)

네이버 카페 크롤링 하기(with selenium) : 네이버 블로그

[python] 네이버카페 크롤링 코드

[Selenium+bs4] 네이버 카페 검색창, iframe 크롤링 방법, 네이버 로그인 방법

[Python/Crawling] 네이버 카페 크롤링 – Kang의 데이터사이언스

네이버 카페 크롤링 webdriver 말고 사용가능한게 있을까요? : 클리앙

[파이썬]네이버 카페 게시판 크롤링 웹 스크래핑 2021년 버전

파이썬으로 네이버 카페 게시글 크롤링

크롤링 – webdriver(selenium)으로 네이버 카페글 긁어오기

Leave a Comment Cancel reply