네이버 뉴스에서 코로나 + 백신 키워드로 현재기준 최근 6개월 뉴스기사를 수집하는 수집기 입니다.
수집된 기사들은 로컬 monogodb 에 저장됩니다.
- scrapy
- pandas
- lxml
- pymongo
- base 도메인 https://search.naver.com/search.naver
- query= 검색할 키워드
- sort=1 (최신순 정렬)
- ds= YYYY.MM.DD 형식 (기사 날짜 시작 범위)
- de= YYYY.MM.DD 형식 (기사 날짜 시작 범위)
- news_office_checked= 언론사 코드(네이버 제공)
- start= 1 (시작 페이지, 1을 기준으로 10개씩 증가)
- database : naver
- collection : news
title : 뉴스기사 타이틀
contents : 뉴스기사 본문 html
url : 뉴스기사 url
press : 언론사
datetime : 뉴스기사 작성시간
docker-compose up -d
scrapy crawl navernews