개발일지
close
프로필 사진

개발일지

github: @ghrnwjd

  • 분류 전체보기 (59)
    • 🍃 스프링 (15)
    • 🧩 자바 (8)
    • 📦 개발 (19)
      • JavaScript (12)
      • AI (3)
      • opencv (4)
      • 논문 (0)
    • 🌱 프로젝트 (8)
      • 소방알리미 (6)
      • 크롤링 (2)
    • 📚 컴퓨터사이언스 (3)
      • Network (2)
      • Web (1)
    • 🔧 etc (5)
  • Github
  • INFO
파이썬 크롤링 라이브러리

파이썬 크롤링 라이브러리

파이썬 크롤링 라이브러리로 크게 BeautifulSoup4, requests, , selenium, scrapy 등이 있다. [ BeautifulSoup4 ] BeautifulSoup4는 파이썬 내장 모듈인 requests, urllib를 이용해 HTML 을 받아오고 beautifulSoup로 추출한다. 장점 쉽고, 빠르고(병렬 처리시), 간단하다. 단점 HTML을 받아오기 때문에 SPA (ex. vue.js에서 라우팅 기능을 사용하여 페이지를 하나만 유지시키는 것)이나 js가 적용된 페이지를 크롤링하기엔 어렵다. [ lxml ] 기본적으로 BeautifulSoup에서는 BeautifulSoup(html, 'html.parser') 와 같이 html parser 를 사용할수도 있지만 lxml 모듈을 설치..

  • format_list_bulleted 🌱 프로젝트/크롤링
  • · 2022. 10. 5.

크롤링, 스크래핑, 파싱

[ 크롤링, 스크래핑, 파싱의 차이 ] [ 웹 크롤링 ] 크롤러라는 봇이 존재하며, 조직적, 자동화된 방법으로 www 을 탐색하는 프로그램이며, 여러 인터넷 사이트를 수집 후 분류하고 분류 한 데이터를 저장한 뒤 인덱싱하는 작업을 말한다. [ 웹 스크래핑 ] 웹 크롤러로 페이지의 정보를 얻고 구역별로 HTML의 태그의 정보로 데이터를 추출하는 것을 의미하며 크롤링은 웹 스크래핑의 방법 중 하나이다. [ 파싱 ] 어떠한 웹 페이지에 대해 내가 원하는 데이터를 특정패턴, 순서로 추출하여 정보로 가공한다. [ 결론 ] 크롤링은 여러 웹페이지를 탐색하고 스크래핑을 통해 특정 페이지의 정보를 추출 후 파싱하여 우리가 원하는 데이터 형태로 가공한다. [ 웹 스크래핑의 한계 ] 웹 페이지가 수정될 경우 스크래핑이 중..

  • format_list_bulleted 🌱 프로젝트/크롤링
  • · 2022. 9. 30.
  • navigate_before
  • 1
  • navigate_next
공지사항
전체 카테고리
  • 분류 전체보기 (59)
    • 🍃 스프링 (15)
    • 🧩 자바 (8)
    • 📦 개발 (19)
      • JavaScript (12)
      • AI (3)
      • opencv (4)
      • 논문 (0)
    • 🌱 프로젝트 (8)
      • 소방알리미 (6)
      • 크롤링 (2)
    • 📚 컴퓨터사이언스 (3)
      • Network (2)
      • Web (1)
    • 🔧 etc (5)
인기 글
전체 방문자
오늘
어제
Copyright © 홓옇 모든 권리 보유.
SKIN: Copyright © 쭈미로운 생활 All rights reserved. Designed by JJuum.
and Current skin "dev-roo" is modified by Jin.

티스토리툴바