데이터 분석 Tool 소개 : 웹크롤링 Octoparse
- 쇼셜이노베이션융합전공
- 조회수830
- 2021-12-21
이번 학습자료는 여러 웹 사이트에서 데이터를 추출할 수 있는 웹 스크래핑 서비스인 Octoparse입니다.
Octoparse는 코드를 사용하지 않고도 여러 웹사이트에서 데이터를 추출할 수 있고 추출된 데이터를 CSV, TXT, Excel, HTML 또는 데이터베이스에 저장할 수 있는 공식 API를 제공합니다. Octoparse는 웹 에서 필요한 모든 종류의 데이터를 추출하기위한 강력한 웹 사이트 크롤러 입니다. 자동 감지 , 작업 템플릿 및 고급 모드를 포함한 다양한 기능을 제공 합니다.
[그림 1] Octopasre 실행화면
* 출처: Octoparse 홈페이지
실행화면의 왼쪽 메뉴의 [Dashboard]를 통해 크롤링 작업 리스트를 확인할 수 있으며, 크롤링 설정/수정/제거를 할 수 있습니다. [Tutorials]에서 프로그램 사용 방법을 알 수 있으며, [Data Service]에서 amazon, google, ebay 등 유명 사이트에 대한 크롤링 자료를 받아볼 수 있습니다.
Octoparse의 사용방법은 간단합니다. 일단 왼쪽 상단 New 버튼을 클릭한 후 Advanced를 클릭합니다. 그 후 빨간 부분에 긁어오고자 하는 웹페이지 주소를 입력합니다.
[그림 2] Octopasre 새로운 태스크 생성
* 출처: 비 전공자를 위한 웹크롤링 프로그램 Octoparse
크롤링할 웹사이트의 링크를 입력 후 Save 버튼을 클릭하면 페이지가 로드되고 데이터가 감지됩니다. 자동감지가 완료되면 팁 패널에 제공된 지침을 따르고 미리 보기 섹션에서 데이터를 확인합니다. 마지막으로 데이터 필드의 이름을 바꾸거나 필요하지 않은 필드를 제거합니다.
[그림 3] Wikipedia 페이지 데이터 추출
* 출처: Octoparse로 간단해진 웹 스크래핑
구글 스칼라에서 논문을 긁어올 때 제목, 기관, 저자, 연도, 피인용수, 키워드, 초록 등 내가 원하는 정보들을 포함하여 데이터화 해주기 때문에 메타분석에도 무척 유용하게 사용할 수 있다. [그림 4]의 왼쪽 workflow에서 내가 원하는 대로 설계도를 구현할 수 있다. 나에게 필요한 정보의 Loop Item 을 생성하고 데이터추출을 실행하도록 알고리즘을 설계할 수 있다. 처음 프로그램을 다룰 때 해당 부분이 어려울 수 있지만, Octoparses에서는 프로그램 가이드를 제공하고 있으니 참고하면 이해하는 데 수월할 것입니다.
https://www.youtube.com/channel/UCweDWm1QY2G67SDAKX7nreg
[그림 4] 구글 Scholar 데이터 추출
* 출처: 비 전공자를 위한 웹크롤링 프로그램 Octoparse
[그림 5] 구글 Scholar 크롤링 결과물
* 출처: 비 전공자를 위한 웹크롤링 프로그램 Octoparse
Octoparse를 이용하면 웹 크롤링 / 웹 스크래핑을 직접 코드를 짜지 않고도 간단한 알고리즘을 설계하여 손쉽게 수행할 수 있습니다. 해당 서비스도 무료 버전과 유료 버전으로 구분되며, 자세한 기능 및 사용에 대한 사항은 아래 링크에서 확인이 가능합니다.
* Octoparse로 간단해진 웹 스크래핑
https://ichi.pro/ko/octoparselo-gandanhaejin-web-seukeulaeping-169970873435156
* 비 전공자를 위한 웹크롤링 프로그램 Octoparse
https://brunch.co.kr/@lqepst/7
* 출처:
|