초록 열기/닫기 버튼

웹 크롤러(Web crawler)는 웹 페이지 사이를 이동하며 HTML 구조를 파싱하는 웹 데이터 수집하는 기술이다. 따라서 웹사이트의 리뉴얼 등에 의해 HTML 구조가 변경되면 그에 따라 웹 크롤러의 소스 코드를 수정해야하는 종속적 특징을 가지며, 운영 규모가 클수록 유지보수 비용이 비례적으로 증가하게 되어 웹 크롤링 운영에 대한 부담이 발생하게 된다. 본 논문은 웹 크롤러의 유지보수의 비용을 절감하기 위한 방안으로 웹 크롤러의 동작을 구조화한 설정 항목을 도출하고 설정에 따라 동작하는 크롤러 개발을 통하여 설정만으로 다수의 웹 크롤러 관리하는 방안을 제시한다. 웹 크롤러의 설정은 웹페이지 이동 설정, 데이터 수집 설정으로 구분하여 설계하고 Selenium 프레임워크를 활용한 웹 크롤러를 구현하였으며 다양한 유형에 웹 사이트를 대상으로 데이터 수집 실험을 수행하여 설계된 설정 구조가 다양한 웹 페이지에서 적용 가능함을 확인하였다.


Web crawler is a program that moves between web pages, parses structure of HTML, and collects web data. If there are any changes to a website, the web crawler must modify its source code. Therefore, the cost of maintenance increases proportionally to the size of the operation. To reduce the cost of maintenance, we propose designing configuration items that structure the behavior of web crawlers and creating a method of managing multiple web crawlers with only configurations. The web crawler configuration is designed for web page navigation and data collection, so we developed the Selenium-based web crawler and tested it on various types of websites. Through the proposed configuration, it has been confirmed that it is available in multiple websites.