본문 바로가기
KCI 등재

웹 말뭉치 생성을 위한 집중 웹 크롤러 구축 연구

A Study on Constructing a Focused Web Crawler for Producing Web Corpus

한국지식정보기술학회 논문지
약어 : 한국지식정보기술학회 논문지
2024 vol.19, no.1, pp.41 - 48
DOI : 10.34163/jkits.2024.19.1.004
발행기관 : 한국지식정보기술학회
연구분야 : 학제간연구
Copyright © 한국지식정보기술학회
인용한 논문 수 :   -  
1 회 열람

정보공유를 위한 인터넷 서비스로서 웹이 소개된 후 최근까지 방대한 양의 자료들이 웹을 통해 공개되었다. 이에 웹 공간으로부터 대규모 말뭉치를 구축하기 위한 목적으로 집중 웹 크롤러의 제작이 다양하게 시도되었다. 집중 웹 크롤러는 획득한 웹 문서를 분석하여 요청한 정보를 추출하고 사용자가 원하는 문서와 관련성이 높은 URL들을 추출, 방문함으로써 효과적인 정보 검색을 가능하게 한다. 이는 자연어 연구자가 웹에서 특정 단어 혹은 문구가 사용된 문장을 검색, 수집 및 관리에 활용할 수 있으므로, 집중 웹 크롤러는 특정 조건을 만족하는 대규모의 웹 말뭉치 구축에 적합하다. 본 연구에서 우리는 웹 말뭉치 생성 집중 웹 크롤러를 구성하는데 있어서 URL들의 크롤링 방식과 크롤링할 URL의 우선순위를 결정하는 방식이 성능에 어떤 영향을 미치는 지를 살펴보았다. 그리고 이를 고려하여 성능의 향상을 추구한 웹 말뭉치 생성 집중 웹 크롤러의 구축 방법을 제시한다. 제안된 시스템의 성능을 증명하기 위해 몇몇 어휘에 대한 말뭉치 구축을 수행했다. 실험의 결과는 본 논문에서 제안하는 말뭉치 구축 알고리즘이 기존의 방식보다 향상되었음을 보였다.

Web corpus, Natural language processing, Focused web crawler, Breath first crawling algorithm, Depth first crawling algorithm

* 2023년 이후 발행 논문의 참고문헌은 현재 구축 중입니다.