웹 말뭉치 생성을 위한 집중 웹 크롤러 구축 연구

doi:10.34163/jkits.2024.19.1.004

@article{ART003054749},
author={ 강남오 and 김재호 },
title={ 웹 말뭉치 생성을 위한 집중 웹 크롤러 구축 연구 },
journal={ 한국지식정보기술학회 논문지 },
issn={1975-7700},
year={2024},
number={1},
pages={41 - 48},
doi={10.34163/jkits.2024.19.1.004},
url={http://dx.doi.org/10.34163/jkits.2024.19.1.004}

TY - JOUR
AU - 강남오 AU - 김재호
TI - 웹 말뭉치 생성을 위한 집중 웹 크롤러 구축 연구
T2 - 한국지식정보기술학회 논문지
PY - 2024
VL - 19
IS - 1
PB - 한국지식정보기술학회
SP - 41 - 48
SN - 1975-7700
AB - 정보공유를 위한 인터넷 서비스로서 웹이 소개된 후 최근까지 방대한 양의 자료들이 웹을 통해 공개되었다. 이에 웹 공간으로부터 대규모 말뭉치를 구축하기 위한 목적으로 집중 웹 크롤러의 제작이 다양하게 시도되었다. 집중 웹 크롤러는 획득한 웹 문서를 분석하여 요청한 정보를 추출하고 사용자가 원하는 문서와 관련성이 높은 URL들을 추출, 방문함으로써 효과적인 정보 검색을 가능하게 한다. 이는 자연어 연구자가 웹에서 특정 단어 혹은 문구가 사용된 문장을 검색, 수집 및 관리에 활용할 수 있으므로, 집중 웹 크롤러는 특정 조건을 만족하는 대규모의 웹 말뭉치 구축에 적합하다. 본 연구에서 우리는 웹 말뭉치 생성 집중 웹 크롤러를 구성하는데 있어서 URL들의 크롤링 방식과 크롤링할 URL의 우선순위를 결정하는 방식이 성능에 어떤 영향을 미치는 지를 살펴보았다. 그리고 이를 고려하여 성능의 향상을 추구한 웹 말뭉치 생성 집중 웹 크롤러의 구축 방법을 제시한다. 제안된 시스템의 성능을 증명하기 위해 몇몇 어휘에 대한 말뭉치 구축을 수행했다. 실험의 결과는 본 논문에서 제안하는 말뭉치 구축 알고리즘이 기존의 방식보다 향상되었음을 보였다.
KW - Web corpus, Natural language processing, Focused web crawler, Breath first crawling algorithm, Depth first crawling algorithm
DO - 10.34163/jkits.2024.19.1.004
UR - http://dx.doi.org/10.34163/jkits.2024.19.1.004
ER -

강남오 , 김재호 (2024). 웹 말뭉치 생성을 위한 집중 웹 크롤러 구축 연구. 한국지식정보기술학회 논문지, 19(1), 41 - 48.

강남오 , 김재호 . 2024, “웹 말뭉치 생성을 위한 집중 웹 크롤러 구축 연구”, vol.19, no.1, pp. 41 - 48. Available from: doi:10.34163/jkits.2024.19.1.004

강남오 and 김재호 “웹 말뭉치 생성을 위한 집중 웹 크롤러 구축 연구“ 한국지식정보기술학회 논문지 19.1 pp. 41 - 48. (2024): 41.

강남오 , 김재호 . 웹 말뭉치 생성을 위한 집중 웹 크롤러 구축 연구 한국지식정보기술학회 논문지 [Internet]. 2024; 19(1), : 41 - 48. Available from: doi:10.34163/jkits.2024.19.1.004

강남오 , 김재호 . “웹 말뭉치 생성을 위한 집중 웹 크롤러 구축 연구“ 한국지식정보기술학회 논문지 19, no.1, (2024): 41 - 48. doi: :10.34163/jkits.2024.19.1.004

KOAJKorea
Open Access Journals

웹 말뭉치 생성을 위한 집중 웹 크롤러 구축 연구
A Study on Constructing a Focused Web Crawler for Producing Web Corpus

웹 말뭉치 생성을 위한 집중 웹 크롤러 구축 연구 A Study on Constructing a Focused Web Crawler for Producing Web Corpus

초록

키워드

참고문헌(0)

타입을 선택하세요 BibTex RIS APA Harvard MLA Vancouver Chicago

웹 말뭉치 생성을 위한 집중 웹 크롤러 구축 연구

피인용 논문

웹 말뭉치 생성을 위한 집중 웹 크롤러 구축 연구
A Study on Constructing a Focused Web Crawler for Producing Web Corpus

타입을 선택하세요