@article{ART003054749},
author={
강남오
and
김재호
},
title={
웹 말뭉치 생성을 위한 집중 웹 크롤러 구축 연구
},
journal={
한국지식정보기술학회 논문지
},
issn={1975-7700},
year={2024},
number={1},
pages={41 - 48},
doi={10.34163/jkits.2024.19.1.004},
url={http://dx.doi.org/10.34163/jkits.2024.19.1.004}
TY - JOUR
AU - 강남오
AU - 김재호
TI - 웹 말뭉치 생성을 위한 집중 웹 크롤러 구축 연구
T2 - 한국지식정보기술학회 논문지
PY - 2024
VL - 19
IS - 1
PB - 한국지식정보기술학회
SP - 41 - 48
SN - 1975-7700
AB - 정보공유를 위한 인터넷 서비스로서 웹이 소개된 후 최근까지 방대한 양의 자료들이 웹을 통해 공개되었다. 이에 웹 공간으로부터 대규모 말뭉치를 구축하기 위한 목적으로 집중 웹 크롤러의 제작이 다양하게 시도되었다. 집중 웹 크롤러는 획득한 웹 문서를 분석하여 요청한 정보를 추출하고 사용자가 원하는 문서와 관련성이 높은 URL들을 추출, 방문함으로써 효과적인 정보 검색을 가능하게 한다. 이는 자연어 연구자가 웹에서 특정 단어 혹은 문구가 사용된 문장을 검색, 수집 및 관리에 활용할 수 있으므로, 집중 웹 크롤러는 특정 조건을 만족하는 대규모의 웹 말뭉치 구축에 적합하다. 본 연구에서 우리는 웹 말뭉치 생성 집중 웹 크롤러를 구성하는데 있어서 URL들의 크롤링 방식과 크롤링할 URL의 우선순위를 결정하는 방식이 성능에 어떤 영향을 미치는 지를 살펴보았다. 그리고 이를 고려하여 성능의 향상을 추구한 웹 말뭉치 생성 집중 웹 크롤러의 구축 방법을 제시한다. 제안된 시스템의 성능을 증명하기 위해 몇몇 어휘에 대한 말뭉치 구축을 수행했다. 실험의 결과는 본 논문에서 제안하는 말뭉치 구축 알고리즘이 기존의 방식보다 향상되었음을 보였다.
KW - Web corpus, Natural language processing, Focused web crawler, Breath first crawling algorithm, Depth first crawling algorithm
DO - 10.34163/jkits.2024.19.1.004
UR - http://dx.doi.org/10.34163/jkits.2024.19.1.004
ER -
강남오
,
김재호
(2024).
웹 말뭉치 생성을 위한 집중 웹 크롤러 구축 연구.
한국지식정보기술학회 논문지,
19(1),
41 - 48.
강남오
,
김재호
. 2024,
“웹 말뭉치 생성을 위한 집중 웹 크롤러 구축 연구”,
vol.19,
no.1,
pp. 41 - 48.
Available from: doi:10.34163/jkits.2024.19.1.004
강남오
and
김재호
“웹 말뭉치 생성을 위한 집중 웹 크롤러 구축 연구“
한국지식정보기술학회 논문지
19.1
pp. 41 - 48.
(2024): 41.
강남오
,
김재호
.
웹 말뭉치 생성을 위한 집중 웹 크롤러 구축 연구
한국지식정보기술학회 논문지
[Internet].
2024;
19(1),
:
41 - 48.
Available from: doi:10.34163/jkits.2024.19.1.004
강남오
,
김재호
. “웹 말뭉치 생성을 위한 집중 웹 크롤러 구축 연구“
한국지식정보기술학회 논문지
19, no.1,
(2024): 41 - 48. doi: :10.34163/jkits.2024.19.1.004