close menu
KCI 등재
뉴스 비정형 데이터의 수집과 토픽 분석(LDA)을 통한 성범죄 치안 이슈의 효율적 탐색
Efficient Way to Explore the Sex Offense Typologies Through Topic Analysis(LDA) with News Articles
김혜진 ( Hyejin Kim )
한국범죄학 14권 1호 5-20(16pages)
DOI 10.29095/JKCA.14.1.1
UCI I410-ECN-0102-2021-300-000902648

본 연구는 비정형 텍스트 데이터 분석기법을 활용하여 신종 성범죄 유형에 대한 치안 정책 수요를 효과적으로 파악하려는 목적에서 수행되었다. 최근 2년간 온라인 상에서 작성된 성범죄 관련 뉴스기사(N=7,340)를 웹크롤링 프로그래밍을 통해 자동수집 하였으며, 양질의 기사를 분석에 활용하기 위해 기사의 영역, 출처, 내용 등의 형평성을 검증하는 정제과정(Preprocessing)을 거쳤다. 최종 3,764건의 온라인 뉴스 기사를 대상으로 텍스트 뭉치(Corpus)들을 소수의 의미 있는 토픽들로 분류해주는 동시 출현 단어 네트워크 분석과 잠재디리클래 분석(Latent Dirichlet Allocation Modeling) 모형을 적용하였다. 그 결과, 성범죄 기사들의 주제를 요약하는 6개 주요 토픽(디지털 성범죄, 사회 고위층 성상납, 직장 내 성폭력, 청소년 대상 지능형 성범죄, 해외 유명인사 성범죄)이 산출 되었다. 해당 연구 방법론이 성폭력 범죄 대책 방안 수립에 기여하는 정책적 함의와 한계점을 마지막으로 논의 하였다.

Big data analytics, which is specifically designed to explore large amounts of text has been applied to news articles data to unveil the hidden patterns of sex crimes issues. The sex crime related online news articles(N = 7,340) that are published for the last two years are automatically collected through a web crawling program. After conducting Latent Dirichlet Allocation Modeling that classifies textual corpus into a few meaningful topics, a total of 5 sex crime topics are extracted: digital sexual assault, the upper class perpetrator associated sex offenses, sexual harrassment in the workplace, adolescent grooming sex crimes, and the foreign celebrities associated sex crimes. All topics are found to require more aggressive prevention policies from the law enforcement agency in Korea.

Ⅰ. 서 론
Ⅱ. 이론적 배경
Ⅲ. 연구방법
Ⅳ. 분석결과
Ⅴ. 논의 및 정책적 시사점
[자료제공 : 네이버학술정보]