Earticle

Home

중국 소셜미디어 크롤링과 텍스트 분석 : SNS 말뭉치 기반 연구방법론의 모색
Chinese Social Media Crawling and Text Analysis : Exploring SNS Corpus-Based Research Methodology

첫 페이지 보기
  • 발행기관
    경기대학교 인문학연구소 바로가기
  • 간행물
    시민인문학 바로가기
  • 통권
    제46호 (2024.02)바로가기
  • 페이지
    pp.37-65
  • 저자
    박민준
  • 언어
    한국어(KOR)
  • URL
    https://www.earticle.net/Article/A443199

※ 기관로그인 시 무료 이용이 가능합니다.

6,900원

원문정보

초록

영어
Recently, social media has emerged as a new space for information exchange and a leading channel in setting trends within China's digital environment. With the quantitative growth of social media platforms, the accumulation of users' opinions and evaluations has naturally led to the formation of a vast Chinese corpus, which continues to expand rapidly. Consequently, exploring social media texts to understand the embedded social and cultural meanings has become a crucial academic task. Theoretically, all data visible on a web browser can be collected through crawling. In light of this, this paper expands the scope of web crawling to include Chinese social media content, investigating the data crawling processes on XiaoHongShu (小红书), BiliBili (哔哩哔哩), and Douyin (抖音). This paper introduces the prominent Chinese social media platforms such as XiaoHongShu, BiliBili, and Douyin, highlighting their unique characteristics, influence, as well as the necessity of data collection. Subsequently, it step-by-step investigates the entire process of collecting social media content, from securing hidden URLs to accessing platforms through user authentication, and elaborates on two data collection methods based on GUI and CLI. Lastly, the paper presents a case study of SNS text mining by analyzing comments on Korean cosmetic surgery (韩国整容) contents posted on social media. This paper contributes to understanding Chinese social media and its content crawling methodologies, proposing a new approach for corpus-based research on SNS. The social media crawling techniques and content analysis presented in this study are expected to enable a deeper understanding of the rich linguistic and cultural features of Chinese social media content.
한국어
최근 중국의 디지털 환경에서 소셜미디어(SNS) 콘텐츠는 새로운 정보 교류의 공간이자 유행을 선도하는 주류 매체로 자리잡고 있다. 소셜미디어 플랫폼들이 양적 성장을 거듭하면서, 이곳에서 네티즌의 의견(opinion)과 평가(evaluation)가 누적·축적되며 자연스럽게 거대한 중국어 말뭉치가 형성되었고, 계속하여 빠른 속도로 팽창하고 있다. 이에 따라, 소셜미디어 텍스트를 탐구하여 그 안에 내재 된 다양한 사회적, 문화적 의미를 탐구하는 것은 학문적으로 매우 중요한 과제로 부각되고 있다. 이론적으로 웹 브라우저 상에서 보이는 모든 데이터는 크롤링을 통해 수집이 가능하다. 이 점에 착안하여, 본고는 웹 크롤링의 대상을 중국 소셜미디어 콘텐 츠로 확장하여 샤오홍슈(小红书), 비리비리(哔哩哔哩), 더우인(抖音) 상의 웹 데 이터 수집(크롤링, crawling) 과정을 탐구하였다. 중국의 대표적인 소셜미디어 플랫폼인 샤오홍슈(小红书), 비리비리(哔哩哔 哩), 더우인(抖音)을 소개하고, 각각의 고유한 특징과 소셜미디어의 영향력, 데이 터 수집의 필요성을 밝힌다. 이후 1) 소셜미디어 콘텐츠의 숨겨진 URL을 확보하 고 2) 사용자 인증을 거쳐 소셜미디어 플랫폼으로 진입하여 콘텐츠를 수집하는 과정을 단계적으로 살펴보고, GUI와 CLI 기반의 두 가지 크롤링(crawling) 방식 을 실례와 함께 상세히 설명한다. 마지막으로, 수집된 데이터를 바탕으로 소셜미 디어에 게시된 한국 성형(韩国整容) 관련 콘텐츠의 댓글 내용 분석을 통해 SNS 텍스트 마이닝의 간단한 실례를 제시한다. 본고는 중국 소셜미디어의 이해를 도모하고 콘텐츠 크롤링 방식을 고찰함으로써, SNS 말뭉치 기반 응용언어학 연구의 새로운 방법론을 제시하였다. 본 연구에서 제시하는 소셜미디어 크롤링 기법과 콘텐츠 분석을 통해 중국 소셜미디어 콘텐츠의 풍부한 언어문화적 특징을 심층적으로 이해할 수 있을 것으로 기대한다.

목차

1. 머리말
2. 왜 수집하는가? - 중국 소셜미디어의 영향력과 특징
3. 무엇을 수집할 것인가? - 중국의 소셜미디어 플랫폼
4. 어떻게 수집할 것인가? - 소셜미디어 텍스트 크롤링
5. 어떻게 활용할 것인가
6. 맺음말
<참고문헌>
<국문초록>

저자

  • 박민준 [ PARK, Minjun | 덕성여자대학교 중어중문학전공, 조교수 ]

참고문헌

자료제공 : 네이버학술정보

간행물 정보

발행기관

  • 발행기관명
    경기대학교 인문학연구소
  • 설립연도
    1996
  • 분야
    인문학>기타인문학
  • 소개
    본 인문학연구소는 1996년 12월 설립 이래 인문학 전반에 걸친 폭 넓은 연구와 과제를 수행해오고 있으며, 연구소 내에 인성교육연구실, 지역문화연구실, 전통문화콘텐츠연구실, 아동문학연구실의 4개 연구실을 두어 각 연구실마다 교육부, 문화체육부 과제, 정부 및 지자체 과제, 산업기관 과제 등을 활발하게 수행하고 있다. 본 인문학연구소는 매년 2회 기관지 <시민인문학>을 출판하여 2015년 현재 통권 28호에 이르고 있다. <시민인문학>의 모토는 인문학의 대중화, 인문정신문화의 진흥, 시민 공동체 사회의 실현으로서, 일반 시민, 소외 청소년, 쉼터 노숙인, 노인 등 여러 계층의 시민들을 대상으로 한 인문학 교양교육 실시와 매년 2회의 정기 학술대회와 워크숍을 수행하고 있다. 본 인문학연구소는 대학 내외의 인문사회 연구기관과의 교류, 지자체의 인문학 관련 용역과제 (수원시, 안양시, 광명시 등) 수행과 업무 협약 등을 통해 지역 연계의 시민인문학 사업을 충실히 수행하고 있다. 본 인문학연구소는 경기대학교의 중점연구소로서 연구소 독자적 사무실 운영비, 전임 조교 인건비, 학술대회비 지원 등을 지속적이고 안정적으로 지원받고 있으며, 한국연구재단의 연구교수와 30여명에 이르는 연구원들이 다양한 영역에서의 학제 간 연구를 진행하고 있다. 본 인문학연구소는 다양한 인문학교육 프로그램 개발과 인문교육지도자 연수 시스템 운영, 그리고 자체 홈페이지를 이용한 인문학 플랫폼 개설 등을 통해 대학의 인문학 연구기관으로서의 위상을 세워나가고 있다.

간행물

  • 간행물명
    시민인문학 [Citizen and Humanities]
  • 간기
    반년간
  • pISSN
    2005-7164
  • 수록기간
    1990~2024
  • 등재여부
    KCI 등재
  • 십진분류
    KDC 001 DDC 001

이 권호 내 다른 논문 / 시민인문학 제46호

    피인용수 : 0(자료제공 : 네이버학술정보)

    함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

      페이지 저장