<small>VatLM</small>: Visual-Audio-Text Pre-Training with Unified Masked Prediction for Speech Representation Learning

VatLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for Speech Representation Learning | IEEE Journals & Magazine | IEEE Xplore