numpy
pillow
av==13.1.0
tqdm
transformers==4.49.0
gradio
soundfile
einops
timm
torch==2.1.0
torchaudio==2.1.0