개요

Audio adapter의 결합 및 사전학습을 통해, 언어모델은 음성/음악/환경음 등의 소리를 이해하고 다양한 downstream task를 수행할 수 있게 되었습니다. VRAM의 크기가 작은 전형적인 디바이스 환경에서는 오디오 언어모델에 대한 경량 모델링이 필수적입니다. Audio understanding benchmarks에 대한 baseline 모델의 정확도를 유지하면서도, 더 작고 빠른 모델을 만드는 레서피를 만드는 것이 본 해커톤의 목적입니다.

Audio, Speech, Music등 일반적인 오디오 입력을 잘 이해하고 처리할 수 있는 Single Multimodal LLM인 SALMONN 모델이 개발되었습니다. Nota에서 제공한 SALMONN 모델의 베이스 라인 성능을 유지하면서 Memory usage를 줄이고 Latency를 줄이는 것을 본 해커톤의 목표로 합니다.

따라서 저희는 On-device가 가능한 모바일 GPU의 대략적인 기준인 ASR ~0.05, Memory ~6GB, TTFT ~1 sec, TPOT ~0.1 sec을 목표로 삼고 프로젝트를 진행했습니다. 또 다른 성능 지표인 AAC는 구체적인 성능 지표는 제시되지 않아, 성능 하락이 되지 않는 선을 목표로 잡았습니다.

타임라인 및 역할

타임라인

image.png

역할

김태균 성의인 염진봉 이진우 홍유리 황지은
LLM 실험 LLM 실험 LLM 실험 LLM 실험 LLM 실험 LLM 실험
EDA Q-Former 실험 EDA EDA Audio encoder 실험 Prompt Engineering
실험
GitHub 관리 LoRA실험 발표 PPT 제작 GitHub 관리

데이터 분석

Tasks 소개

데이터 분석 결과, ASR, Audio caption, Audio caption v2, QA, Phone recognition, Gender recognition 총 6개의 Tasks를 발견했습니다. 각 Tasks 별 특징은 다음과 같습니다.

Tasks 특징
ASR 음성을 텍스트로 변환
Audio caption 오디오를 설명하는 텍스트 생성 Stage 1
Audio caption v2 오디오를 설명하는 텍스트 생성 Stage 2
QA 질문과 오디오를 입력받아 적절한 답변 생성
Phone recognition 오디오를 작은 음소 단위로 변환
Gender recognition 음성 기반 성별 판단

Tasks 별 데이터 수

각 Tasks 별 데이터 수를 확인했습니다. 데이터의 수가 가장 많은 ASR은 167만개, 가장 적은 Gender recognition은 2만개로 Tasks 간 불균형이 심한 것을 확인할 수 있었습니다.

Tasks 데이터 수
ASR 1,672,622
Audiocaption 382,177
QA 551,759
Phone_recognition 281,239
Audiocaption_v2 61,112
Gender_recognition 28,539