Audio adapter의 결합 및 사전학습을 통해, 언어모델은 음성/음악/환경음 등의 소리를 이해하고 다양한 downstream task를 수행할 수 있게 되었습니다. VRAM의 크기가 작은 전형적인 디바이스 환경에서는 오디오 언어모델에 대한 경량 모델링이 필수적입니다. Audio understanding benchmarks에 대한 baseline 모델의 정확도를 유지하면서도, 더 작고 빠른 모델을 만드는 레서피를 만드는 것이 본 해커톤의 목적입니다.
Audio, Speech, Music등 일반적인 오디오 입력을 잘 이해하고 처리할 수 있는 Single Multimodal LLM인 SALMONN 모델이 개발되었습니다. Nota에서 제공한 SALMONN 모델의 베이스 라인 성능을 유지하면서 Memory usage를 줄이고 Latency를 줄이는 것을 본 해커톤의 목표로 합니다.
따라서 저희는 On-device가 가능한 모바일 GPU의 대략적인 기준인 ASR ~0.05, Memory ~6GB, TTFT ~1 sec, TPOT ~0.1 sec을 목표로 삼고 프로젝트를 진행했습니다. 또 다른 성능 지표인 AAC는 구체적인 성능 지표는 제시되지 않아, 성능 하락이 되지 않는 선을 목표로 잡았습니다.
김태균 | 성의인 | 염진봉 | 이진우 | 홍유리 | 황지은 |
---|---|---|---|---|---|
LLM 실험 | LLM 실험 | LLM 실험 | LLM 실험 | LLM 실험 | LLM 실험 |
EDA | Q-Former 실험 | EDA | EDA | Audio encoder 실험 | Prompt Engineering |
실험 | |||||
GitHub 관리 | LoRA실험 | 발표 | PPT 제작 | GitHub 관리 |
데이터 분석 결과, ASR, Audio caption, Audio caption v2, QA, Phone recognition, Gender recognition 총 6개의 Tasks를 발견했습니다. 각 Tasks 별 특징은 다음과 같습니다.
Tasks | 특징 |
---|---|
ASR | 음성을 텍스트로 변환 |
Audio caption | 오디오를 설명하는 텍스트 생성 Stage 1 |
Audio caption v2 | 오디오를 설명하는 텍스트 생성 Stage 2 |
QA | 질문과 오디오를 입력받아 적절한 답변 생성 |
Phone recognition | 오디오를 작은 음소 단위로 변환 |
Gender recognition | 음성 기반 성별 판단 |
각 Tasks 별 데이터 수를 확인했습니다. 데이터의 수가 가장 많은 ASR은 167만개, 가장 적은 Gender recognition은 2만개로 Tasks 간 불균형이 심한 것을 확인할 수 있었습니다.
Tasks | 데이터 수 |
---|---|
ASR | 1,672,622 |
Audiocaption | 382,177 |
QA | 551,759 |
Phone_recognition | 281,239 |
Audiocaption_v2 | 61,112 |
Gender_recognition | 28,539 |