本文旨在对任意模态输入-任意模态输出 (X2X) 的LLM的编解码方式进行简单梳理,同时总结一些代表性工作。
注:图像代表Image,视频代表Video(不含声音),音频代表 Audio/Music,语音代表Speech
各种模态编解码方式梳理
文本
- 编码:和LLM一样,使用tokenizer与位置嵌入转换为输入Embedding,选择性利用Transformer Encoder进行处理
- 解码:和LLM一致,使用Transformer Decoder解码获取输出文本
图像
- 编码:使用Vision Transformer (ViT) 将图像分割为patch序列,利用Transformer处理得到编码。之后选择MLP/QFormer/VQ-VAE中一个合适的connector得到表征
- 解码:使用Diffusion模型利用LLM生成的语义token得到图像
视频
- 编码:从视频中抽出若干帧图像代表视频,利用图像编码方式得到每个帧的表征,并按照相对顺序拼接在一起放进输入序列中
- 解码:使用Diffusion模型利用LLM生成的语义token得到视频
音频/语音
- 编码:使用声学采样技术将音频/语音转换为离散的序列,利用Encoder编码,再利用RVQ量化技术得到最终的输入表征。
- 常用编码器:C-Former、HuBERT、BEATs 或 Whisper
- 解码:使用音频/语音Decoder或Diffusion模型解码LLM生成的语义token得到音频/语音
1.AnyGPT:文本,图像,语音,音频
论文标题: