CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models

Zhao, Qingqing; Lu, Yao; Kim, Moo Jin; Fu, Zipeng; Zhang, Zhuoyang; Wu, Yecheng; Li, Zhaoshuo; Ma, Qianli; Han, Song; Finn, Chelsea; Handa, Ankur; Liu, Ming-Yu; Xiang, Donglai; Wetzstein, Gordon; Lin, Tsung-Yi

Computer Science > Computer Vision and Pattern Recognition

arXiv:2503.22020 (cs)

[Submitted on 27 Mar 2025]

Title:CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models

Authors:Qingqing Zhao, Yao Lu, Moo Jin Kim, Zipeng Fu, Zhuoyang Zhang, Yecheng Wu, Zhaoshuo Li, Qianli Ma, Song Han, Chelsea Finn, Ankur Handa, Ming-Yu Liu, Donglai Xiang, Gordon Wetzstein, Tsung-Yi Lin

View PDF HTML (experimental)

Abstract:Vision-language-action models (VLAs) have shown potential in leveraging pretrained vision-language models and diverse robot demonstrations for learning generalizable sensorimotor control. While this paradigm effectively utilizes large-scale data from both robotic and non-robotic sources, current VLAs primarily focus on direct input--output mappings, lacking the intermediate reasoning steps crucial for complex manipulation tasks. As a result, existing VLAs lack temporal planning or reasoning capabilities. In this paper, we introduce a method that incorporates explicit visual chain-of-thought (CoT) reasoning into vision-language-action models (VLAs) by predicting future image frames autoregressively as visual goals before generating a short action sequence to achieve these goals. We introduce CoT-VLA, a state-of-the-art 7B VLA that can understand and generate visual and action tokens. Our experimental results demonstrate that CoT-VLA achieves strong performance, outperforming the state-of-the-art VLA model by 17% in real-world manipulation tasks and 6% in simulation benchmarks. Project website: this https URL

Comments:	Project website: this https URL
Subjects:	Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI); Machine Learning (cs.LG); Robotics (cs.RO)
Cite as:	arXiv:2503.22020 [cs.CV]
	(or arXiv:2503.22020v1 [cs.CV] for this version)
	https://doi.org/10.48550/arXiv.2503.22020
Journal reference:	CVPR 2025

Submission history

From: Qingqing Zhao [view email]
[v1] Thu, 27 Mar 2025 22:23:04 UTC (20,341 KB)

Computer Science > Computer Vision and Pattern Recognition

Title:CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computer Vision and Pattern Recognition

Title:CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators