Large Navigation Model

Vision-Language-Action

Vision-Language-Action

NaVILA: Legged Robot Vision-Language-Action Model for Navigation, arXiv 2024. [Paper] [Website] [Code (Low Level)] [Code (VLN-CE-Isaac)] [UC San Diego]

Video Generation

NaVid: Video-based VLM Plans the Next Step for Vision-and-Language Navigation, RSS 2024. [Paper] [Website] [Video] [Code]
Uni-NaVid: A Video-based Vision-Language-Action Model for Unifying Embodied Navigation Tasks, arXiv 2024.12. [Paper] [Website] [He Wang, PKU]