Octo

Modelactive

Octo is an open-source generalist robot policy developed by UC Berkeley, Stanford, Google DeepMind. Published at RSS 2024. A transformer-based diffusion policy trained on 800k trajectories from Open X-Embodiment (25 datasets, ~1.2TB). Three sizes: Octo-Tiny (10M), Octo-Small (27M), Octo-Base (93M params). Uses block-wise masked transformer with CNN patch encoders, accepts RGB + language + goal images, outputs 4-step action chunks via diffusion head. Zero-shot outperforms RT-1-X by +29%. Finetuning achieves 72% avg success vs 20% from scratch. Open-source under MIT License.