Industry Landscape

Embodied AI Datasets

A collection of key datasets used for training embodied AI models, including robot manipulation and vision-language-action models.

Ecosystem Snapshot

Datasets

Benchmarks

Leading Datasets

BridgeData V2

BridgeData V2 is a large-scale robot manipulation dataset from UC Berkeley RAIL Lab with 60,000+ WidowX trajectories across diverse scenes for training generalist robot policies.

Habitat-Matterport 3D (HM3D)

Largest high-resolution dataset of real-world 3D indoor environments with 1,000 spaces covering 215 million m², designed as the backbone for embodied AI navigation and interaction research.

MineRL

Largest publicly available dataset of human demonstrations in Minecraft with 60+ million action frames, designed for sample-efficient imitation and reinforcement learning.

UniDexGrasp

Universal dexterous grasping dataset with 100K+ grasp proposals across 2,846 articulated objects, using a diffusion-based generative model for diverse grasp generation.

DexMV

Platform and dataset for dexterous manipulation using synchronized human video demonstrations and simulated Shadow Hand trajectories with 50+ object manipulation tasks.

HumanoidBench

First comprehensive benchmark for whole-body humanoid control with 30 standardized evaluation tasks combining locomotion and manipulation in MuJoCo simulation.

Leading Benchmarks

BEHAVIOR-1K

BEHAVIOR-1K is a comprehensive embodied AI benchmark with 1,000 everyday activities across 50 scenes and 9,000+ objects, built on the OmniGibson simulation environment for human-centered robotics research.

Industry Insights

This page aggregates the core open datasets that underpin embodied AI research and VLA model training. These datasets provide diverse, large-scale robot demonstration data spanning multiple robot embodiments, tasks, scenes, and environments.

Key datasets include Open X-Embodiment (1M+ episodes across 22 robot types), DROID (87K+ in-the-wild trajectories), and BridgeData (60K+ WidowX demonstrations for generalization research).

Embodied AI Datasets | EmbodiedHub