Cambrian-S: Towards Spatial Supersensing in Video

Mots clés générés par l'IA : Supersensibilisation spatiale Intelligence multimodale Paradigme de supersensibilisation Benchmark VSI-SUPER Sensation prédictive

Points clés générés par l'IA

Le progrès vers une véritable intelligence multimodale nécessite un changement de systèmes réactifs axés sur les tâches et de longs contextes par la force brute vers un paradigme plus large de supersensibilisation.
Les quatre étapes de la cognition multimodale sont : perception sémantique, cognition des événements en continu, cognition spatiale implicite en 3D et modélisation prédictive du monde.
Les benchmarks actuels testent principalement les premières étapes de la cognition multimodale, offrant une couverture limitée de la cognition spatiale.
Pour faire avancer la cognition multimodale, les auteurs présentent VSI-SUPER, un benchmark en deux parties : VSR et VSC.
Les performances sur VSI-SUPER restent limitées malgré l'échelle des données, indiquant que l'échelle seule n'est pas suffisante pour progresser dans ce domaine.
La voie à suivre est d'utiliser un prédicteur auto-supervisé du prochain cadre latent qui utilise la surprise pour stimuler la mémoire et segmenter les événements.
Voici la traduction en français :
Le progrès vers une véritable intelligence multimodale nécessite un changement de systèmes réactifs axés sur les tâches et de longs contextes par la force brute vers un paradigme plus large de supersensibilisation.
Les quatre étapes de la cognition multimodale sont : perception sémantique, cognition des événements en continu, cognition spatiale implicite en 3D et modélisation prédictive du monde.
Les benchmarks actuels testent principalement les premières étapes de la cognition multimodale, offrant une couverture limitée de la cognition spatiale.
Pour faire avancer la cognition multimodale, les auteurs présentent VSI-SUPER, un benchmark en deux parties : VSR et VSC.
Les performances sur VSI-SUPER restent limitées malgré l'échelle des données, indiquant que l'échelle seule n'est pas suffisante pour progresser dans ce domaine.
La voie à suivre est d'utiliser un prédicteur auto-supervisé du prochain cadre latent qui utilise

Accédez également à nos autres résultats générés par IA : Résumé complet, Résumé vulgarisé, Article de type blog; ou posez des questions sur cet article à notre Assistant IA.

Auteurs : Shusheng Yang, Jihan Yang, Pinzhi Huang, Ellis Brown, Zihao Yang, Yue Yu, Shengbang Tong, Zihan Zheng, Yifan Xu, Muhan Wang, Daohan Lu, Rob Fergus, Yann LeCun, Li Fei-Fei, Saining Xie

arXiv: 2511.04670v1 - DOI (cs.CV)

Website: https://cambrian-mllm.github.io/

Licence : CC BY 4.0

Résumé : We argue that progress in true multimodal intelligence calls for a shift from reactive, task-driven systems and brute-force long context towards a broader paradigm of supersensing. We frame spatial supersensing as four stages beyond linguistic-only understanding: semantic perception (naming what is seen), streaming event cognition (maintaining memory across continuous experiences), implicit 3D spatial cognition (inferring the world behind pixels), and predictive world modeling (creating internal models that filter and organize information). Current benchmarks largely test only the early stages, offering narrow coverage of spatial cognition and rarely challenging models in ways that require true world modeling. To drive progress in spatial supersensing, we present VSI-SUPER, a two-part benchmark: VSR (long-horizon visual spatial recall) and VSC (continual visual spatial counting). These tasks require arbitrarily long video inputs yet are resistant to brute-force context expansion. We then test data scaling limits by curating VSI-590K and training Cambrian-S, achieving +30% absolute improvement on VSI-Bench without sacrificing general capabilities. Yet performance on VSI-SUPER remains limited, indicating that scale alone is insufficient for spatial supersensing. We propose predictive sensing as a path forward, presenting a proof-of-concept in which a self-supervised next-latent-frame predictor leverages surprise (prediction error) to drive memory and event segmentation. On VSI-SUPER, this approach substantially outperforms leading proprietary baselines, showing that spatial supersensing requires models that not only see but also anticipate, select, and organize experience.

Soumis à arXiv le 06 Nov. 2025

Posez des questions sur cet article à notre assistant IA

Vous pouvez aussi discutez avec plusieurs papiers à la fois ici.

Instructions pour utiliser l'assistant IA ?

Résultats du processus de synthèse de l'article arXiv : 2511.04670v1

Résumé Complet
Points clés
Résumé vulgarisé
Article de blog

Dans cet article, les auteurs argumentent que le progrès vers une véritable intelligence multimodale nécessite un changement de systèmes réactifs axés sur les tâches et de longs contextes par la force brute vers un paradigme plus large de supersensibilisation. Ils définissent la comme quatre étapes au-delà de la compréhension uniquement linguistique : la perception sémantique (nommer ce qui est vu), la cognition des événements en continu (maintenir la mémoire à travers des expériences continues), la cognition spatiale implicite en 3D (inférer le monde derrière les pixels) et la modélisation prédictive du monde (créer des modèles internes qui filtrent et organisent l'information). Les benchmarks actuels testent principalement les premières étapes, offrant une couverture limitée de la cognition spatiale et ne mettant que rarement les modèles au défi de manière à nécessiter une véritable modélisation du monde. Pour faire avancer la , les auteurs présentent VSI-SUPER, un benchmark en deux parties : VSR (rappel spatial visuel à long terme) et VSC (comptage spatial visuel continu). Ces tâches nécessitent des entrées vidéo arbitrairement longues mais résistent à l'expansion du contexte par la force brute. Ensuite, ils testent les limites d'échelle des données en créant VSI-590K et en entraînant Cambrian-S, obtenant une amélioration absolue de +30% sur VSI-Bench sans sacrifier les capacités générales. Cependant, les performances sur VSI-SUPER restent limitées, indiquant que l'échelle seule n'est pas suffisante pour la . Les auteurs proposent alors la comme voie à suivre, présentant une preuve de concept dans laquelle un prédicteur auto-supervisé du prochain cadre latent utilise la surprise (erreur de prédiction) pour stimuler la mémoire et segmenter les événements. Sur VSI-SUPER, cette approche surpasse largement les baselines propriétaires leaders, montrant que la exige des modèles qui non seulement voient mais anticipent également, sélectionnent et organisent l'expérience.

- Le progrès vers une véritable intelligence multimodale nécessite un changement de systèmes réactifs axés sur les tâches et de longs contextes par la force brute vers un paradigme plus large de supersensibilisation.
- Les quatre étapes de la cognition multimodale sont : perception sémantique, cognition des événements en continu, cognition spatiale implicite en 3D et modélisation prédictive du monde.
- Les benchmarks actuels testent principalement les premières étapes de la cognition multimodale, offrant une couverture limitée de la cognition spatiale.
- Pour faire avancer la cognition multimodale, les auteurs présentent VSI-SUPER, un benchmark en deux parties : VSR et VSC.
- Les performances sur VSI-SUPER restent limitées malgré l'échelle des données, indiquant que l'échelle seule n'est pas suffisante pour progresser dans ce domaine.
- La voie à suivre est d'utiliser un prédicteur auto-supervisé du prochain cadre latent qui utilise la surprise pour stimuler la mémoire et segmenter les événements.
Voici la traduction en français :
- Le progrès vers une véritable intelligence multimodale nécessite un changement de systèmes réactifs axés sur les tâches et de longs contextes par la force brute vers un paradigme plus large de supersensibilisation.
- Les quatre étapes de la cognition multimodale sont : perception sémantique, cognition des événements en continu, cognition spatiale implicite en 3D et modélisation prédictive du monde.
- Les benchmarks actuels testent principalement les premières étapes de la cognition multimodale, offrant une couverture limitée de la cognition spatiale.
- Pour faire avancer la cognition multimodale, les auteurs présentent VSI-SUPER, un benchmark en deux parties : VSR et VSC.
- Les performances sur VSI-SUPER restent limitées malgré l'échelle des données, indiquant que l'échelle seule n'est pas suffisante pour progresser dans ce domaine.
- La voie à suivre est d'utiliser un prédicteur auto-supervisé du prochain cadre latent qui utilise

SummaryProgress towards true multimodal intelligence involves shifting from reactive task-focused systems and long contexts through brute force to a broader paradigm of super-awareness. The four stages of multimodal cognition are semantic perception, continuous event cognition, implicit 3D spatial cognition, and predictive world modeling. Current benchmarks mainly test the early stages of multimodal cognition, with limited coverage of spatial cognition. To advance multimodal cognition, the authors introduce VSI-SUPER, a two-part benchmark: VSR and VSC. Despite large-scale data, performance on VSI-SUPER remains limited, indicating that scale alone is not sufficient for progress in this field. The way forward involves using a self-supervised predictor of the next latent frame that uses surprise to enhance memory and segment events. Definitions- Multimodal intelligence: The ability to understand and interact with information from multiple sources or modalities. - Cognition: The mental action or process of acquiring knowledge and understanding through thought, experience, and the senses. - Benchmark: A standard or point of reference against which things may be compared or assessed. - Spatial cognition: Mental processes involved in understanding spatial relationships between objects. - Predictor: Something that foretells or indicates what is to come in the future. - Latent: Existing but not yet developed or manifest; hidden or concealed. Translated into FrenchRésumé Le progrès vers une véritable intelligence multimodale implique de passer des systèmes réactifs axés sur les t

Dans cet article, les auteurs présentent leur recherche sur l'intelligence multimodale et la nécessité d'un changement de paradigme pour atteindre une véritable compréhension du monde. Ils soulignent que les systèmes actuels sont axés sur des tâches spécifiques et ne prennent pas en compte le contexte à long terme, ce qui limite leur capacité à comprendre pleinement le monde qui les entoure. Les auteurs définissent la « cognition spatiale » comme un processus en quatre étapes au-delà de la simple compréhension linguistique : la perception sémantique (nommer ce qui est vu), la cognition des événements en continu (maintenir la mémoire à travers des expériences continues), la cognition spatiale implicite en 3D (inférer le monde derrière les pixels) et la modélisation prédictive du monde (créer des modèles internes qui filtrent et organisent l'information). Selon eux, ces étapes sont essentielles pour une intelligence multimodale complète. Cependant, les benchmarks actuels utilisés pour évaluer les performances des modèles ne testent généralement que les premières étapes de cette cognition spatiale. Cela signifie qu'ils offrent une couverture limitée de l'intelligence multimodale réelle et ne mettent pas suffisamment au défi les modèles pour qu'ils aient besoin d'une véritable compréhension du monde. Pour remédier à cela, les auteurs ont créé VSI-SUPER, un benchmark en deux parties : VSR (rappel spatial visuel à long terme) et VSC (comptage spatial visuel continu). Ces tâches nécessitent des entrées vidéo de longue durée et résistent à l'expansion du contexte par la force brute. En utilisant ce benchmark, ils ont entraîné un modèle appelé Cambrian-S sur une échelle de données plus grande (VSI-590K), obtenant ainsi une amélioration significative (+30%) des performances sans sacrifier les capacités générales. Cependant, malgré ces progrès, les performances sur VSI-SUPER restent limitées, montrant que l'échelle seule n'est pas suffisante pour atteindre une véritable intelligence multimodale. Cela a conduit les auteurs à proposer la « cognition événementielle » comme une voie à suivre. Ils présentent un concept dans lequel un prédicteur auto-supervisé utilise la surprise (erreur de prédiction) pour stimuler la mémoire et segmenter les événements. Sur VSI-SUPER, cette approche a surpassé largement les modèles existants leaders en termes de performances, démontrant ainsi que pour atteindre une véritable intelligence multimodale, il est nécessaire d'avoir des modèles qui non seulement voient mais anticipent également, sélectionnent et organisent l'expérience.

Créé le 11 Nov. 2025

Évaluez la qualité du contenu généré par l'IA en votant

Note : 0

Cambrian-S: Towards Spatial Supersensing in Video

Points clés générés par l'IA

Posez des questions sur cet article à notre assistant IA

Résultats du processus de synthèse de l'article arXiv : 2511.04670v1

Articles similaires résumés avec nos outils d'IA