Figure AI apresenta Helix e avança na autonomia dos robôs humanoides

A IA Helix da Figure AI transforma a robótica com um sistema de arquitetura dupla, permitindo que robôs humanoides compreendam comandos em linguagem natural e manipulem objetos desconhecidos sem necessidade de treinamento prévio. O modelo VLA integra percepção e controle, facilitando ações em tempo real.

Os robôs humanoides estão passando por uma revolução com a ajuda da inteligência artificial. A startup Figure AI desenvolveu uma arquitetura de IA de sistema duplo, que permite aos robôs interpretar comandos em linguagem natural e manipular objetos desconhecidos sem treinamento prévio. Essa inovação promete transformar o setor de robótica.

Arquitetura de Sistema Duplo da IA Helix

A arquitetura de sistema duplo da IA Helix representa um avanço significativo na robótica. Este sistema é composto por dois componentes principais: o “Sistema 2”, um modelo de visão-linguagem com 7 bilhões de parâmetros, e o “Sistema 1”, uma política visuomotora com 80 milhões de parâmetros.

Juntos, esses sistemas espelham a cognição humana, permitindo que os robôs compreendam comandos complexos e realizem ações precisas.

O “Sistema 2” é responsável por interpretar dados de linguagem e visão, atualizando seu estado até 9 vezes por segundo. Ele lida com o entendimento de alto nível, essencial para tarefas estruturais e complexas.

Já o “Sistema 1” traduz essas instruções em movimentos físicos precisos a uma taxa de 200Hz, garantindo respostas rápidas e eficientes.

Essa combinação permite que os robôs Helix realizem tarefas sem a necessidade de programação específica para cada ação.

A capacidade de generalização torna esses robôs mais adaptáveis, possibilitando que operem em ambientes desconhecidos e com objetos que nunca encontraram antes, sem exigir atualizações constantes de sistema ou treinamento adicional.

Generalização e Controle em Tempo Real

A capacidade de generalização e controle em tempo real dos robôs Helix é um marco na robótica. Graças ao modelo de Visão-Linguagem-Ação (VLA) desenvolvido pela Figure AI, os robôs podem unificar percepção, compreensão de linguagem e controle aprendido, permitindo-lhes operar com eficiência em novos cenários.

O modelo VLA é capaz de controlar todo o corpo superior de um robô humanoide a 200Hz, incluindo movimentos individuais dos dedos, posições dos pulsos, orientação do tronco e direção da cabeça.

Essa precisão é fundamental para realizar tarefas complexas sem a necessidade de ajustes específicos para cada tarefa ou objeto.

Além disso, a arquitetura permite a colaboração entre robôs em tempo real, mesmo quando enfrentam objetos desconhecidos.

Isso é possível porque o sistema processa dados de fala e visão simultaneamente, facilitando a tomada de decisões complexas e a execução de ações motoras precisas, sem depender de ajustes de pesos de rede neural para comportamentos específicos.

Exit mobile version