sábado,23 novembro, 2024

Assista a um robô navegando pelos escritórios do Google DeepMind usando o Gemini

A IA generativa já demonstrou ser muito promissora em robôs. As aplicações incluem interações de linguagem natural, aprendizado de robôs, programação sem código e até mesmo design. A equipe DeepMind Robotics do Google está apresentando esta semana outro ponto ideal em potencial entre as duas disciplinas: navegação.

Em um artigo intitulado “Mobility VLA: Multimodal Instruction Navigation with Long-Context VLMs and Topological Graphs”, a equipe demonstra como implementou o Google Gemini 1.5 Pro para ensinar um robô a responder a comandos e navegar por um escritório. Naturalmente, a DeepMind usou alguns dos Every Day Robots que estavam por aí desde que o Google encerrou o projeto em meio a demissões generalizadas no ano passado .

Em uma série de vídeos anexados ao projeto, os funcionários da DeepMind abrem com um “OK, robô” no estilo assistente inteligente, antes de pedir ao sistema para executar diferentes tarefas no espaço de escritório de 830 metros quadrados.

Em um exemplo, um Googler pede ao robô para levá-lo a algum lugar para desenhar coisas. “OK”, o robô responde, usando uma gravata borboleta amarela alegre, “me dê um minuto. Pensando com Gêmeos…” O robô então prossegue para levar o humano a um quadro branco do tamanho de uma parede. Em um segundo vídeo, uma pessoa diferente diz ao robô para seguir as instruções no quadro branco.

Um mapa simples mostra ao robô como chegar à “Área Azul”. Novamente, o robô pensa por um momento antes de tomar uma longa rota para o que acaba sendo uma área de testes de robótica. “Eu segui com sucesso as instruções no quadro branco”, o robô anuncia com um nível de autoconfiança que a maioria dos humanos só pode sonhar.

Antes desses vídeos, os robôs eram familiarizados com o espaço usando o que a equipe chama de “Multimodal Instruction Navigation with demonstration Tours (MINT)”. Efetivamente, isso significa andar com o robô pelo escritório enquanto aponta diferentes pontos de referência com a fala. Em seguida, a equipe utiliza a hierárquica Vision-Language-Action (VLA) para “combinar a compreensão do ambiente e o poder de raciocínio do senso comum”. Uma vez que os processos são combinados, o robô pode responder a comandos escritos e desenhados, bem como a gestos.

O Google diz que o robô teve uma taxa de sucesso de cerca de 90% em mais de 50 interações com funcionários.

Aquecedor Brian

LEIA MAIS

Recomendados