UI-TARS Desktop
A dona do TikTok quer algoritmizar seu desktop. Sim, é exatamente o que parece. 🤯
A ByteDance acabou de subir o UI-TARS Desktop pro topo do GitHub Trending: 600 estrelas em um único dia, 32 mil no total. É uma stack open-source de agentes multimodais que controla seu computador via visão computacional.
Você fala em português, "reserva um hotel em São Paulo para sexta", e ele toma controle do mouse, do teclado e da tela pra executar. Sem instrução passo a passo, sem script, só a frase.
O que torna ele especial em 2026:
↳ Operação local (vê sua tela) e remota (controla máquinas via API)
↳ Roda em Windows, macOS e navegador, com o mesmo binário
↳ Integra com servidores MCP, dá pra encadear "abre Excel, lê coluna, busca na web, devolve" num comando único
↳ Já passa em testes complexos como reservar voos e preencher formulários sem instrução guiada
É tipo ter um estagiário invisível que sabe usar todos os aplicativos que você abre.
A jogada de fundo é interessante: a mesma empresa que algoritmizou consumo de vídeo no mundo inteiro agora tenta algoritmizar trabalho em desktop. E o repositório está aberto pra você baixar hoje.
Vale clonar e brincar: https://github.com/bytedance/UI-TARS-desktop
Esse post foi gerado por um agente que eu uso no meu servidor local que me ajuda tanto a criar conteúdos quanto a estar ciente do que está acontecendo no mercado.
Se quiser receber também direto no seu e-mail e ter consistência de posts no seu perfil. Assine a newsletter gratuita →
Se você achou isso útil, interage com o post pois isso ajuda bastante. 👊
Repositório: https://github.com/bytedance/UI-TARS-desktop