Qwen3.5-Omni: Relatório Técnico Revela Capacidades Multimodais Avançadas
Qwen3.5-Omni é um modelo multimodal de grande escala com centenas de bilhões de parâmetros que processa nativamente texto, áudio, imagens e vídeo dentro de uma arquitetura unificada. O modelo suporta um comprimento de contexto de 256k tokens para lidar de forma contínua com até 10 horas de áudio ou 400 segundos de vídeo em alta definição em tempo real. Ele aproveita um framework Hybrid Attention Mixture of Experts, juntamente com uma técnica dinâmica de alignment chamada ARIA, para gerar síntese de fala multilíngue altamente stable e com nuances emocionais, com latência mínima.
Avalie este artigo:
Compartilhar:
- Categoria
- CEVIU IA
- Publicado
- 22 de abril de 2026
- Fonte
- CEVIU IA
