O algoritmo TurboQuant mantém a precisão dos modelos e pode reduzir drasticamente as exigências de infraestrutura - dos centros de dados aos dispositivos dos utilizadores
A Google Research anunciou o TurboQuant, um algoritmo inovador de compressão de memória para inteligência artificial que promete aumentar de forma significativa a eficiência dos sistemas de IA. Baseado em quantização vetorial, este novo método permite diminuir a quantidade de memória RAM necessária para executar IA sem sacrificar o desempenho.
O TurboQuant enfrenta um dos principais desafios dos sistemas de IA atuais: as elevadas necessidades de memória durante a execução de tarefas. Ao recorrer aos métodos PolarQuant e QJL, o algoritmo consegue reduzir para um sexto o volume de memória de trabalho, o KV-cache. Esta descoberta pode tornar a IA mais acessível e menos dispendiosa de operar.
Segundo os investigadores, o TurboQuant não só reduz o consumo de memória como também preserva a precisão dos resultados produzidos pela IA. Isto é particularmente relevante em tarefas que exigem o processamento, em tempo real, de grandes volumes de dados.
Se o TurboQuant vier a ser implementado com sucesso, poderá representar um passo importante no desenvolvimento da IA. A diminuição das exigências de memória permitirá utilizar IA em dispositivos menos potentes e também cortar custos de infraestrutura. No entanto, por agora, a tecnologia continua a ser um avanço de laboratório e ainda não teve aplicação em larga escala.
Alguns especialistas já estão a comparar o TurboQuant com o algoritmo fictício de compressão da série «Silicon Valley», bem como com o modelo chinês DeepSeek, que demonstrou elevada eficiência com custos de treino baixos.
A Google planeia apresentar o TurboQuant na conferência ICLR 2026, onde serão descritos em detalhe os métodos PolarQuant e QJL que sustentam o algoritmo.
Comentários
Ainda não há comentários. Seja o primeiro!
Deixar um comentário