NVIDIA TensorRT facilita la cuantización de modelos FP8 para inferencia de alto rendimiento
NVIDIA ha actualizado su plataforma TensorRT para mejorar significativamente la optimización de modelos de IA. La nueva capacidad permite la cuantización de puntos de control (checkpoints) en formato FP8, transformando modelos de precisión flotante de 8 bits en motores de inferencia altamente eficientes.










