#blip

Cómo Tomofun bajó costos de inferencia de modelos vision-language con Inferentia2

Tomofun, creadora de la cámara Furbo, migró sus cargas de inferencia de modelos vision-language desde instancias GPU hacia EC2 Inf2 con AWS Inferentia2. La estrategia combinó compilación modular con el Neuron SDK y un diseño que permite alternar entre GPU e Inferentia2 sin cambiar la API.

7 de mayo de 2026