Inteligencia Artificial 5 min lectura
Cómo Tomofun bajó costos de inferencia de modelos vision-language con Inferentia2
Tomofun, creadora de la cámara Furbo, migró sus cargas de inferencia de modelos vision-language desde instancias GPU hacia EC2 Inf2 con AWS Inferentia2. La estrategia combinó compilación modular con el Neuron SDK y un diseño que permite alternar entre GPU e Inferentia2 sin cambiar la API.