Vous n'avez pas de GPU ? Aucun problème. IAIO Agent Call peut fonctionner en mode CPU-only avec des modèles optimisés pour une expérience fluide, même sur infrastructure standard.
Grâce à l'optimisation des modèles et à l'utilisation de bibliothèques CPU-efficientes, IAIO délivre des performances solides même sans accélération GPU.
Nous utilisons des versions quantifiées (4-bit, 8-bit) des modèles LLM et audio, réduisant leur empreinte mémoire de 75% sans perte significative de qualité.
IAIO s'appuie sur llama.cpp, Whisper.cpp et Piper TTS — des moteurs conçus pour une inférence rapide sur CPU avec instructions AVX2/AVX-512.
Le traitement audio, l'inférence LLM et la synthèse vocale s'exécutent en parallèle sur différents threads CPU, maximisant l'utilisation des ressources.
IAIO ajuste dynamiquement la taille des batchs et le nombre de threads selon la charge CPU disponible, évitant la saturation.
Choisissez la configuration adaptée à votre volume d'appels simultanés en mode CPU-only.
| Configuration | CPU | RAM | Appels Simultanés | Latence Moyenne | Usage |
|---|---|---|---|---|---|
| Entry / Dev | 4-6 cores Intel i5 / AMD Ryzen 5 |
16 GB DDR4 | 1-3 | 1.5 - 2.5s | Tests, POC, démo |
| Standard RECOMMANDÉ | 8-12 cores Intel i7/i9 / AMD Ryzen 7/9 |
32 GB DDR4/5 | 4-8 | 800ms - 1.5s | PME, petit call center |
| Performance | 16+ cores AMD EPYC / Intel Xeon |
64 GB DDR4/5 ECC | 8-12 | 600ms - 1s | Volume moyen, production |
| Enterprise CPU | 32+ cores Dual CPU Xeon/EPYC |
128 GB+ DDR5 ECC | 12-20 | 500ms - 800ms | Grand volume sans GPU |
Astuce : Activez les instructions AVX2/AVX-512 dans le BIOS pour améliorer les performances CPU de 30-50%.
Notre conseil : Commencez en CPU-only pour valider votre use case. Ajoutez un GPU plus tard si vous montez en volume ou si la latence devient critique.
Maximisez les performances de votre installation CPU-only avec ces bonnes pratiques.
Utilisez des modèles en Q4_K_M ou Q8_0 pour réduire l'usage RAM de 75% tout en conservant 95% de la qualité.
Configurez un swap SSD rapide (NVMe) de 16-32GB pour éviter les crashes mémoire lors de pics de charge.
Définissez --n-threads à 75% du nombre de cores physiques pour laisser de la marge au système.
Activez le cache de contexte KV pour réutiliser les calculs sur des conversations similaires, réduisant l'inférence de 40%.
Placez Asterisk et IAIO sur le même serveur ou VLAN pour minimiser la latence réseau RTP.
Maintenez llama.cpp et les drivers CPU à jour pour bénéficier des optimisations de performance récentes.
Téléchargez notre guide d'installation CPU-only ou contactez-nous pour un sizing personnalisé de votre infrastructure.