Mode CPU-Only Activé

IAIO fonctionne sans carte GPU

Vous n'avez pas de GPU ? Aucun problème. IAIO Agent Call peut fonctionner en mode CPU-only avec des modèles optimisés pour une expérience fluide, même sur infrastructure standard.

Note importante : Le mode CPU-only est idéal pour les déploiements légers, les tests et les petits volumes. Pour 10+ appels simultanés, nous recommandons l'ajout d'un GPU pour optimiser la latence.
Voir les configurations CPU

Comment fonctionne IAIO sans GPU ?

Grâce à l'optimisation des modèles et à l'utilisation de bibliothèques CPU-efficientes, IAIO délivre des performances solides même sans accélération GPU.

1

Modèles Quantifiés

Nous utilisons des versions quantifiées (4-bit, 8-bit) des modèles LLM et audio, réduisant leur empreinte mémoire de 75% sans perte significative de qualité.

2

Moteurs CPU-Optimisés

IAIO s'appuie sur llama.cpp, Whisper.cpp et Piper TTS — des moteurs conçus pour une inférence rapide sur CPU avec instructions AVX2/AVX-512.

3

Pipeline Asynchrone

Le traitement audio, l'inférence LLM et la synthèse vocale s'exécutent en parallèle sur différents threads CPU, maximisant l'utilisation des ressources.

4

Auto-Scaling Intelligent

IAIO ajuste dynamiquement la taille des batchs et le nombre de threads selon la charge CPU disponible, évitant la saturation.

Configurations CPU Recommandées

Choisissez la configuration adaptée à votre volume d'appels simultanés en mode CPU-only.

Configuration CPU RAM Appels Simultanés Latence Moyenne Usage
Entry / Dev 4-6 cores
Intel i5 / AMD Ryzen 5
16 GB DDR4 1-3 1.5 - 2.5s Tests, POC, démo
Standard RECOMMANDÉ 8-12 cores
Intel i7/i9 / AMD Ryzen 7/9
32 GB DDR4/5 4-8 800ms - 1.5s PME, petit call center
Performance 16+ cores
AMD EPYC / Intel Xeon
64 GB DDR4/5 ECC 8-12 600ms - 1s Volume moyen, production
Enterprise CPU 32+ cores
Dual CPU Xeon/EPYC
128 GB+ DDR5 ECC 12-20 500ms - 800ms Grand volume sans GPU

Astuce : Activez les instructions AVX2/AVX-512 dans le BIOS pour améliorer les performances CPU de 30-50%.

CPU-Only vs GPU : Que choisir ?

Mode CPU-Only

  • Aucun investissement GPU requis
  • Déploiement rapide sur infrastructure existante
  • Idéal pour ≤ 8 appels simultanés
  • Consommation électrique réduite
  • Latence plus élevée (600ms-2.5s)
  • Limité en concurrence maximale

Avec GPU (Optionnel)

  • Latence ultra-faible (<500ms)
  • Jusqu'à 20-50 appels simultanés par GPU
  • Modèles plus grands et précis
  • Meilleur coût par minute à grande échelle
  • Investissement initial plus élevé
  • Consommation électrique accrue

Notre conseil : Commencez en CPU-only pour valider votre use case. Ajoutez un GPU plus tard si vous montez en volume ou si la latence devient critique.

Optimisations pour Mode CPU

Maximisez les performances de votre installation CPU-only avec ces bonnes pratiques.

Quantification des Modèles

Utilisez des modèles en Q4_K_M ou Q8_0 pour réduire l'usage RAM de 75% tout en conservant 95% de la qualité.

RAM Swap Optimisé

Configurez un swap SSD rapide (NVMe) de 16-32GB pour éviter les crashes mémoire lors de pics de charge.

Threads CPU

Définissez --n-threads à 75% du nombre de cores physiques pour laisser de la marge au système.

Cache de Contexte

Activez le cache de contexte KV pour réutiliser les calculs sur des conversations similaires, réduisant l'inférence de 40%.

Réseau Local

Placez Asterisk et IAIO sur le même serveur ou VLAN pour minimiser la latence réseau RTP.

Mises à Jour

Maintenez llama.cpp et les drivers CPU à jour pour bénéficier des optimisations de performance récentes.

Prêt à déployer IAIO en mode CPU ?

Téléchargez notre guide d'installation CPU-only ou contactez-nous pour un sizing personnalisé de votre infrastructure.