J'interviens souvent auprès d'équipes produit et techniques qui se demandent : faut-il embarquer l'IA directement sur le mobile ou appeler une API cloud ? C'est une question pratique et stratégique — elle touche l'expérience utilisateur, l'architecture, les coûts, la vie privée et même la roadmap commerciale. Dans cet article je partage une checklist technique et les impacts produit que j'ai observés en travaillant sur des applis mobiles et des prototypes IA, pour vous aider à décider en conscience.

Pourquoi la question est importante

La montée des modèles optimisés pour mobile (Core ML, TensorFlow Lite, ONNX Runtime Mobile, Qualcomm Hexagon, Apple Neural Engine, etc.) rend l'option embarquée viable là où il y a quelques années seule l'API cloud était possible. Mais "possible" ne veut pas dire "souhaitable". Choisir entre IA embarquée et API cloud change :

  • la latence et la fluidité de l'expérience;
  • la confidentialité des données des utilisateurs;
  • la charge infrastructurelle et les coûts récurrents;
  • la complexité de mise à jour et de maintenance;
  • les contraintes de taille binaire et de consommation énergétique sur l'appareil.
  • Checklist technique : critères à évaluer

    Avant de trancher, posez-vous les questions suivantes — je les utilise comme grille d'analyse lors des audits techniques.

    Performance et latence

  • Le cas d'usage nécessite-t-il une réponse en temps réel (ex : reconnaissance vocale pour commandes, AR, retouches image instantanées) ? Si oui, l'IA embarquée réduit drastiquement la latence et fonctionne sans réseau.
  • Les flous réseau sont-ils fréquents chez vos utilisateurs (zones rurales, transports, international) ? Si l'app doit rester fiable hors ligne, privilégiez l'embarquée.
  • Confidentialité et réglementation

  • Travaillez-vous avec des données sensibles (santé, finance, voix, texte privé) ? Mettre le modèle sur l'app peut éviter des transferts de données vers le cloud et simplifier la conformité GDPR/PDPA.
  • L'anonymisation côté client est-elle suffisante ? Parfois un traitement local suivi d'envoi d'objets non sensibles est le meilleur compromis.
  • Taille du modèle et contraintes matérielles

  • Quelle est la taille du modèle nécessaire pour atteindre une qualité acceptable ? Les modèles LLMs classiques sont trop lourds pour beaucoup de mobiles, mais des distillations ou modèles quantifiés (INT8, INT4) peuvent tenir.
  • Sur quelle gamme d'appareils voulez-vous supporter l'app (flagships uniquement ou aussi anciens modèles) ? Le support d'un large éventail implique des optimisations supplémentaires.
  • Consommation énergétique et UX

  • Les inférences intensives drainent la batterie et chauffent l'appareil — impact sur le taux de rétention. Avez-vous testé la charge CPU/GPU et l'autonomie ?
  • Est-ce que l'activation du traitement local est optionnelle (par ex. "mode basse consommation" ou "traitement cloud" en settings) ?
  • Mise à jour, itération et sécurité

  • À quelle fréquence pensez-vous améliorer le modèle ? Les API cloud permettent des déploiements centralisés et itératifs sans mise à jour client. L'embarqué nécessite des mécanismes de mise à jour du modèle (OTAs, téléchargement de payloads).
  • Quels mécanismes anti-tamper et d'intégrité du modèle sont requis pour protéger la propriété intellectuelle ?
  • Coûts et scalabilité

  • Analysez le coût total : coûts d'entraînement, coût d'hébergement des APIs (prédictibilité des demandes), coût des tests et des déploiements mobiles (taille, complexité). Pour un volume élevé d'inférences, l'embarquée peut réduire la facture cloud.
  • Mais attention : coûts initiaux d'ingénierie pour optimiser et quantifier les modèles peuvent être élevés.
  • Expérience produit et différenciation

  • L'IA locale peut offrir des expériences uniques (fonctionnement hors-ligne, latence ultra-faible, confidentialité promue). C'est un argument marketing et un vecteur de confiance.
  • En revanche, les API cloud permettent de proposer rapidement de nouvelles fonctionnalités IA sans forcer l'utilisateur à télécharger une nouvelle version d'app.
  • Table comparative (simplifiée)

    IA embarquée (on-device) API Cloud
    Latence Très faible (local) Dépend du réseau, généralement plus élevé
    Confidentialité Meilleure (données restent sur l'appareil) Nécessite chiffrement et conformité
    Coût Coûts initiaux plus élevés, moins de coût récurrent Coûts récurrents (requests), infrastructure dynamique
    Mise à jour Plus contraignante (versions, OTA) Simple et instantané côté serveur
    Complexité d'ingénierie Optimisations device-specific Gestion backend/scale

    Cas concrets et retours d'expérience

    Voici quelques scénarios où j'ai vu l'option embarquée l'emporter :

  • Une app de retouche photo pro qui applique des filtres basés sur un modèle de segmentation : le traitement local offre une prévisualisation instantanée et fonctionne en atelier photo sans réseau.
  • Un assistant vocal pour dispositifs médicaux portables : la confidentialité et la latence imposent le traitement sur l'appareil.
  • Un outil de traduction instantanée en déplacement : l'usage hors-ligne et la rapidité rendent l'embarquée indispensable pour une expérience fluide.
  • À l'inverse, l'API cloud a été préférable quand :

  • Le modèle évolue très vite (p.ex. LLMs avec sorties qualitatives) et l'équipe veut itérer sans forcer les utilisateurs à faire des MAJ régulières.
  • Le coût de développement pour optimiser et quantifier un modèle pour plusieurs devices dépasse le budget — externaliser via un fournisseur cloud (OpenAI, Google Vertex AI, AWS SageMaker) permet une mise sur le marché rapide.
  • Alternatives et compromis

    Il n'y a pas souvent une solution "pure". Les architectures hybrides sont fréquentes :

  • Mode dégradé : inference locale pour les interactions rapides, bascule vers cloud pour les requêtes complexes ou quand une connexion est disponible.
  • Split-processing : pré-traitement local (extraction de features) puis envoi d'un vecteur compressé vers le cloud pour une analyse poussée.
  • Edge-cloud orchestration : synchronisation périodique des modèles entre cloud et devices pour avoir des modèles relativement à jour sans updates fréquentes d'app.
  • Checklist pratique avant de décider

  • Cartographiez les user journeys où l'IA intervient — notez latence tolérée et sensibilité des données.
  • Mesurez la distribution des devices et réalisez des benchmarks d'inférence sur cibles représentatives.
  • Estimatez les coûts RL (réseau, infra cloud) vs coût d'ingénierie pour optimisation on-device.
  • Planifiez le mécanisme de mise à jour des modèles si vous optez pour l'embarquée (OTAs, delta updates, feature flags).
  • Testez l'impact sur batterie et température en conditions réelles d'usage.
  • Préparez un plan de fallback (ex : bascule cloud si device non supporté).
  • Consultez vos constraints légales (data residency, consentements) — un juriste peut transformer la décision.
  • Choisir entre IA embarquée et API cloud n'est pas une décision purement technique : c'est une décision produit qui influence la perception, la confiance et la viabilité commerciale de votre application. J'aime partir de la promesse utilisateur (quelle expérience voulez-vous tenir ?) avant de regarder l'implémentation. Si vous voulez, je peux vous aider à évaluer votre cas concret et construire une matrice décisionnelle adaptée à votre roadmap.