Comment évaluer l'impact des prompts gpt sur la qualité des recommandations produit

Quand j'ai commencé à intégrer des modèles GPT dans des systèmes de recommandation produit, la question qui revenait sans cesse était simple : est-ce que le changement de prompt améliore réellement la qualité des recommandations ? Après plusieurs expérimentations, métriques et retours utilisateurs, j'ai construit une méthodologie pragmatique pour évaluer l'impact des prompts sur la pertinence, la diversité et la confiance des recommandations. Je partage ici ce que j'applique au quotidien, avec des recettes actionnables et des indicateurs concrets.

Pourquoi le prompt matterait pour des recommandations produit ?

On a tendance à séparer deux mondes : les systèmes de recommandation traditionnels (collaboratif, contenu, embeddings) et les modèles de langage génératifs. Pourtant, les GPT sont utiles à plusieurs niveaux : reformuler une requête utilisateur, enrichir des profils, générer des descriptions produits adaptées au contexte, ou filtrer et ordonner une liste initiale. Le prompt définit le contexte, la contrainte et le style de sortie — autant d'éléments qui influencent directement ce que l'utilisateur verra.

Questions clés auxquelles répondre avant d'expérimenter

Quel objectif métier visé ? (conversion, temps passé, découverte, satisfaction)

Quel focus qualité ? (pertinence strictement mesurée, diversité, nouveautés, explicabilité)

Le modèle remplace-t-il ou s'ajoute-t-il à une pipeline existante ?

Les prompts risquent-ils d'introduire des hallucinations ou des biais ?

Métriques à suivre — opérationnelles et UX

J'observe toujours un mélange de métriques offline et comportementales :

Precision@K / Recall@K — mesure classique pour savoir si les top-K recommandés correspondent aux attentes historiques.

Mean Reciprocal Rank (MRR) — utile si vous avez des cibles uniques (item acheté/cliquer).

Normalized Discounted Cumulative Gain (nDCG) — prend en compte le rang et la pertinence.

Diversité / Novelty — part importante si l'objectif est la découverte (p. ex. diversité de catégories, marques).

Taux de clics (CTR) & Conversion — métriques comportementales qui valident l'impact produit réel.

Taux de satisfaction explicite — sondages in-situ, étoiles, ou NPS produit après recommandation.

Taux d'hallucination / erreurs factuelles — capital si le modèle enrichit les fiches produits ou décrit des caractéristiques.

Temps de réponse et coût token — contraintes opérationnelles à ne pas négliger.

Design d'une expérience pour isoler l'effet du prompt

Isoler l'impact d'un prompt exige rigueur. Voici le protocole que j'utilise :

1) Définir une baseline stable (pipeline actuelle sans LLM ou avec prompt A).

2) Choisir un ensemble de prompts candidates (par exemple : prompt A — instructif, prompt B — concis, prompt C — orienté découverte).

3) Construire un dataset de test offline représentatif (logs anonymisés, scénarios réels, profils variés).

4) Mesurer les métriques offline (precision@K, nDCG, diversité) sur ces prompts.

5) Déployer en A/B/n testing en production pour mesurer CTR, conversion et satisfaction utilisateur.

6) Faire des tests qualitatifs (sessions d'usabilité, interviews) pour capter les biais non mesurés.

Exemples de prompts et variations que j'ai testées

Voici des patterns concrets que j'expérimente souvent :

Prompt descriptif (long) : "Tu es un assistant e-commerce. Donne les 5 produits les plus pertinents pour un utilisateur qui recherche 'chaussures running légères', explique brièvement le pourquoi et mentionne les points forts."

Prompt concis (court) : "Top 5 chaussures running légères, ordre par pertinence."

Prompt orienté découverte : "Recommande 7 produits similaires mais diversifiés pour inspirer l'utilisateur, en mettant en avant marques et caractéristiques inattendues."

Prompt de contrainte (filtre) : "Ne propose que des produits entre 80 et 150 CHF et disponibles en livraison 48h."

La différence de style influence la liste, sa diversité et parfois l'introduction d'items inattendus — utiles pour la découverte mais potentiellement nuisibles si l'objectif est une conversion rapide.

Tableau synthétique des métriques par type d'objectif

Objectif	Métriques prioritaires	Risques
Conversion	Precision@K, CTR, Conversion rate	Surtaxer la pertinence au détriment de la diversité
Découverte	Diversité, Novelty, Time on product	Recommendations moins directement achetables
Confiance / Info	Taux d'hallucination, Satisfaction utilisateur	Erreurs factuelles sur produits

Mesures qualitatives : feedbacks et sessions

Les métriques quantitatives ne racontent pas toute l'histoire. J'organise toujours :

Des sessions de tri de cartes où des participants jugent la pertinence des listes générées par différents prompts.

Des micro-sondages post-reco : "Cette sélection vous semble-t-elle utile ?" (oui/non + pourquoi).

Des interviews pour comprendre si le langage du modèle aide ou perturbe la décision d'achat.

Limiter les effets indésirables : hallucinations et biais

Quand le LLM enrichit la recommandation (expliquer pourquoi tel produit), il peut inventer des caractéristiques. Pour contrer ça, j'utilise :

Un prompt qui force la provenance : "Ne mentionne que des caractéristiques confirmées par la fiche produit ou par le catalogue."

Un second modèle—vérificateur (fact-checker) qui compare la sortie aux données du produit (embeddings + recherche textuelle).

Des seuils de confiance : si la probabilité faible, on affiche une carte plus neutre ou on abstient la recommandation.

Itérations rapides : templates et A/B continu

Mon workflow favorise de petites itérations :

Créer une librairie de prompts versionnés (prompt_v1, prompt_v2...).

Automatiser les tests offline et l'entraînement des métriques mensuelles.

Lancer des A/B tests courts (2 à 4 semaines) pour valider les gains comportementaux.

Outils et implémentation pratique

J'utilise un mix

Embeddings + recherche vectorielle (Pinecone, Milvus) pour fournir le contexte au prompt.

OpenAI / Anthropic pour la génération ; parfois un modèle on-prem pour contraintes privacy.

Plateformes d'A/B testing (Optimizely, VWO) et analytics produit (Amplitude, Mixpanel) pour mesurer l'impact réel.

Une astuce pratique : séparer le job "générer la liste candidate" du job "rédiger les explications". On peut tester indépendamment le prompt qui ordonne vs celui qui commente.

Si vous voulez, je peux vous fournir un exemple de pipeline minimal (code pseudocode + prompts) pour reproduire ces tests sur votre catalogue et un template de tableau de bord pour suivre les métriques mentionnées.