IA Souveraine & AIOps

Déploiement de LLM locaux, intégration RAG et monitoring IA pour PME et DSI. Audit, POC et mise en production — sans dépendance cloud. Auteur de gguf-bench.com.

⏱️
Durée
1 à 5 jours
👥
Public
PME, DSI, Directions Innovation
📍
Format
Chartres et région, Paris ponctuellement, France entière en remote ou sur site selon projet
💰
Tarif sur devis

Points clés

Déploiement LLM souverains (llama.cpp, Ollama)
Audit de quantification — auteur de gguf-bench.com
POC RAG sur vos documents internes
Conformité RGPD — données qui ne quittent pas votre infrastructure
Monitoring IA avec Prometheus/Grafana

Déroulement de la prestation

1

Audit IA

Analyse de vos besoins, choix de modèles et de quantification, recommandation d'architecture

⏱️ 1 jour
2

Déploiement LLM

Installation et configuration llama.cpp/Ollama, tests de performance, mise en production

⏱️ 1-2 jours
3

POC RAG

Proof of concept d'intégration RAG sur vos documents internes

⏱️ 2-3 jours
4

Formation équipes

Usage opérationnel, prompting, limites des modèles — pour vos équipes IT et métier

⏱️ 1 jour

IA souveraine : ce que je fais concrètement

Mon assistant IA tourne dans mon sous-sol depuis 2023 — sur une GTX 1070 de 2017 et un Core i7. Ce n’est pas une démo : c’est un usage quotidien, sur du matériel que j’ai sous la main.

Ce que j’apporte à vos projets, c’est cette même logique : des LLM locaux qui fonctionnent sur votre infrastructure réelle, pas sur du GPU cloud de compétition.

Ce que je fais — et ce que je ne fais pas

Je fais :

  • Audit de vos besoins et sélection du bon modèle selon vos contraintes (GPU disponible, RAM, cas d’usage)
  • Déploiement et configuration llama.cpp sur votre infrastructure Linux, Proxmox, bare metal
  • Quantification et benchmark — je mesure la perte de précision avant de vous recommander un modèle
  • POC RAG sur vos documents internes : PDF, bases documentaires, manuels techniques
  • Monitoring IA : latence, débit, qualité des réponses (Prometheus/Grafana)
  • Formation de vos équipes à l’usage opérationnel et aux limites des modèles

Je ne fais pas :

  • Fine-tuning ni entraînement — je travaille avec les modèles existants, pas leur création
  • RAG en production clé en main — je livre des POC qualifiés que vos équipes prennent en charge
  • Développement applicatif front-end

Pourquoi me faire confiance sur l’IA

J’ai publié gguf-bench.com — un benchmark indépendant qui mesure la perte de précision réelle lors de la quantification des LLM. Cinq modèles, ~90 quantifications, cinq benchmarks par variante, méthodologie publique sous licence CC BY 4.0.

Quand je vous recommande un modèle ou un niveau de quantification, vous savez exactement d’où vient la recommandation.

Stack technique

Je travaille principalement avec llama.cpp — l’outil de référence pour le déploiement local, compatible CPU et GPU, excellent support de quantification GGUF.

Modèles selon les cas d’usage :

  • Qwen 3 (14B–35B) : très bon rapport performance/ressources, support multilingue
  • Mistral/Mixtral : performances solides sur les tâches en français
  • LLaMA 3.x : polyvalence générale
  • Phi-4 / Gemma 3 : pour les contraintes matérielles faibles

Le choix du modèle et du niveau de quantification dépend de votre matériel et de vos cas d’usage — c’est l’objet de l’audit.

Ce que ça change pour vous

  • Vos données ne quittent pas votre infrastructure — conformité RGPD sans effort particulier
  • Pas de facturation au token — coût prévisible sur le long terme
  • Vos équipes comprennent ce qu’elles utilisent — pas de boîte noire, transfert de compétences inclus

Comment ça se passe

1. Audit (1 jour) — Analyse de votre infrastructure, de vos cas d’usage et de vos contraintes. Je repars avec une recommandation de modèle, d’architecture et de planning.

2. Déploiement / POC (1 à 3 jours) — Installation, configuration, tests de performance sur votre matériel. Si RAG : ingestion d’un corpus documentaire de test et validation de la pertinence des réponses.

3. Transfert (1 jour) — Documentation, formation des équipes, runbook de maintenance.


Démarrons

Premiers échanges par email, réponse sous 24h ouvrées.

Demander un audit IA →

Intéressé par cette prestation ?

Discutons de votre projet et de vos besoins spécifiques