IA Souveraine & AIOps

Déploiement de LLM locaux, intégration RAG et monitoring IA pour PME et DSI. Audit, POC et mise en production — sans dépendance cloud. Auteur de gguf-bench.com.

⏱️

Durée

1 à 5 jours

👥

Public

PME, DSI, Directions Innovation

📍

Format

Chartres et région, Paris ponctuellement, France entière en remote ou sur site selon projet

💰

Tarif sur devis

Points clés

✓

Déploiement LLM souverains (llama.cpp, Ollama)

✓

Audit de quantification — auteur de gguf-bench.com

✓

POC RAG sur vos documents internes

✓

Conformité RGPD — données qui ne quittent pas votre infrastructure

✓

Monitoring IA avec Prometheus/Grafana

Déroulement de la prestation

Audit IA

Analyse de vos besoins, choix de modèles et de quantification, recommandation d'architecture

⏱️ 1 jour

Déploiement LLM

Installation et configuration llama.cpp/Ollama, tests de performance, mise en production

⏱️ 1-2 jours

POC RAG

Proof of concept d'intégration RAG sur vos documents internes

⏱️ 2-3 jours

Formation équipes

Usage opérationnel, prompting, limites des modèles — pour vos équipes IT et métier

⏱️ 1 jour

IA souveraine : ce que je fais concrètement

Mon assistant IA tourne dans mon sous-sol depuis 2023 — sur une GTX 1070 de 2017 et un Core i7. Ce n’est pas une démo : c’est un usage quotidien, sur du matériel que j’ai sous la main.

Ce que j’apporte à vos projets, c’est cette même logique : des LLM locaux qui fonctionnent sur votre infrastructure réelle, pas sur du GPU cloud de compétition.

Ce que je fais — et ce que je ne fais pas

Je fais :

Audit de vos besoins et sélection du bon modèle selon vos contraintes (GPU disponible, RAM, cas d’usage)
Déploiement et configuration llama.cpp sur votre infrastructure Linux, Proxmox, bare metal
Quantification et benchmark — je mesure la perte de précision avant de vous recommander un modèle
POC RAG sur vos documents internes : PDF, bases documentaires, manuels techniques
Monitoring IA : latence, débit, qualité des réponses (Prometheus/Grafana)
Formation de vos équipes à l’usage opérationnel et aux limites des modèles

Je ne fais pas :

Fine-tuning ni entraînement — je travaille avec les modèles existants, pas leur création
RAG en production clé en main — je livre des POC qualifiés que vos équipes prennent en charge
Développement applicatif front-end

Pourquoi me faire confiance sur l’IA

J’ai publié gguf-bench.com — un benchmark indépendant qui mesure la perte de précision réelle lors de la quantification des LLM. Cinq modèles, ~90 quantifications, cinq benchmarks par variante, méthodologie publique sous licence CC BY 4.0.

Quand je vous recommande un modèle ou un niveau de quantification, vous savez exactement d’où vient la recommandation.

Stack technique

Je travaille principalement avec llama.cpp — l’outil de référence pour le déploiement local, compatible CPU et GPU, excellent support de quantification GGUF.

Modèles selon les cas d’usage :

Qwen 3 (14B–35B) : très bon rapport performance/ressources, support multilingue
Mistral/Mixtral : performances solides sur les tâches en français
LLaMA 3.x : polyvalence générale
Phi-4 / Gemma 3 : pour les contraintes matérielles faibles

Le choix du modèle et du niveau de quantification dépend de votre matériel et de vos cas d’usage — c’est l’objet de l’audit.

Ce que ça change pour vous

Vos données ne quittent pas votre infrastructure — conformité RGPD sans effort particulier
Pas de facturation au token — coût prévisible sur le long terme
Vos équipes comprennent ce qu’elles utilisent — pas de boîte noire, transfert de compétences inclus

Comment ça se passe

1. Audit (1 jour) — Analyse de votre infrastructure, de vos cas d’usage et de vos contraintes. Je repars avec une recommandation de modèle, d’architecture et de planning.

2. Déploiement / POC (1 à 3 jours) — Installation, configuration, tests de performance sur votre matériel. Si RAG : ingestion d’un corpus documentaire de test et validation de la pertinence des réponses.

3. Transfert (1 jour) — Documentation, formation des équipes, runbook de maintenance.

Démarrons

Premiers échanges par email, réponse sous 24h ouvrées.

Demander un audit IA →

Intéressé par cette prestation ?

Discutons de votre projet et de vos besoins spécifiques

Demander un devis → Voir tous les services