Points clés
Déroulement de la prestation
Audit IA
Analyse de vos besoins, choix de modèles et de quantification, recommandation d'architecture
Déploiement LLM
Installation et configuration llama.cpp/Ollama, tests de performance, mise en production
POC RAG
Proof of concept d'intégration RAG sur vos documents internes
Formation équipes
Usage opérationnel, prompting, limites des modèles — pour vos équipes IT et métier
IA souveraine : ce que je fais concrètement
Mon assistant IA tourne dans mon sous-sol depuis 2023 — sur une GTX 1070 de 2017 et un Core i7. Ce n’est pas une démo : c’est un usage quotidien, sur du matériel que j’ai sous la main.
Ce que j’apporte à vos projets, c’est cette même logique : des LLM locaux qui fonctionnent sur votre infrastructure réelle, pas sur du GPU cloud de compétition.
Ce que je fais — et ce que je ne fais pas
Je fais :
- Audit de vos besoins et sélection du bon modèle selon vos contraintes (GPU disponible, RAM, cas d’usage)
- Déploiement et configuration llama.cpp sur votre infrastructure Linux, Proxmox, bare metal
- Quantification et benchmark — je mesure la perte de précision avant de vous recommander un modèle
- POC RAG sur vos documents internes : PDF, bases documentaires, manuels techniques
- Monitoring IA : latence, débit, qualité des réponses (Prometheus/Grafana)
- Formation de vos équipes à l’usage opérationnel et aux limites des modèles
Je ne fais pas :
- Fine-tuning ni entraînement — je travaille avec les modèles existants, pas leur création
- RAG en production clé en main — je livre des POC qualifiés que vos équipes prennent en charge
- Développement applicatif front-end
Pourquoi me faire confiance sur l’IA
J’ai publié gguf-bench.com — un benchmark indépendant qui mesure la perte de précision réelle lors de la quantification des LLM. Cinq modèles, ~90 quantifications, cinq benchmarks par variante, méthodologie publique sous licence CC BY 4.0.
Quand je vous recommande un modèle ou un niveau de quantification, vous savez exactement d’où vient la recommandation.
Stack technique
Je travaille principalement avec llama.cpp — l’outil de référence pour le déploiement local, compatible CPU et GPU, excellent support de quantification GGUF.
Modèles selon les cas d’usage :
- Qwen 3 (14B–35B) : très bon rapport performance/ressources, support multilingue
- Mistral/Mixtral : performances solides sur les tâches en français
- LLaMA 3.x : polyvalence générale
- Phi-4 / Gemma 3 : pour les contraintes matérielles faibles
Le choix du modèle et du niveau de quantification dépend de votre matériel et de vos cas d’usage — c’est l’objet de l’audit.
Ce que ça change pour vous
- Vos données ne quittent pas votre infrastructure — conformité RGPD sans effort particulier
- Pas de facturation au token — coût prévisible sur le long terme
- Vos équipes comprennent ce qu’elles utilisent — pas de boîte noire, transfert de compétences inclus
Comment ça se passe
1. Audit (1 jour) — Analyse de votre infrastructure, de vos cas d’usage et de vos contraintes. Je repars avec une recommandation de modèle, d’architecture et de planning.
2. Déploiement / POC (1 à 3 jours) — Installation, configuration, tests de performance sur votre matériel. Si RAG : ingestion d’un corpus documentaire de test et validation de la pertinence des réponses.
3. Transfert (1 jour) — Documentation, formation des équipes, runbook de maintenance.
Démarrons
Premiers échanges par email, réponse sous 24h ouvrées.
Intéressé par cette prestation ?
Discutons de votre projet et de vos besoins spécifiques