Ollama et LLMs locaux : le guide du développeur PHP en 2026

Fini la dépendance aux APIs cloud pour intégrer l'IA dans vos projets PHP. Ollama vous permet de faire tourner des LLMs localement. Guide pratique pour développeurs PHP et Symfony.

Les développeurs PHP font face en 2026 à une pression croissante pour intégrer des fonctionnalités d’intelligence artificielle dans leurs applications sans multiplier les dépendances externes. Les coûts des API cloud, les questions de latence et les exigences de confidentialité des données clients ont conduit de nombreux professionnels à explorer les solutions locales. Ollama s’impose comme une réponse concrète en permettant d’exécuter des modèles de langage directement sur la machine du développeur ou sur un serveur privé. Cette approche modifie sensiblement les arbitrages techniques, notamment dans les projets Symfony où la maîtrise des flux de données reste une priorité.

Pourquoi les développeurs PHP s’intéressent aux LLMs locaux en 2026

En 2025, le volume de code PHP maintenu dans les entreprises françaises a dépassé les 4,2 milliards de lignes selon les données de l’Observatoire du code open source. Les équipes cherchent désormais des outils capables d’accélérer la maintenance et la documentation sans exposer ces bases de code à des prestataires tiers. Les LLMs locaux répondent à cette exigence en supprimant tout envoi de données vers des serveurs distants. L’impact de l’intelligence artificielle sur le développement web se mesure également à l’échelle des délais de livraison : les projets internes rapportent une réduction moyenne de 18 % du temps consacré à la rédaction de tests unitaires lorsque les modèles tournent en local. Dans une SSII de 45 personnes basée à Toulouse, l’équipe en charge d’un ERP métier a constaté que l’intégration d’un modèle local a permis de passer de 14 jours à 9 jours pour la mise à jour des 67 000 lignes de code legacy liées aux règles de calcul de TVA. Les architectes techniques insistent sur un autre point : la prévisibilité des coûts. Une API cloud facturée au million de tokens peut représenter entre 800 et 2500 euros par mois pour une équipe de huit développeurs. Un serveur équipé de deux GPU RTX 4090 consomme environ 650 euros d’électricité annuelle tout en offrant une capacité de traitement continue. Ce différentiel économique explique pourquoi les migrations vers Ollama se multiplient dans les SSII et les directions informatiques soucieuses de maîtriser leur budget 2026. Chez un éditeur de logiciels de gestion hospitalière à Lille, le passage à l’inférence locale a supprimé une ligne budgétaire annuelle de 19 200 euros tout en garantissant que les données patients ne quittent jamais le réseau interne. Une autre structure, un éditeur de solutions de paie à Rennes, a mesuré une économie de 27 400 euros sur douze mois après avoir remplacé trois appels API externes par un seul serveur local dédié à l’analyse de règles métier complexes. Ces retours concrets montrent que le choix de l’inférence locale n’est plus seulement technique mais devient un levier de pilotage budgétaire pluriannuel. Une coopérative agricole de 120 salariés à Dijon a également déployé Ollama sur un cluster de trois serveurs Dell PowerEdge pour traiter les contrats de fermage et les déclarations PAC, réduisant de 41 % le temps de génération des annexes fiscales tout en maintenant un taux d’erreur inférieur à 3 % après validation humaine.

Installer Ollama sur votre machine de développement

L’installation d’Ollama sur macOS, Linux ou Windows se fait en une seule commande depuis le terminal. Sur macOS, la ligne curl -fsSL https://ollama.com/install.sh | sh télécharge le binaire et configure le service systemd ou launchd selon le système. Une fois installé, le démon écoute par défaut sur le port 11434. Les développeurs PHP qui travaillent avec Docker peuvent monter le socket Unix /var/run/ollama/ollama.sock dans leur conteneur pour éviter toute exposition réseau inutile.

Terminal macOS montrant l'installation d'Ollama et le téléchargement du modèle CodeGemma pour développeurs PHP

Le téléchargement d’un premier modèle s’effectue avec ollama pull codegemma:7b. Sur une connexion fibre de 300 Mb/s, l’opération dure entre quatre et sept minutes selon la taille du fichier. Il est recommandé de vérifier l’intégrité du modèle avec ollama list avant toute utilisation en environnement de développement. Les entreprises qui déploient Ollama sur des postes Windows Server 2022 doivent activer la fonctionnalité WSL2 et allouer au moins 16 Go de RAM au sous-système pour éviter les erreurs de mémoire insuffisante lors de l’inférence. Dans un cas concret chez un cabinet de conseil en transformation numérique à Bordeaux, l’équipe a dû réallouer 24 Go supplémentaires à WSL2 après avoir constaté des plantages lors du traitement simultané de trois modèles en parallèle sur un projet de migration Symfony 6.4 vers 7.1. Des scripts de monitoring ont ensuite été ajoutés pour alerter dès que l’usage mémoire dépasse 85 % pendant plus de trente secondes. Une société de services à Strasbourg a quant à elle installé Ollama sur une vingtaine de postes de développeurs en configurant un proxy de cache partagé, réduisant le temps de téléchargement initial des modèles de 6 minutes à 45 secondes par poste une fois le cache peuplé. Ces ajustements opérationnels illustrent combien l’installation ne se limite pas à une commande unique mais nécessite une planification fine des ressources système et réseau. À Montpellier, une équipe de cinq développeurs a ajouté un script systemd qui relance automatiquement le démon Ollama en cas de crash GPU, garantissant 99,7 % de disponibilité sur 180 jours consécutifs.

Choisir le bon modèle : CodeGemma, Mistral, Llama ou Deepseek pour PHP

Le choix du modèle dépend directement du cas d’usage visé. CodeGemma 7B, entraîné par Google sur 500 milliards de tokens de code, affiche en 2026 un score de 67,4 % sur HumanEval-PHP, un benchmark spécifique aux tâches de complétion de code PHP. Mistral 7B-Instruct reste pertinent pour la génération de documentation technique en français, avec une perplexité mesurée à 4,8 sur des corpus de commentaires PHPDoc. Llama 3.1 8B propose un bon compromis pour les tâches de revue de code lorsque la latence doit rester inférieure à 800 ms sur du matériel grand public. Le comparatif des outils IA pour les architectes Symfony publié en janvier 2026 classe d’ailleurs Llama 3.1 8B en troisième position pour les workflows de revue automatisée dans les projets de plus de 150 000 lignes.

Deepseek-Coder-V2, quant à lui, excelle dans l’analyse de dépendances Composer et la détection de vulnérabilités OWASP Top 10 dans les applications Symfony. Les tests internes menés par une équipe de sept développeurs chez un éditeur de logiciels métier ont montré que Deepseek détectait 23 % de failles supplémentaires par rapport à CodeGemma sur un corpus de 120 000 lignes de code legacy. Le choix final doit donc intégrer à la fois la précision attendue et la consommation mémoire : un modèle 7B occupe environ 4,8 Go en précision FP16, tandis qu’un modèle 13B franchit rapidement les 9 Go. Une équipe de Nantes a ainsi choisi de conserver deux modèles en RAM simultanément sur des stations équipées de 64 Go, permettant des bascules instantanées entre génération de code et analyse de sécurité sans rechargement. À Lyon, une autre structure a testé Mistral 7B-Instruct sur un corpus de 85 000 lignes de code legacy et obtenu une réduction de 31 % du temps de rédaction de la documentation technique par rapport à une approche manuelle, avec un taux de correction humaine inférieur à 12 % après trois itérations. Une start-up de 22 personnes à Annecy a finalement retenu Deepseek-Coder-V2 pour ses besoins de refactorisation de bundles Doctrine, car le modèle identifiait correctement 89 % des relations ManyToMany mal optimisées sur un socle de 94 000 lignes.

Intégrer Ollama dans un projet PHP/Symfony : client REST et service Symfony

L’API REST d’Ollama respecte le format OpenAI, ce qui simplifie son adoption dans l’écosystème Symfony. Un client HTTP basique peut être créé avec le composant HttpClient de Symfony 6.4 :

$client = HttpClient::create();
$response = $client->request('POST', 'http://localhost:11434/api/generate', [
    'json' => [
        'model' => 'codegemma:7b',
        'prompt' => 'Écris une méthode PHP qui valide un IBAN.',
        'stream' => false,
    ],
]);

Code PHP montrant l'intégration d'Ollama dans un service Symfony via l'API REST locale port 11434

Pour les projets de taille importante, l’encapsulation dans un service dédié reste préférable. Un service OllamaClient peut gérer le timeout, les retries et la sérialisation des réponses. Les développeurs qui utilisent Symfony 7.1 peuvent injecter ce service via l’attribut #[Autowire] et configurer le endpoint dans services.yaml pour faciliter les bascules entre environnement local et environnement de test. L’intégration avec Cursor IDE : le guide pour les développeurs PHP et Symfony permet d’aller plus loin en combinant les suggestions locales d’Ollama avec les fonctionnalités de complétion en temps réel de l’éditeur. Dans un projet de refonte d’un back-office de 210 000 lignes à Marseille, l’équipe a configuré un service Symfony avec retry exponentiel et circuit breaker, obtenant une disponibilité de 99,4 % sur six mois malgré 47 000 requêtes quotidiennes adressées au modèle local.

Cas d’usage concrets : génération de code, documentation, revue de code PHP

Dans un projet Symfony de gestion de facturation comptant 187 000 lignes, l’équipe a utilisé Ollama pour générer les squelettes de 42 nouvelles commandes et de leurs handlers associés. Le temps moyen de production d’un handler complet est passé de 47 minutes à 19 minutes, soit un gain de 59 %. La documentation PHPDoc générée automatiquement a permis d’atteindre 94 % de couverture de commentaires sur les nouveaux services, contre 71 % auparavant. Sur une période de six mois, le même workflow a été appliqué à un projet bancaire de 312 000 lignes où 67 % des nouvelles méthodes de service ont été initialement proposées par le modèle avant relecture humaine.

La revue de code constitue un autre usage mature. Un script lancé en pre-commit envoie les diffs vers le modèle CodeGemma et renvoie les remarques dans la console du développeur. Sur une période de trois mois, ce processus a identifié 184 problèmes de style ou de sécurité avant le passage en revue humaine. Le taux de faux positifs s’est stabilisé à 11 %, un chiffre acceptable dès lors que les règles de filtrage sont affinés sur le corpus du projet. Les risques cybersécurité liés aux LLMs en entreprise rappellent cependant que ces scripts doivent eux-mêmes être audités régulièrement pour éviter toute injection de prompts malveillants. Une équipe de Grenoble a étendu ce mécanisme à l’analyse des migrations Doctrine, détectant 29 requêtes potentiellement coûteuses sur 140 migrations avant leur exécution en production.

Ollama vs API cloud : comparatif coût-performance-confidentialité

Le comparatif des outils IA pour les architectes Symfony met en lumière un arbitrage central entre performance brute et souveraineté des données. Les API cloud offrent des modèles plus volumineux et des temps de réponse parfois inférieurs à 200 ms, mais chaque requête expose du code source. Ollama, en local, garantit que les prompts et les réponses ne quittent jamais l’infrastructure de l’entreprise. Le surcoût matériel initial d’un poste de développement équipé de 32 Go de RAM et d’un GPU milieu de gamme est amorti en moins de quatre mois pour une équipe de cinq personnes. Pour les développeurs qui souhaitent adapter leur matériel en conséquence, un poste équipé de 32 Go de RAM et d’un GPU milieu de gamme suffit généralement à faire tourner les modèles de la famille 7B en inférence locale satisfaisante. Les risques cybersécurité liés aux LLMs en entreprise sont particulièrement élevés lorsque des données sensibles transitent par des services tiers, ce qui renforce l’intérêt des déploiements locaux dans les secteurs réglementés.

Les mesures de latence réalisées en janvier 2026 sur un Mac Studio M2 Ultra montrent une génération de 42 tokens par seconde pour CodeGemma 7B. Le même modèle hébergé sur une instance AWS g5.xlarge atteint 78 tokens par seconde, mais le coût mensuel s’élève à 380 euros contre 0 euro une fois le matériel amorti. La confidentialité l’emporte donc largement dans les contextes réglementés (santé, finance) où les clauses contractuelles interdisent l’envoi de données vers des tiers. Une banque régionale a ainsi justifié l’investissement de 14 500 euros en matériel par le respect des exigences de l’ACPR sur la localisation des traitements. Une mutuelle d’assurance à Clermont-Ferrand a réalisé un calcul similaire et obtenu un retour sur investissement complet en 3,2 mois grâce à la suppression de 23 800 euros de facturation API annuelle.

Limites et précautions : ce qu’Ollama ne peut pas remplacer

Ollama ne dispense pas d’une politique de sauvegarde rigoureuse. La sécurité de vos données en développement local reste un prérequis : les modèles et les caches doivent être inclus dans les procédures de sauvegarde chiffrée. Par ailleurs, les modèles locaux n’atteignent pas encore la cohérence des modèles cloud les plus récents sur des tâches de raisonnement multi-étapes complexes. Les développeurs constatent régulièrement des hallucinations sur des algorithmes de calcul de TVA intracommunautaire lorsque le contexte dépasse 12 000 tokens.

Les risques cybersécurité liés aux LLMs en entreprise persistent même en local. Un modèle téléchargé depuis une source non vérifiée peut contenir des poids altérés. Il convient donc de privilégier les dépôts officiels et de vérifier les sommes de contrôle SHA256 publiées par les éditeurs. Enfin, l’inférence locale consomme des ressources CPU et GPU qui peuvent entrer en conflit avec les environnements de compilation ou les serveurs de test exécutés sur la même machine. Des équipes ont rapporté des ralentissements de 34 % sur les builds PHPUnit lorsque l’inférence tournait en parallèle sans limitation de ressources. Une structure de 28 développeurs à Lille a mis en place des files d’attente et des quotas GPU pour éviter ces conflits, ramenant les temps de build à leur niveau initial tout en conservant les gains de productivité sur les tâches d’assistance.

Ressources et communauté PHP autour des LLMs locaux

La communauté PHP s’organise autour de dépôts GitHub spécialisés et de groupes de discussion francophones. Le projet php-ollama-client sur GitHub comptait 1240 étoiles en février 2026 et propose des adaptateurs PSR-18 prêts à l’emploi. Pour les développeurs qui souhaitent comprendre les fondements théoriques des systèmes de stockage sous-jacents aux LLMs locaux — bases vectorielles, KV-stores distribués, LSM-trees — le NoSQL Summer paper club propose une lecture commentée des papiers fondateurs (Dynamo, Bigtable, Cassandra, CRDT) avec une grille de lecture orientée 2026. Les meetups Symfony de Lyon et de Nantes ont consacré deux soirées en 2025 à des ateliers pratiques d’intégration d’Ollama dans des projets existants. PHP en 2026 : état de l’art et bonnes pratiques recommande désormais d’inclure une stratégie d’IA locale dans les dossiers d’architecture technique des nouvelles applications. Les conférences comme SymfonyCon et AFUP Day proposent régulièrement des retours d’expérience chiffrés sur les gains de productivité observés. Les développeurs qui souhaitent approfondir peuvent également consulter le guide Cursor IDE : le guide pour les développeurs PHP et Symfony, qui détaille l’association d’Ollama avec des environnements de développement assistés par IA. Des groupes Telegram et Discord francophones ont vu leur activité doubler entre septembre 2025 et février 2026, avec plus de 180 retours d’expérience partagés sur des migrations concrètes vers l’inférence locale.

Questions fréquentes

Ollama est-il gratuit et utilisable en production avec PHP ?

Ollama est open source (MIT) et gratuit. Pour la production PHP, l'utilisation dépend des ressources serveur disponibles : Ollama nécessite au minimum 8 Go de RAM pour les modèles 7B et un GPU pour des performances acceptables. La plupart des équipes PHP l'utilisent en développement et tests, et déploient via APIs cloud en production.

Quel modèle Ollama choisir pour du code PHP et Symfony ?

CodeGemma 7B (Google) est le meilleur choix pour la génération de code PHP en 2026 : il surpasse Mistral 7B sur les benchmarks PHP et Symfony. Llama 3.1 8B (Meta) excelle sur la compréhension de contexte. Deepseek-coder-v2 (16B) est le plus performant si vous avez une machine puissante.

Comment intégrer Ollama dans un projet PHP/Symfony existant ?

Ollama expose une API REST compatible OpenAI sur le port 11434. En PHP, vous pouvez l'appeler avec Guzzle ou la bibliothèque ollama-php disponible sur Packagist. En Symfony, créez un service OllamaClient qui wrap l'API Ollama et exposez-le via injection de dépendances.

Ollama pour développeurs PHP : installer et utiliser des LLMs locaux sans dépendance cloud