Gemma 4 26B sur Mini PC : C’est possible ?

L’avènement de modèles de langage de plus en plus performants et optimisés, tels que la série Gemma 4 de Google, soulève une question cruciale pour les passionnés d’auto-hébergement : est-il possible d’exécuter une IA de 26 milliards de paramètres sur une infrastructure domestique modeste ? Ce guide détaille l’installation complète de Gemma 4 26B sur un Mini PC Lenovo M720q, en explorant les limites du calcul par processeur (CPU) pur dans un environnement virtualisé sous Proxmox.

🛠️ Mise à niveau matérielle : Préparation de la mémoire vive

L’exécution locale de modèles de grande taille, comme le variant 26B de Gemma 4, exige une quantité substantielle de mémoire vive (RAM). Bien que le modèle utilise une architecture optimisée permettant une exécution rapide, le chargement des poids du modèle nécessite un minimum de 16 à 20 Go de RAM disponible.

Pour ce projet, le Lenovo M720q a été mis à niveau de 16 Go à 32 Go de RAM (modules DDR4). Cette capacité est indispensable pour allouer suffisamment de ressources à la machine virtuelle sans saturer l’hôte Proxmox. L’utilisation du processeur Intel Core i7-8700T, bien que dépourvu de GPU dédié pour le calcul IA, servira d’unité de traitement principale.

🚀 Configuration de la machine virtuelle sous Proxmox VE

Le déploiement repose sur une machine virtuelle (VM) utilisant l’image Ubuntu Server 24.04 LTS. La configuration de la VM doit être méticuleuse pour maximiser les performances :

Ressources CPU : Allocation de 10 cœurs (sur les 12 disponibles) avec le type de processeur réglé sur « Host » pour permettre à la VM d’utiliser toutes les instructions spécifiques du processeur physique.
Mémoire vive : Allocation d’un minimum de 24 Go de RAM.
Stockage : Un disque virtuel de 60 Go est nécessaire. Lors de l’installation d’Ubuntu, il convient de veiller à étendre manuellement la partition système pour utiliser l’intégralité de l’espace alloué, afin d’éviter toute saturation lors du téléchargement des modèles.

⚙️ Installation d’Ollama et déploiement du modèle Gemma 4

Le moteur d’inférence choisi est Ollama, réputé pour sa simplicité et son efficacité. L’installation s’effectue via une commande unique en terminal :

Bash 
curl -fsSL https://ollama.com/install.sh | bash

Une fois l’installation terminée, le téléchargement et l’exécution du modèle s’effectuent par la commande suivante :

Bash 
ollama run gemma4:26b

Le système détectera l’absence de GPU Nvidia ou AMD et basculera automatiquement en mode inférence CPU. Le modèle Gemma 4 26B, bien que volumineux (environ 17 Go), parvient à s’initialiser grâce à la quantité de RAM allouée.

🌐 Mise en place d’une interface graphique avec Open WebUI

Pour transformer ce serveur en un assistant conversationnel ergonomique, l’installation de l’interface Open WebUI via Docker est recommandée. Cela permet une utilisation via un navigateur Web classique.

Installation de Docker :

Bash 
sudo apt update && sudo apt install docker.io -y

Lancement du conteneur Open WebUI :

Bash 
sudo docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/data --name open-webui ghcr.io/open-webui/open-webui:main

Configuration réseau d’Ollama : Pour que l’interface Web puisse communiquer avec le service Ollama, il est nécessaire de modifier le service système (sudo systemctl edit ollama.service) pour autoriser les connexions externes (OLLAMA_HOST=0.0.0.0) et les origines multiples (OLLAMA_ORIGINS=*).

📊 Analyse des performances : Inférence et Vision

Les tests en conditions réelles révèlent des résultats surprenants pour une machine dépourvue de carte graphique dédiée :

Texte : La génération de texte est fonctionnelle. Bien que moins instantanée qu’une solution cloud, elle demeure exploitable pour des requêtes complexes nécessitant la puissance du modèle 26B.
Vision (Analyse d’image) : Lors d’un test d’analyse de capture d’écran, le modèle a nécessité environ 8 minutes de réflexion interne avant de produire une description détaillée et pertinente.
Efficacité : Le modèle démontre une capacité impressionnante à comprendre le contexte et l’aspect « technique » des images, prouvant que Gemma 4 26B est un outil de pointe, même bridé par un traitement purement CPU.

Conclusion sur la viabilité de l’IA locale

Cette expérimentation démontre qu’il est techniquement possible de faire tourner l’une des IA les plus avancées du marché sur un Mini PC de bureau reconditionné. Si la rapidité n’est pas encore comparable à des configurations équipées de GPU puissants, la précision des réponses et la confidentialité totale des données font de cette solution une option viable pour des analyses de fond en auto-hébergement.

Retrouvez tous les fichiers et tutos sur mon site : http://bricolo2point0.fr