Lokale Large Language Models mit Ollama auf Linux installieren

In der heutigen digitalen Welt spielen Large Language Models (LLMs) eine immer größere Rolle. Viele Unternehmen stehen jedoch vor der Herausforderung, ihre sensiblen Daten sicher zu halten und gleichzeitig leistungsfähige KI-Modelle zu nutzen. Eine Lösung: lokale Large Language Models installieren. In diesem Beitrag zeigen wir Ihnen, wie Sie mit der Software Ollama ein lokales LLM auf einem Linux-Server einrichten. Dies ermöglicht Ihnen, die Vorteile leistungsstarker Sprachmodelle zu nutzen, ohne sensible Daten in die Cloud zu senden.

Warum lokale LLMs?

Viele Unternehmen bevorzugen lokale LLMs, um die Kontrolle über ihre Daten zu behalten. Cloud-basierte Lösungen wie Microsoft Azure oder AWS bieten zwar immense Rechenleistung, doch die Datenhoheit bleibt oft ein kritischer Punkt. Lokale Installationen ermöglichen es, hochsensible Informationen intern zu verarbeiten und gleichzeitig die Leistungsfähigkeit moderner Sprachmodelle auszuschöpfen. Für die Installation von Ollama auf einem Linux-Server benötigen Sie:

  • Linux-Distribution: beliebige Linux Distribution, wir verwenden hier Ubuntu Server 24.04 LTS 
  • Nvidia-Grafikkarte: Eine leistungsfähige Karte wie die Nvidia RTX A5000 sorgt für die nötige Rechenleistung, die LLMs benötigen
  • Docker: Zum Starten von Open WebUI als Docker-Container.
 

Schritt 1: Ollama installieren

Ollama ermöglicht die Verwaltung und Nutzung lokaler LLMs. Die Installation ist unkompliziert:

				
					sudo curl -fsSL https://ollama.com/install.sh | sh

				
			

Nach der Installation sollten Sie den Server neu starten, um sicherzustellen, dass alle Kernel-Komponenten korrekt geladen werden.

Schritt 2: Überprüfen der Nvidia-Grafikkarte

Nutzen Sie nvidia-smi, um den Status Ihrer Grafikkarte zu überwachen:

				
					nvidia-smi -l 1
				
			


Schritt 3: Docker installieren

Docker wird benötigt, um Open WebUI zu betreiben. Die Installationsanleitung finden Sie hier.

Schritt 4: Open WebUI starten

 Starten Sie Open WebUI als Docker-Container, um die Benutzeroberfläche für Ihre LLMs zu nutzen:
				
					docker run -d --network=host -v open-webui:/app/backend/data -e OLLAMA_BASE_URL=http://127.0.0.1:11434 --name open-webui --restart always ghcr.io/open-webui/open-webui:main

				
			


Schritt 5: Zugriff auf die Benutzeroberfläche

Rufen Sie Open WebUI im Browser auf, indem Sie die IP-Adresse Ihres Servers eingeben, z. B.:
				
					http://192.168.0.5:8080

				
			
Erstellen Sie einen Admin-Account, um Modelle zu installieren und Abfragen an die Sprachmodelle zu stellen.


Schritt 6: Modelle installieren und nutzen

Modelle können entweder direkt über die Kommandozeile oder die WebUI installiert werden. Zum Beispiel:
				
					ollama pull llama3

				
			
Die WebUI bietet eine benutzerfreundliche Möglichkeit, Modelle zu verwalten und Abfragen zu stellen, ähnlich wie bei ChatGPT.


Tipps zur Hardware-Optimierung

Für den produktiven Einsatz von LLMs sind leistungsfähige Hardware-Ressourcen entscheidend. Eingesetzte Grafikkarten und Server-Boards mit ausreichendem RAM und guter Erweiterbarkeit bzgl. PCI Steckplätzen für die Grafikkarten sind ideal, um anspruchsvolle Modelle effizient zu betreiben. Die Größe der verwendbaren Modelle hängt entscheiden von Anzahl und Leistungsfähigkeit der Grafikkarten ab.
 

Beispiel-Konfigurationen

Einstiegskonfiguration (für Llama 7B und einfache Anwendungen)

  • CPU: AMD Ryzen 9 oder Intel i9
  • GPU: NVIDIA RTX 3060 mit 12 GB VRAM
  • RAM: 32 GB
  • Speicher: 1 TB NVMe SSD

 

Fortgeschrittene Konfiguration (für Llama 13B bis 30B)

  • CPU: AMD Threadripper oder Intel Xeon
  • GPU: NVIDIA RTX 3090 oder A6000 mit mindestens 24 GB VRAM
  • RAM: 64-128 GB
  • Speicher: 2 TB NVMe SSD

 

High-End-Konfiguration (für Llama 65B und anspruchsvolle Anwendungen)

  • CPU: Dual AMD EPYC oder Intel Xeon
  • GPU: NVIDIA A100 oder H100 (40 GB oder mehr VRAM) oder ein Cluster aus mehreren GPUs
  • RAM: 128 GB oder mehr
  • Speicher: 4 TB NVMe SSD


Fazit

Mit Ollama können Sie lokale LLMs effizient auf Ihrem Linux-Server betreiben und dabei die volle Kontrolle über Ihre Daten behalten. Diese Lösung ist besonders für Unternehmen geeignet, die sensible Informationen verarbeiten und dennoch die Vorteile moderner Sprachmodelle nutzen möchten. Zum praktischen Video Tutorial geht es hier:

Anforderungsanalyse

Anforderungsanalyse: Der Schlüssel zu erfolgreichen Softwareprojekten Die Anforderungsanalyse ist ein entscheidender Schritt im Softwareentwicklungsprozess und legt den Grundstein für den Erfolg eines Projekts. Sie befasst

Weiterlesen »

Plattformunabhängige Apps

Plattformunabhängige Apps: Entwicklung für eine breite Nutzerbasis Plattformunabhängige (Cross-Plattform) App-Entwicklung ist eine effektive Strategie, um Anwendungen zu erstellen, die auf verschiedenen Betriebssystemen und Geräten funktionieren.

Weiterlesen »

Embedded Systems (Eingebettete Systeme)

Embedded Systems: Intelligente Technologie im Herzen moderner Geräte Embedded Systems, also eingebettete Systeme, sind ein integraler Bestandteil zahlreicher moderner Technologien und Geräte. Sie kombinieren Hardware

Weiterlesen »

Natürliche Sprachverarbeitung

Natürliche Sprachverarbeitung: Brücke zwischen Mensch und Maschine Die Natürliche Sprachverarbeitung (Natural Language Processing, NLP) ist ein faszinierendes Feld der Künstlichen Intelligenz (KI), das sich mit

Weiterlesen »

Kanban in der Softwareentwicklung

Kanban: Effizienzsteigerung in der Softwareentwicklung Kanban, ursprünglich eine Methode aus der Lean-Produktion, hat sich in der Softwareentwicklung als eine effektive Methode zur Steigerung der Effizienz

Weiterlesen »