Lokale Large Language Models mit Ollama auf Linux installieren

In der heutigen digitalen Welt spielen Large Language Models (LLMs) eine immer größere Rolle. Viele Unternehmen stehen jedoch vor der Herausforderung, ihre sensiblen Daten sicher zu halten und gleichzeitig leistungsfähige KI-Modelle zu nutzen. Eine Lösung: lokale Large Language Models installieren. In diesem Beitrag zeigen wir Ihnen, wie Sie mit der Software Ollama ein lokales LLM auf einem Linux-Server einrichten. Dies ermöglicht Ihnen, die Vorteile leistungsstarker Sprachmodelle zu nutzen, ohne sensible Daten in die Cloud zu senden.

Warum lokale LLMs?

Viele Unternehmen bevorzugen lokale LLMs, um die Kontrolle über ihre Daten zu behalten. Cloud-basierte Lösungen wie Microsoft Azure oder AWS bieten zwar immense Rechenleistung, doch die Datenhoheit bleibt oft ein kritischer Punkt. Lokale Installationen ermöglichen es, hochsensible Informationen intern zu verarbeiten und gleichzeitig die Leistungsfähigkeit moderner Sprachmodelle auszuschöpfen. Für die Installation von Ollama auf einem Linux-Server benötigen Sie:

Linux-Distribution: beliebige Linux Distribution, wir verwenden hier Ubuntu Server 24.04 LTS
Nvidia-Grafikkarte: Eine leistungsfähige Karte wie die Nvidia RTX A5000 sorgt für die nötige Rechenleistung, die LLMs benötigen
Docker: Zum Starten von Open WebUI als Docker-Container.

Schritt 1: Ollama installieren

Ollama ermöglicht die Verwaltung und Nutzung lokaler LLMs. Die Installation ist unkompliziert:

				
					sudo curl -fsSL https://ollama.com/install.sh | sh

Nach der Installation sollten Sie den Server neu starten, um sicherzustellen, dass alle Kernel-Komponenten korrekt geladen werden.

Schritt 2: Überprüfen der Nvidia-Grafikkarte

Nutzen Sie nvidia-smi, um den Status Ihrer Grafikkarte zu überwachen:

				
					nvidia-smi -l 1

Schritt 3: Docker installieren

Docker wird benötigt, um Open WebUI zu betreiben. Die Installationsanleitung finden Sie hier.

Schritt 4: Open WebUI starten

				
					docker run -d --network=host -v open-webui:/app/backend/data -e OLLAMA_BASE_URL=http://127.0.0.1:11434 --name open-webui --restart always ghcr.io/open-webui/open-webui:main

Schritt 5: Zugriff auf die Benutzeroberfläche

				
					http://192.168.0.5:8080

Schritt 6: Modelle installieren und nutzen

				
					ollama pull llama3

Tipps zur Hardware-Optimierung

Für den produktiven Einsatz von LLMs sind leistungsfähige Hardware-Ressourcen entscheidend. Eingesetzte Grafikkarten und Server-Boards mit ausreichendem RAM und guter Erweiterbarkeit bzgl. PCI Steckplätzen für die Grafikkarten sind ideal, um anspruchsvolle Modelle effizient zu betreiben. Die Größe der verwendbaren Modelle hängt entscheiden von Anzahl und Leistungsfähigkeit der Grafikkarten ab.

Beispiel-Konfigurationen

Einstiegskonfiguration (für Llama 7B und einfache Anwendungen)

CPU: AMD Ryzen 9 oder Intel i9
GPU: NVIDIA RTX 3060 mit 12 GB VRAM
RAM: 32 GB
Speicher: 1 TB NVMe SSD

Fortgeschrittene Konfiguration (für Llama 13B bis 30B)

CPU: AMD Threadripper oder Intel Xeon
GPU: NVIDIA RTX 3090 oder A6000 mit mindestens 24 GB VRAM
RAM: 64-128 GB
Speicher: 2 TB NVMe SSD

High-End-Konfiguration (für Llama 65B und anspruchsvolle Anwendungen)

CPU: Dual AMD EPYC oder Intel Xeon
GPU: NVIDIA A100 oder H100 (40 GB oder mehr VRAM) oder ein Cluster aus mehreren GPUs
RAM: 128 GB oder mehr
Speicher: 4 TB NVMe SSD

Fazit

Michael Schaffler-Glößl

Anforderungsanalyse

Anforderungsanalyse: Der Schlüssel zu erfolgreichen Softwareprojekten Die Anforderungsanalyse ist ein entscheidender Schritt im Softwareentwicklungsprozess und legt den Grundstein für den Erfolg eines Projekts. Sie befasst

28.12.2023

Unser Wechsel von VMware auf Proxmox

Fast 20 Jahre haben wir von der CIIT Software unsere Infrastruktur auf VMware vSphere betrieben. Die Übernahme VMwares durch Broadcom und die damit einhergehenden Änderungen

15.04.2025

Single Page Applications

Single Page Applications (SPAs): Die Zukunft der Webentwicklung Single Page Applications (SPAs) haben die Entwicklung moderner Webanwendungen revolutioniert. Sie bieten eine nahtlosere und interaktivere Nutzererfahrung

28.12.2023

CIIT AI Demo Chatbot

CIIT engagiert sich in der Integration von KI-Komponenten in Kundensysteme durch eine Vielzahl von Projekten.
Die Implementierung eines Chatbots, der mit spezifischen Daten angereichert wird, gestaltet sich als unkompliziert und bietet vielfältige Einsatzmöglichkeiten. So kann er etwa als Ergänzung zu Benutzerhandbüchern dienen, Fragen zu Produkten und Dienstleistungen beantworten und weit darüber hinausgehende Funktionen übernehmen.
Im Vergleich zu traditionellen Chatbots und Suchmechanismen zeichnet sich unser Ansatz durch die Fähigkeit aus, Antworten individuell zu formulieren. Dies steigert signifikant die Benutzerzufriedenheit.

29.02.2024

Die HLA-Software: Automatisierte Stammzellentypisierung

https://youtu.be/emMdZZZ45Nk Präzision, Effizienz und Nachvollziehbarkeit – drei Anforderungen, die in der medizinischen Diagnostik und Forschung unverzichtbar sind. Gemeinsam mit dem Österreichischen Roten Kreuz haben wir

28.04.2025

VinPilot: Automatisierte Prozesssteuerung für Weinkellereien

Weinherstellung ist eine Kunst, die auf Tradition basiert, aber heute mehr denn je durch innovative Technologien unterstützt wird. Gemeinsam mit der in Klosterneuburg ansässigen WFT

15.06.2023