In questa guida aggiornata scopriremo come installare l’ultima versione di Ollama con LLaMA 3 su Ubuntu Server 24.04, utilizzabile sia su macchine con GPU che senza. Ti mostreremo anche come configurare un’interfaccia web moderna tramite Docker, ispirata a ChatGPT, per interagire con i modelli localmente e gratuitamente.
Questa soluzione è ideale per chi vuole avere una AI locale open source, senza costi e senza dipendere da servizi cloud esterni. Può essere usata per progetti personali, sviluppo software, testing di prompt, e perfino come assistente aziendale interno.
Cosa sono Ollama e LLaMA?
Ollama è uno strumento open source per eseguire modelli di linguaggio localmente, supporta molte architetture tra cui LLaMA, Mistral, Gemma, GPT-J ecc. È semplice da usare e funziona sia con GPU che con CPU.
Requisiti
Installazione su Windows
Se vuoi usare Ollama su Windows 10/11, puoi installarlo facilmente seguendo questi passaggi:
- Vai su: https://ollama.com/download
- Scarica l’installer per Windows (
.exe
) - Avvia l’installazione e segui la procedura guidata
Una volta installato, puoi aprire il terminale PowerShell o Prompt dei comandi e lanciare:
ollama run llama
Ollama funzionerà anche su Windows senza GPU, ma con prestazioni ridotte rispetto all’uso su Linux con CUDA.
- Ubuntu Server 24.04 LTS (con o senza GPU)
- Accesso sudo/root
- Connessione a Internet
1. Installare Ollama su Ubuntu 24.04
Passaggi comuni (valido per CPU o GPU):
curl -fsSL https://ollama.com/install.sh | sh
Poi attiva il servizio:
sudo systemctl enable ollama
sudo systemctl start ollama
Verifica che funzioni:
ollama --version
2. Avviare LLaMA 3
Scarica e avvia l’ultima versione disponibile di LLaMA 3:
ollama run llama3
```bash
ollama run llama3
Ollama scaricherà automaticamente il modello ottimizzato (versione leggera). Per usare una versione specifica:
ollama pull llama3:8b-instruct-q4_K_M
3. Installare la Web App in Docker
Invece di usare ollama-webui, puoi installare Open WebUI, una delle interfacce più complete per Ollama. Supporta:
- Upload e riassunto di documenti (PDF, TXT)
- Chat multilingua
- Selezione modelli e configurazione avanzata
- Interfaccia utente moderna in stile ChatGPT
Installazione con Docker:
Assicurati di avere Docker installato:
sudo apt install docker.io docker-compose -y
Poi esegui:
git clone https://github.com/open-webui/open-webui.git
cd open-webui
sudo docker compose up -d
Controlla il container:
docker ps
Log:
docker logs -f open-webui
Ferma il servizio:
sudo docker compose down
La web UI sarà disponibile su:
http://localhost:3000
Oppure su http://<IP-server>:3000
da remoto.
http://localhost:3000
(Oppure l’IP della macchina server)
4. Aggiungere altri modelli (Deepseek, GPT-J, Mistral…)
Puoi scaricare modelli alternativi così:
ollama pull deepseek-coder:6.7b
ollama pull mistral
ollama pull gemma
Poi eseguirli:
ollama run deepseek-coder
Dalla web UI puoi selezionare quale modello usare.
5. Utilizzare l’interfaccia Web in stile ChatGPT
Una volta avviata la web app:
- Apri il browser su
http://<IP-server>:3000
- L’interfaccia è ispirata a ChatGPT: una chat a due colonne con i messaggi utente e le risposte del modello ben separati in stile conversazionale.
- Seleziona il modello da un menu a tendina (es. llama3, deepseek-coder, mistral, ecc.)
- Inserisci i tuoi prompt nella casella in basso e premi invio per interagire
La web app supporta:
- Conversazioni con contesto
- Impostazione parametri come temperatura, top_k, max tokens
- Cronologia delle chat
- Tema scuro/chiaro
Questo la rende ideale anche per utenti non tecnici, offrendo un’esperienza simile a ChatGPT ma completamente locale e privata.
Puoi gestire:
- temperature e parametri
- storici delle conversazioni
- avvio e spegnimento dei modelli
6. Modalità CPU vs GPU
Ollama rileva automaticamente la presenza di GPU (NVIDIA via CUDA). Se non presente, userà la CPU. Le prestazioni saranno inferiori ma funzionali per test.
Per GPU AMD o alternative: supporto in fase di sviluppo tramite ROCm.
7. Esempi prompt
Come posso installare un server web Apache su Ubuntu?
Scrivimi uno script bash che monitora l'uso della CPU
Spiega il concetto di rete VPN in parole semplici
8. Note di sicurezza
- Ollama è pensato per uso locale, ma aprendo la porta pubblicamente potresti esporre l’interfaccia. Usa proxy e firewall.
- Per ambienti multiutente considera un reverse proxy (es. traefik o nginx).
9. Conclusione
Grazie a Ollama puoi eseguire LLM come LLaMA 3 direttamente sulla tua macchina Linux, anche senza GPU, con una semplice interfaccia web. Ideale per testare, sperimentare o creare tool personalizzati nel tuo ambiente.
Disclaimer: Questa guida ha solo scopo informativo ed educativo. Usare LLM localmente implica responsabilità nell’utilizzo e nella gestione dei dati trattati.