NVIDIA RTX AI Garage: come eseguire i più diffusi LLM in locale

nvidia garage

Nell’appuntamento di RTX AI Garage di questa settimana parliamo di come sempre più utenti scelgono di eseguire i modelli linguistici (LLM) direttamente sul proprio PC per ridurre i costi di abbonamento, proteggere la privacy e avere maggiore controllo sui progetti. Grazie ai nuovi modelli open weight e ai tool gratuiti per eseguirli in locale, sperimentare l’IA su laptop o desktop è più semplice che mai. Le GPU RTX accelerano queste esperienze, rendendo l’AI rapida e reattiva. Con i nuovi aggiornamenti di Project G-Assist, anche i laptop possono essere controllati tramite comandi vocali e testuali basati su AI.

Nel blogpost di questa settimana di RTX AI Garage vediamo come studenti, sviluppatori e appassionati possano iniziare subito a usare gli LLM sui PC RTX:

  • Ollama: interfaccia semplice per eseguire LLM, trascinare PDF nei prompt, avviare conversazioni e sperimentare flussi multimodali con testo e immagini.
  • AnythingLLM: trasforma i materiali di studio in un tutor AI che genera quiz e flashcard, privato e veloce grazie all’esecuzione locale con Ollama.
  • LM Studio: basato su llama.cpp, consente di testare diversi modelli in locale, chattare in tempo reale e usarli come endpoint API per progetti personalizzati.
  • Project G-Assist: ora permette di regolare voce o testo per batteria, ventole e prestazioni del PC.

Le ultime novità per i PC RTX AI includono:

  • Ollama ottimizzato su RTX: fino al +50% di prestazioni con gpt-oss-20B e +60% con Gemma 3, oltre a una gestione più efficiente della memoria e del multi-GPU.
  • Llama.cpp e GGML aggiornati: inferenza più rapida ed efficiente con supporto a NVIDIA Nemotron Nano v2 9B, Flash Attention attivo di default e ottimizzazioni CUDA.
  • Aggiornamento G-Assist v0.1.18 disponibile tramite NVIDIA App, con nuovi comandi per laptop e risposte migliorate.
  • Microsoft Windows ML con NVIDIA TensorRT: inferenza fino al 50% più veloce, supporto LLM e diffusione su PC Windows 11.