Como começar a explorar a IA local

A inteligência artificial generativa deixou de ser exclusiva de servidores na cloud. Hoje, com hardware doméstico, é possível correr modelos de linguagem diretamente no computador ou no telemóvel — sem subscrições, com total privacidade e controlo absoluto.

Neste artigo, exploramos como começar a utilizar a IA local através de duas ferramentas acessíveis: LM Studio para computador e PocketPal AI para dispositivos móveis.

Porquê correr LLMs localmente?

Privacidade total: Os dados nunca saem do dispositivo.
Sem custos recorrentes: Depois de descarregar o modelo, ele fica disponível permanentemente.
Raciocínio Nativo (Reasoning): Os modelos de última geração, como o Qwen 3 e o DeepSeek-R1, já trazem capacidades de "pensamento" (Chain of Thought) integradas, resolvendo problemas complexos sem necessidade de internet.

O Motor da IA: VRAM vs. RAM

Para correr modelos locais, o hardware mais importante não é o processador (CPU), mas sim a memória.

VRAM (Memória da Placa Gráfica): É o componente ideal. Se o modelo couber inteiramente na VRAM da GPU (como uma NVIDIA RTX), a resposta da IA será bastante mais rápida.
RAM (Memória do Sistema): Se a placa gráfica não tiver memória suficiente, o modelo utiliza a RAM do computador. Isto permite correr modelos maiores, mas a velocidade de resposta será significativamente mais lenta (especialmente em PCs, enquanto nos Macs com chips "M" a diferença é menor devido à memória unificada). A regra de ouro: O tamanho do ficheiro do modelo (em GB) deve ser sempre inferior à memória disponível para evitar bloqueios no sistema.

Ferramentas de Exploração

LM Studio (Desktop: Windows, macOS, Linux)

O LM Studio é a interface visual de referência para desktop. Permite pesquisar e descarregar modelos diretamente do Hugging Face. Em 2026, a ferramenta já suporta nativamente o "Thinking Mode" dos novos modelos, exibindo o processo de raciocínio da IA antes da resposta final.

Em breve, a Destilaria irá publicar um guia detalhado para que possa aproveitar ao máximo as capacidades do LM Studio.

Apollo (Mobile: Android e iOS)

Para quem procura portabilidade, o Apollo, da LiquidAI, é uma das opções mais sólidas e simples. Embora a selecção de modelos seja mais limitada (versus aplicações como a PocketPal AI), são escolhidos a dedo pela sua performance em dispositivos móveis.

Sugestões de Modelos a Experimentar (Janeiro 2026)

É difícil recomendar modelos de forma genérica, pois os pequenos modelos de IA tendem a especializar-se em certas áreas. Há uns melhores para escrita, outros para decisões de agentes, outros para classificações ou código. O melhor é mesmo explorar e experimentar. Ainda assim, seguem aqui algumas sugestões:

Ultra-Leve (< 2B): Qwen3-2B, Youtu-llm-2B, LFM2.5-VL-1.6B
Pequenos (3-4B): Qwen3-VL-4B, Gemma-3-4B
Razoáveis (7-8B): Gemma-3n-E4B, Granite-4-h-tiny, Qwen3-VL-8B
Capazes (até 30B): Qwen3-VL-14B, GPT-OSS-20B, Qwen3-30-A3B

Vários modelos têm capacidades de visão incluídas (interpretar ficheiros de imagem). É o caso da família Gemma 3, assim como todos os modelos Qwen com "VL" no nome.

Não se incluem aqui modelos para geração de imagem e interpretação ou geração de áudio. Em breve um artigo sobre esses também.

Uma nota sobre a Quantização

Ao escolher um modelo, é comum encontrar muitas variantes com siglas como Q4_K_M. Isto refere-se à técnica de compressão:

Q4_K_M: É a recomendação geral. Reduz o tamanho do modelo para quase metade, mantendo a qualidade num nível bastante idêntico ao original.
Q8_0: Oferece fidelidade próxima dos 100%, mas exige o dobro do espaço e da memória.

Por onde começar?

A recomendação é instalar o LM Studio, procurar por "Qwen3 VL 4B" e testar as suas capacidades. No telemóvel, o LFM2.5-VL-1.6B poderá ser um bom ponto de partida

O passo mais importante é descarregar um modelo pequeno e começar a experimentar; a partir daí, abrem-se muitas portas para explorar!