A inteligência artificial generativa deixou de ser exclusiva de servidores na cloud. Hoje, com hardware doméstico, é possível correr modelos de linguagem diretamente no computador ou no telemóvel — sem subscrições, com total privacidade e controlo absoluto.
Neste artigo, exploramos como começar a utilizar a IA local através de duas ferramentas acessíveis: LM Studio para computador e PocketPal AI para dispositivos móveis.
Porquê correr LLMs localmente?
- Privacidade total: Os dados nunca saem do dispositivo.
- Sem custos recorrentes: Depois de descarregar o modelo, ele fica disponível permanentemente.
- Raciocínio Nativo (Reasoning): Os modelos de última geração, como o Qwen 3 e o DeepSeek-R1, já trazem capacidades de "pensamento" (Chain of Thought) integradas, resolvendo problemas complexos sem necessidade de internet.
O Motor da IA: VRAM vs. RAM
Para correr modelos locais, o hardware mais importante não é o processador (CPU), mas sim a memória.
- VRAM (Memória da Placa Gráfica): É o componente ideal. Se o modelo couber inteiramente na VRAM da GPU (como uma NVIDIA RTX), a resposta da IA será bastante mais rápida.
- RAM (Memória do Sistema): Se a placa gráfica não tiver memória suficiente, o modelo utiliza a RAM do computador. Isto permite correr modelos maiores, mas a velocidade de resposta será significativamente mais lenta (especialmente em PCs, enquanto nos Macs com chips "M" a diferença é menor devido à memória unificada). A regra de ouro: O tamanho do ficheiro do modelo (em GB) deve ser sempre inferior à memória disponível para evitar bloqueios no sistema.
Ferramentas de Exploração
LM Studio (Desktop: Windows, macOS, Linux)
O LM Studio é a interface visual de referência para desktop. Permite pesquisar e descarregar modelos diretamente do Hugging Face. Em 2026, a ferramenta já suporta nativamente o "Thinking Mode" dos novos modelos, exibindo o processo de raciocínio da IA antes da resposta final.
Em breve, a Destilaria irá publicar um guia detalhado para que possa aproveitar ao máximo as capacidades do LM Studio.
Apollo (Mobile: Android e iOS)
Para quem procura portabilidade, o Apollo, da LiquidAI, é uma das opções mais sólidas e simples. Embora a selecção de modelos seja mais limitada (versus aplicações como a PocketPal AI), são escolhidos a dedo pela sua performance em dispositivos móveis.
Sugestões de Modelos a Experimentar (Janeiro 2026)
É difícil recomendar modelos de forma genérica, pois os pequenos modelos de IA tendem a especializar-se em certas áreas. Há uns melhores para escrita, outros para decisões de agentes, outros para classificações ou código. O melhor é mesmo explorar e experimentar. Ainda assim, seguem aqui algumas sugestões:
- Ultra-Leve (< 2B): Qwen3-2B, Youtu-llm-2B, LFM2.5-VL-1.6B
- Pequenos (3-4B): Qwen3-VL-4B, Gemma-3-4B
- Razoáveis (7-8B): Gemma-3n-E4B, Granite-4-h-tiny, Qwen3-VL-8B
- Capazes (até 30B): Qwen3-VL-14B, GPT-OSS-20B, Qwen3-30-A3B
Vários modelos têm capacidades de visão incluídas (interpretar ficheiros de imagem). É o caso da família Gemma 3, assim como todos os modelos Qwen com "VL" no nome.
Não se incluem aqui modelos para geração de imagem e interpretação ou geração de áudio. Em breve um artigo sobre esses também.
Uma nota sobre a Quantização
Ao escolher um modelo, é comum encontrar muitas variantes com siglas como Q4_K_M. Isto refere-se à técnica de compressão:
- Q4_K_M: É a recomendação geral. Reduz o tamanho do modelo para quase metade, mantendo a qualidade num nível bastante idêntico ao original.
- Q8_0: Oferece fidelidade próxima dos 100%, mas exige o dobro do espaço e da memória.
Por onde começar?
A recomendação é instalar o LM Studio, procurar por "Qwen3 VL 4B" e testar as suas capacidades. No telemóvel, o LFM2.5-VL-1.6B poderá ser um bom ponto de partida
O passo mais importante é descarregar um modelo pequeno e começar a experimentar; a partir daí, abrem-se muitas portas para explorar!
