Usar o Qiskit Code Assistant no modo local

Aprenda como instalar, configurar e usar qualquer um dos modelos do Qiskit Code Assistant na sua máquina local.

Notas

O Qiskit Code Assistant está em status de versão prévia e está sujeito a alterações.
Se você tiver feedback ou quiser entrar em contato com a equipe de desenvolvedores, use o canal do Qiskit Slack Workspace ou os repositórios públicos do GitHub relacionados.

Início rápido (recomendado)

A maneira mais fácil de começar a usar o Qiskit Code Assistant no modo local é utilizar os scripts de configuração automatizada para a extensão do VS Code ou do JupyterLab. Esses scripts instalam automaticamente o Ollama para executar os LLMs, baixam o modelo recomendado e configuram a extensão para você.

Configuração da extensão do VS Code

Execute o seguinte comando no seu terminal:

bash <(curl -fsSL https://raw.githubusercontent.com/Qiskit/qiskit-code-assistant-vscode/main/setup_local.sh)

Este script realiza as seguintes etapas:

Instala o Ollama (se ainda não estiver instalado)
Baixa e configura o modelo Qiskit Code Assistant recomendado
Configura a extensão do VS Code para funcionar com a sua implantação local

Configuração da extensão do JupyterLab

Execute o seguinte comando no seu terminal:

bash <(curl -fsSL https://raw.githubusercontent.com/Qiskit/qiskit-code-assistant-jupyterlab/main/setup_local.sh)

Este script irá:

Instalar o Ollama (se ainda não estiver instalado)
Baixar e configurar o modelo Qiskit Code Assistant recomendado
Configurar a extensão do JupyterLab para funcionar com a sua implantação local

Modelos disponíveis

Modelos atuais

Estes são os modelos mais recentes recomendados para uso com o Qiskit Code Assistant:

Qiskit/mistral-small-3.2-24b-qiskit - Lançado em outubro de 2025
qiskit/qwen2.5-coder-14b-qiskit - Lançado em junho de 2025
qiskit/granite-3.3-8b-qiskit - Lançado em junho de 2025
qiskit/granite-3.2-8b-qiskit - Lançado em junho de 2025

Modelos GGUF (recomendados para ambientes pessoais/laptops)

Os modelos no formato GGUF são otimizados para uso local e exigem menos recursos computacionais:

mistral-small-3.2-24b-qiskit-GGUF – Lançado em outubro de 2025 Treinado com dados do Qiskit até a versão 2.1
qiskit/qwen2.5-coder-14b-qiskit-GGUF – Lançado em junho de 2025 Treinado com dados do Qiskit até a versão 2.0
qiskit/granite-3.3-8b-qiskit-GGUF – Lançado em junho de 2025 Treinado com dados do Qiskit até a versão 2.0
qiskit/granite-3.2-8b-qiskit-GGUF – Lançado em junho de 2025 Treinado com dados do Qiskit até a versão 2.0

Os modelos de código aberto do Qiskit Code Assistant estão disponíveis em safetensors ou formato de arquivo GGUF e podem ser baixados do Hugging Face conforme explicado abaixo.

Versões do Qiskit usadas para treinamento

Modelo						Métricas de benchmark					Data de lançamento	Treinado na versão do Qiskit
	QiskitHumanEval-Hard	QiskitHumanEval	HumanEval	ASDiv	MathQA	SciQ	MBPP	IFEval	CrowsPairs (inglês)	TruthfulQA (MC1 acc)
mistral-small-3.2-24b-qiskit	32.45	47.02	77.49	3.77	49.68	97.50	64.00	48.44	67.08	39.41	Janeiro de 2026	2.2
qwen2.5-coder-14b-qiskit	25.17	49.01	91.46	4.21	53.90	97.00	77.60	49.64	65.18	37.82	Junho de 2025	2.0
granite-3.3-8b-qiskit	14.57	27.15	62.80	0.48	38.66	93.30	52.40	59.71	59.75	39.05	Junho de 2025	2.0
granite-3.2-8b-qiskit	9.93	24.50	57.32	0.09	41.41	96.30	51.80	60.79	66.79	40.51	Junho de 2025	2.0
granite-8b-qiskit-rc-0.10	15.89	38.41	59.76	—	—	—	—	—	—	—	Fevereiro de 2025	1.3
granite-8b-qiskit	17.88	44.37	53.66	—	—	—	—	—	—	—	Novembro de 2024	1.2

Observação: Todos os modelos listados na tabela de benchmark foram avaliados usando seus respectivos prompts de sistema, definidos em seus modelos do Hugging Face.

Modelos descontinuados

Estes modelos não são mais mantidos ativamente, mas continuam disponíveis:

qiskit/granite-8b-qiskit-rc-0.10 - Lançado em fevereiro de 2025 (descontinuado)
qiskit/granite-8b-qiskit - Lançado em novembro de 2024 (descontinuado)

Configuração avançada

Se você preferir configurar manualmente o seu ambiente local ou precisar de mais controle sobre o processo de instalação, expanda as seções abaixo.

Baixar pelo site do Hugging Face

Siga estas etapas para baixar qualquer modelo relacionado ao Qiskit Code Assistant pelo site do Hugging Face:

Navegue até a página do modelo Qiskit desejado no Hugging Face.
Vá para a aba Files and Versions e baixe os arquivos do modelo em formato safetensors ou GGUF.

Baixar usando a CLI do Hugging Face

Para baixar qualquer um dos modelos disponíveis do Qiskit Code Assistant usando a CLI do Hugging Face, siga estas etapas:

Instale a CLI do Hugging Face
Faça login na sua conta do Hugging Face
```
huggingface-cli login
```

Baixe o modelo de sua preferência da lista anterior

huggingface-cli download <HF REPO NAME> <MODEL PATH> --local-dir <LOCAL PATH>

Implantar manualmente os modelos do Qiskit Code Assistant localmente via Ollama

Há várias formas de implantar e interagir com o modelo Qiskit Code Assistant baixado. Este guia demonstra o uso do Ollama da seguinte forma: com o aplicativo Ollama por meio da integração com o Hugging Face Hub ou com um modelo local, ou com o pacote llama-cpp-python.

Usando o aplicativo Ollama

O aplicativo Ollama oferece uma solução simples para executar LLMs localmente. É fácil de usar, com uma CLI que torna todo o processo de configuração, gerenciamento de modelos e interação bastante direto. É ideal para experimentação rápida e para usuários que querem lidar com menos detalhes técnicos.

Instalar o Ollama

Baixe o aplicativo Ollama
Instale o arquivo baixado
Inicie o aplicativo Ollama instalado

informação
O aplicativo está sendo executado com sucesso quando o ícone do Ollama aparece na barra de menus da área de trabalho. Você também pode verificar se o serviço está em execução acessando http://localhost:11434/.
Experimente o Ollama no seu terminal e comece a executar modelos. Por exemplo:
```
ollama run hf.co/Qiskit/Qwen2.5-Coder-14B-Qiskit
```

Configurar o Ollama usando a integração com o Hugging Face Hub

A integração Ollama/Hugging Face Hub oferece uma forma de interagir com modelos hospedados no Hugging Face Hub sem precisar criar um novo modelfile nem baixar manualmente os arquivos GGUF ou safetensors. Os arquivos padrão de template e params já estão incluídos para o modelo no Hugging Face Hub.

Certifique-se de que o aplicativo Ollama está em execução.
Vá até a página do modelo desejado e copie a URL. Por exemplo, https://huggingface.co/Qiskit/Qwen2.5-Coder-14B-Qiskit-GGUF.

No seu terminal, execute o comando:

ollama run hf.co/Qiskit/Qwen2.5-Coder-14B-Qiskit

Você pode usar o modelo hf.co/Qiskit/Qwen2.5-Coder-14B-Qiskit ou qualquer um dos outros modelos GGUF oficiais recomendados atualmente: hf.co/Qiskit/mistral-small-3.2-24b-qiskit-GGUF ou hf.co/Qiskit/granite-3.3-8b-qiskit-GGUF.

Configurar o Ollama com um modelo GGUF do Qiskit Code Assistant baixado manualmente

Se você baixou manualmente um modelo GGUF como https://huggingface.co/Qiskit/Qwen2.5-Coder-14B-Qiskit-GGUF e deseja experimentar diferentes templates e parâmetros, siga estas etapas para carregá-lo no seu aplicativo Ollama local.

Crie um Modelfile com o seguinte conteúdo e certifique-se de atualizar <PATH-TO-GGUF-FILE> com o caminho real do seu modelo baixado.

FROM <PATH-TO-GGUF-FILE>
TEMPLATE """{{ if .System }}
System:
{{ .System }}

{{ end }}{{ if .Prompt }}Question:
{{ .Prompt }}

{{ end }}Answer:
```python{{ .Response }}
"""

PARAMETER stop "Question:"
PARAMETER stop "Answer:"
PARAMETER stop "System:"
PARAMETER stop "```"

PARAMETER temperature 0
PARAMETER top_k 1

Run the following command to create a custom model instance based on the Modelfile.
```
ollama create Qwen2.5-Coder-14B-Qiskit -f ./path-to-model-file
```
nota
This process may take some time for Ollama to read the model file, initialize the model instance, and configure it according to the specifications provided.

Run the Qiskit Code Assistant model manually downloaded in Ollama

After the Qwen2.5-Coder-14B-Qiskit model has been set up in Ollama, run the following command to launch the model and interact with it in the terminal (in chat mode).

ollama run Qwen2.5-Coder-14B-Qiskit

Some useful commands:

ollama list - List models on your computer
ollama rm Qwen2.5-Coder-14B-Qiskit - Delete the model
ollama show Qwen2.5-Coder-14B-Qiskit - Show model information
ollama stop Qwen2.5-Coder-14B-Qiskit - Stop a model that is currently running
ollama ps - List which models are currently loaded

Manually deploy the Qiskit Code Assistant models in local through the llama-cpp-python package

An alternative to the Ollama application is the llama-cpp-python package, which is a Python binding for llama.cpp. It gives you more control and flexibility to run the GGUF model locally, and is ideal for users who wish to integrate the local model in their workflows and Python applications.

Install llama-cpp-python
Interact with the model from within your application using llama_cpp. For example:

from llama_cpp import Llama

model_path = <PATH-TO-GGUF-FILE>

model = Llama(
        model_path,
        seed=17,
        n_ctx=10000,
        n_gpu_layers=37, # to offload in gpu, but put 0 if all in cpu
    )

input = 'Generate a quantum circuit with 2 qubits'
raw_pred = model(input)["choices"][0]["text"]

You can also add text generation parameters to the model to customize the inference:

generation_kwargs = {
        "max_tokens": 512,
        "echo": False, # Echo the prompt in the output
        "top_k": 1
    }

raw_pred = model(input, **generation_kwargs)["choices"][0]["text"]

Manually deploy the Qiskit Code Assistant models in local through llama.cpp

Use the `llama.cpp` library

Another alternative is to use llama.cpp, an open-source library for performing LLM inference on a CPU with minimal setup. It provides low-level control over the model execution and is typically run from the command line, pointing to a local GGUF model file.

There are several ways to install llama.cpp on your machine:

Install llama.cpp using brew, nix, or winget
Run with Docker: See out the Docker documentation by llama.cpp team
Download pre-built binaries from the releases page
Build from source by cloning this repository

Once installed, you can use llama.cpp to interact with GGUF models in conversation mode as follows:

# Use a local model file
llama-cli -m my_model.gguf -cnv

# Or download and run a model directly from Hugging Face
llama-cli -hf Qiskit/Qwen2.5-Coder-14B-Qiskit-GGUF -cnv

You can also launch an OpenAI-compatible API server for the model in the following way:

llama-server -hf Qiskit/Qwen2.5-Coder-14B-Qiskit-GGUF

Advanced parameters

With the llama-cli program, you can control the model generation using command-line options. For example, you can provide an initial “system” prompt using the -p/--prompt flag. In conversation mode (-cnv), this initial prompt acts as the system message. Otherwise, you can simply prepend any desired instruction to your prompt text. You can also adjust sampling parameters - for instance: temperature (--temp), top-k (--top-k), top-p (--top-p), repetition penalty (--repeat-penalty), and the seed to use (--seed). The following is an example invocation using these options:

llama-cli -hf Qiskit/Qwen2.5-Coder-14B-Qiskit-GGUF \
  -p "You are a friendly assistant." -cnv \
  --temp 0.7 \
  --top-k 50 \
  --top-p 0.95 \
  --repeat-penalty 1.1 \
  --seed 42

Para garantir o funcionamento correto dos nossos modelos Qiskit, recomendamos usar o prompt de sistema fornecido nos nossos repositórios HF GGUF: prompt de sistema para mistral-small-3.2-24b-qiskit-GGUF, Qwen2.5-Coder-14B-Qiskit-GGUF, granite-3.3-8b-qiskit-GGUF e granite-3.2-8b-qiskit-GGUF.

Conectar extensões manualmente à implantação local

Use a extensão do VS Code e a extensão do JupyterLab para o Qiskit Code Assistant para enviar prompts ao modelo Qiskit Code Assistant implantado localmente. Depois de ter o aplicativo Ollama configurado com o modelo, você pode configurar as extensões para se conectarem ao serviço local.

Conectar com a extensão do VS Code do Qiskit Code Assistant

Com a extensão do VS Code do Qiskit Code Assistant, você pode interagir com o modelo e realizar completação de código enquanto escreve. Isso pode ser bastante útil para usuários que buscam assistência para escrever código Qiskit em suas aplicações Python.

Instale a extensão do VS Code do Qiskit Code Assistant.
No VS Code, vá para as Configurações do Usuário e defina o campo Qiskit Code Assistant: Url como a URL da sua implantação local do Ollama (por exemplo, http://localhost:11434).
Recarregue o VS Code acessando View > Command Palette... e selecionando Developer: Reload Window.

O modelo Qiskit Code Assistant configurado no Ollama deve aparecer na barra de status e estará pronto para uso.

Conectar com a extensão do JupyterLab do Qiskit Code Assistant

Com a extensão do JupyterLab do Qiskit Code Assistant, você pode interagir com o modelo e realizar completação de código diretamente no seu Jupyter Notebook. Usuários que trabalham predominantemente com Jupyter Notebooks podem aproveitar esta extensão para aprimorar ainda mais sua experiência ao escrever código Qiskit.

Instale a extensão do JupyterLab do Qiskit Code Assistant.
No JupyterLab, vá para o Settings Editor e defina o campo Qiskit Code Assistant Service API como a URL da sua implantação local do Ollama (por exemplo, http://localhost:11434).

O modelo Qiskit Code Assistant configurado no Ollama deve aparecer na barra de status e estará pronto para uso.

Início rápido (recomendado)​

Configuração da extensão do VS Code​

Configuração da extensão do JupyterLab​

Modelos disponíveis​

Modelos atuais​

Modelos GGUF (recomendados para ambientes pessoais/laptops)​

Versões do Qiskit usadas para treinamento​

Modelos descontinuados​

Configuração avançada​

Usando o aplicativo Ollama​

Instalar o Ollama​

Configurar o Ollama usando a integração com o Hugging Face Hub​

Configurar o Ollama com um modelo GGUF do Qiskit Code Assistant baixado manualmente​

Run the Qiskit Code Assistant model manually downloaded in Ollama​

Use the llama.cpp library​

Advanced parameters​

Conectar com a extensão do VS Code do Qiskit Code Assistant​

Conectar com a extensão do JupyterLab do Qiskit Code Assistant​