Usar o Qiskit Code Assistant no modo local
Aprenda como instalar, configurar e usar qualquer um dos modelos do Qiskit Code Assistant na sua máquina local.
- O Qiskit Code Assistant está em status de versão prévia e está sujeito a alterações.
- Se você tiver feedback ou quiser entrar em contato com a equipe de desenvolvedores, use o canal do Qiskit Slack Workspace ou os repositórios públicos do GitHub relacionados.
Início rápido (recomendado)
A maneira mais fácil de começar a usar o Qiskit Code Assistant no modo local é utilizar os scripts de configuração automatizada para a extensão do VS Code ou do JupyterLab. Esses scripts instalam automaticamente o Ollama para executar os LLMs, baixam o modelo recomendado e configuram a extensão para você.
Configuração da extensão do VS Code
Execute o seguinte comando no seu terminal:
bash <(curl -fsSL https://raw.githubusercontent.com/Qiskit/qiskit-code-assistant-vscode/main/setup_local.sh)
Este script realiza as seguintes etapas:
- Instala o Ollama (se ainda não estiver instalado)
- Baixa e configura o modelo Qiskit Code Assistant recomendado
- Configura a extensão do VS Code para funcionar com a sua implantação local
Configuração da extensão do JupyterLab
Execute o seguinte comando no seu terminal:
bash <(curl -fsSL https://raw.githubusercontent.com/Qiskit/qiskit-code-assistant-jupyterlab/main/setup_local.sh)
Este script irá:
- Instalar o Ollama (se ainda não estiver instalado)
- Baixar e configurar o modelo Qiskit Code Assistant recomendado
- Configurar a extensão do JupyterLab para funcionar com a sua implantação local
Modelos disponíveis
Modelos atuais
Estes são os modelos mais recentes recomendados para uso com o Qiskit Code Assistant:
- Qiskit/mistral-small-3.2-24b-qiskit - Lançado em outubro de 2025
- qiskit/qwen2.5-coder-14b-qiskit - Lançado em junho de 2025
- qiskit/granite-3.3-8b-qiskit - Lançado em junho de 2025
- qiskit/granite-3.2-8b-qiskit - Lançado em junho de 2025
Modelos GGUF (recomendados para ambientes pessoais/laptops)
Os modelos no formato GGUF são otimizados para uso local e exigem menos recursos computacionais:
-
mistral-small-3.2-24b-qiskit-GGUF – Lançado em outubro de 2025 Treinado com dados do Qiskit até a versão 2.1
-
qiskit/qwen2.5-coder-14b-qiskit-GGUF – Lançado em junho de 2025 Treinado com dados do Qiskit até a versão 2.0
-
qiskit/granite-3.3-8b-qiskit-GGUF – Lançado em junho de 2025 Treinado com dados do Qiskit até a versão 2.0
-
qiskit/granite-3.2-8b-qiskit-GGUF – Lançado em junho de 2025 Treinado com dados do Qiskit até a versão 2.0
Os modelos de código aberto do Qiskit Code Assistant estão disponíveis em safetensors ou formato de arquivo GGUF e podem ser baixados do Hugging Face conforme explicado abaixo.
Versões do Qiskit usadas para treinamento
| Modelo | Métricas de benchmark | Data de lançamento | Treinado na versão do Qiskit | |||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| QiskitHumanEval-Hard | QiskitHumanEval | HumanEval | ASDiv | MathQA | SciQ | MBPP | IFEval | CrowsPairs (inglês) | TruthfulQA (MC1 acc) | |||
| mistral-small-3.2-24b-qiskit | 32.45 | 47.02 | 77.49 | 3.77 | 49.68 | 97.50 | 64.00 | 48.44 | 67.08 | 39.41 | Janeiro de 2026 | 2.2 |
| qwen2.5-coder-14b-qiskit | 25.17 | 49.01 | 91.46 | 4.21 | 53.90 | 97.00 | 77.60 | 49.64 | 65.18 | 37.82 | Junho de 2025 | 2.0 |
| granite-3.3-8b-qiskit | 14.57 | 27.15 | 62.80 | 0.48 | 38.66 | 93.30 | 52.40 | 59.71 | 59.75 | 39.05 | Junho de 2025 | 2.0 |
| granite-3.2-8b-qiskit | 9.93 | 24.50 | 57.32 | 0.09 | 41.41 | 96.30 | 51.80 | 60.79 | 66.79 | 40.51 | Junho de 2025 | 2.0 |
| granite-8b-qiskit-rc-0.10 | 15.89 | 38.41 | 59.76 | — | — | — | — | — | — | — | Fevereiro de 2025 | 1.3 |
| granite-8b-qiskit | 17.88 | 44.37 | 53.66 | — | — | — | — | — | — | — | Novembro de 2024 | 1.2 |
Observação: Todos os modelos listados na tabela de benchmark foram avaliados usando seus respectivos prompts de sistema, definidos em seus modelos do Hugging Face.
Modelos descontinuados
Estes modelos não são mais mantidos ativamente, mas continuam disponíveis:
- qiskit/granite-8b-qiskit-rc-0.10 - Lançado em fevereiro de 2025 (descontinuado)
- qiskit/granite-8b-qiskit - Lançado em novembro de 2024 (descontinuado)
Configuração avançada
Se você preferir configurar manualmente o seu ambiente local ou precisar de mais controle sobre o processo de instalação, expanda as seções abaixo.
Baixar pelo site do Hugging Face
Siga estas etapas para baixar qualquer modelo relacionado ao Qiskit Code Assistant pelo site do Hugging Face:
- Navegue até a página do modelo Qiskit desejado no Hugging Face.
- Vá para a aba Files and Versions e baixe os arquivos do modelo em formato safetensors ou GGUF.
Baixar usando a CLI do Hugging Face
Para baixar qualquer um dos modelos disponíveis do Qiskit Code Assistant usando a CLI do Hugging Face, siga estas etapas:
-
Instale a CLI do Hugging Face
-
Faça login na sua conta do Hugging Face
huggingface-cli login -
Baixe o modelo de sua preferência da lista anterior
huggingface-cli download <HF REPO NAME> <MODEL PATH> --local-dir <LOCAL PATH>
Implantar manualmente os modelos do Qiskit Code Assistant localmente via Ollama
Há várias formas de implantar e interagir com o modelo Qiskit Code Assistant baixado. Este guia demonstra o uso do Ollama da seguinte forma: com o aplicativo Ollama por meio da integração com o Hugging Face Hub ou com um modelo local, ou com o pacote llama-cpp-python.
Usando o aplicativo Ollama
O aplicativo Ollama oferece uma solução simples para executar LLMs localmente. É fácil de usar, com uma CLI que torna todo o processo de configuração, gerenciamento de modelos e interação bastante direto. É ideal para experimentação rápida e para usuários que querem lidar com menos detalhes técnicos.
Instalar o Ollama
-
Baixe o aplicativo Ollama
-
Instale o arquivo baixado
-
Inicie o aplicativo Ollama instalado
informaçãoO aplicativo está sendo executado com sucesso quando o ícone do Ollama aparece na barra de menus da área de trabalho. Você também pode verificar se o serviço está em execução acessandohttp://localhost:11434/. -
Experimente o Ollama no seu terminal e comece a executar modelos. Por exemplo:
ollama run hf.co/Qiskit/Qwen2.5-Coder-14B-Qiskit
Configurar o Ollama usando a integração com o Hugging Face Hub
A integração Ollama/Hugging Face Hub oferece uma forma de interagir com modelos hospedados no Hugging Face Hub sem precisar criar um novo modelfile nem baixar manualmente os arquivos GGUF ou safetensors. Os arquivos padrão de template e params já estão incluídos para o modelo no Hugging Face Hub.
-
Certifique-se de que o aplicativo Ollama está em execução.
-
Vá até a página do modelo desejado e copie a URL. Por exemplo, https://huggingface.co/Qiskit/Qwen2.5-Coder-14B-Qiskit-GGUF.
-
No seu terminal, execute o comando:
ollama run hf.co/Qiskit/Qwen2.5-Coder-14B-Qiskit
Você pode usar o modelo hf.co/Qiskit/Qwen2.5-Coder-14B-Qiskit ou qualquer um dos outros modelos GGUF oficiais recomendados atualmente: hf.co/Qiskit/mistral-small-3.2-24b-qiskit-GGUF ou hf.co/Qiskit/granite-3.3-8b-qiskit-GGUF.
Configurar o Ollama com um modelo GGUF do Qiskit Code Assistant baixado manualmente
Se você baixou manualmente um modelo GGUF como https://huggingface.co/Qiskit/Qwen2.5-Coder-14B-Qiskit-GGUF e deseja experimentar diferentes templates e parâmetros, siga estas etapas para carregá-lo no seu aplicativo Ollama local.
-
Crie um
Modelfilecom o seguinte conteúdo e certifique-se de atualizar<PATH-TO-GGUF-FILE>com o caminho real do seu modelo baixado.FROM <PATH-TO-GGUF-FILE>
TEMPLATE """{{ if .System }}
System:
{{ .System }}
{{ end }}{{ if .Prompt }}Question:
{{ .Prompt }}
{{ end }}Answer:
```python{{ .Response }}
"""
PARAMETER stop "Question:"
PARAMETER stop "Answer:"
PARAMETER stop "System:"
PARAMETER stop "```"
PARAMETER temperature 0
PARAMETER top_k 1 -
Run the following command to create a custom model instance based on the
Modelfile.ollama create Qwen2.5-Coder-14B-Qiskit -f ./path-to-model-filenotaThis process may take some time for Ollama to read the model file, initialize the model instance, and configure it according to the specifications provided.
Run the Qiskit Code Assistant model manually downloaded in Ollama
After the Qwen2.5-Coder-14B-Qiskit model has been set up in Ollama, run the following command to launch the model and interact with it in the terminal (in chat mode).
ollama run Qwen2.5-Coder-14B-Qiskit
Some useful commands:
ollama list- List models on your computerollama rm Qwen2.5-Coder-14B-Qiskit- Delete the modelollama show Qwen2.5-Coder-14B-Qiskit- Show model informationollama stop Qwen2.5-Coder-14B-Qiskit- Stop a model that is currently runningollama ps- List which models are currently loaded
Manually deploy the Qiskit Code Assistant models in local through the llama-cpp-python package
An alternative to the Ollama application is the llama-cpp-python package, which is a Python binding for llama.cpp. It gives you more control and flexibility to run the GGUF model locally, and is ideal for users who wish to integrate the local model in their workflows and Python applications.
- Install
llama-cpp-python - Interact with the model from within your application using
llama_cpp. For example:
from llama_cpp import Llama
model_path = <PATH-TO-GGUF-FILE>
model = Llama(
model_path,
seed=17,
n_ctx=10000,
n_gpu_layers=37, # to offload in gpu, but put 0 if all in cpu
)
input = 'Generate a quantum circuit with 2 qubits'
raw_pred = model(input)["choices"][0]["text"]
You can also add text generation parameters to the model to customize the inference:
generation_kwargs = {
"max_tokens": 512,
"echo": False, # Echo the prompt in the output
"top_k": 1
}
raw_pred = model(input, **generation_kwargs)["choices"][0]["text"]
Manually deploy the Qiskit Code Assistant models in local through llama.cpp
Use the llama.cpp library
Another alternative is to use llama.cpp, an open-source library for performing LLM inference on a CPU with minimal setup.
It provides low-level control over the model execution and is typically run from the command line, pointing to a local GGUF model file.
There are several ways to install llama.cpp on your machine:
- Install llama.cpp using brew, nix, or winget
- Run with Docker: See out the Docker documentation by
llama.cppteam - Download pre-built binaries from the releases page
- Build from source by cloning this repository
Once installed, you can use llama.cpp to interact with GGUF models in conversation mode as follows:
# Use a local model file
llama-cli -m my_model.gguf -cnv
# Or download and run a model directly from Hugging Face
llama-cli -hf Qiskit/Qwen2.5-Coder-14B-Qiskit-GGUF -cnv
You can also launch an OpenAI-compatible API server for the model in the following way:
llama-server -hf Qiskit/Qwen2.5-Coder-14B-Qiskit-GGUF
Advanced parameters
With the llama-cli program, you can control the model generation using command-line options. For example, you can provide an initial “system” prompt using the -p/--prompt flag. In conversation mode (-cnv), this initial prompt acts as the system message. Otherwise, you can simply prepend any desired instruction to your prompt text. You can also adjust sampling parameters - for instance: temperature (--temp), top-k (--top-k), top-p (--top-p), repetition penalty (--repeat-penalty), and the seed to use (--seed). The following is an example invocation using these options:
llama-cli -hf Qiskit/Qwen2.5-Coder-14B-Qiskit-GGUF \
-p "You are a friendly assistant." -cnv \
--temp 0.7 \
--top-k 50 \
--top-p 0.95 \
--repeat-penalty 1.1 \
--seed 42
Para garantir o funcionamento correto dos nossos modelos Qiskit, recomendamos usar o prompt de sistema fornecido nos nossos repositórios HF GGUF: prompt de sistema para mistral-small-3.2-24b-qiskit-GGUF, Qwen2.5-Coder-14B-Qiskit-GGUF, granite-3.3-8b-qiskit-GGUF e granite-3.2-8b-qiskit-GGUF.
Conectar extensões manualmente à implantação local
Use a extensão do VS Code e a extensão do JupyterLab para o Qiskit Code Assistant para enviar prompts ao modelo Qiskit Code Assistant implantado localmente. Depois de ter o aplicativo Ollama configurado com o modelo, você pode configurar as extensões para se conectarem ao serviço local.
Conectar com a extensão do VS Code do Qiskit Code Assistant
Com a extensão do VS Code do Qiskit Code Assistant, você pode interagir com o modelo e realizar completação de código enquanto escreve. Isso pode ser bastante útil para usuários que buscam assistência para escrever código Qiskit em suas aplicações Python.
- Instale a extensão do VS Code do Qiskit Code Assistant.
- No VS Code, vá para as Configurações do Usuário e defina o campo Qiskit Code Assistant: Url como a URL da sua implantação local do Ollama (por exemplo,
http://localhost:11434). - Recarregue o VS Code acessando View > Command Palette... e selecionando Developer: Reload Window.
O modelo Qiskit Code Assistant configurado no Ollama deve aparecer na barra de status e estará pronto para uso.
Conectar com a extensão do JupyterLab do Qiskit Code Assistant
Com a extensão do JupyterLab do Qiskit Code Assistant, você pode interagir com o modelo e realizar completação de código diretamente no seu Jupyter Notebook. Usuários que trabalham predominantemente com Jupyter Notebooks podem aproveitar esta extensão para aprimorar ainda mais sua experiência ao escrever código Qiskit.
- Instale a extensão do JupyterLab do Qiskit Code Assistant.
- No JupyterLab, vá para o Settings Editor e defina o campo Qiskit Code Assistant Service API como a URL da sua implantação local do Ollama (por exemplo,
http://localhost:11434).
O modelo Qiskit Code Assistant configurado no Ollama deve aparecer na barra de status e estará pronto para uso.