PharmData — Conselho Deliberativo

Modelos de Geração de Evidence Packs: Custo, Qualidade e Decisão Estratégica

28 de março de 2026 · Pipeline Lector · Benchmark v1

1. Contexto

O pipeline Lector extrai informações farmacêuticas estruturadas (Evidence Packs) a partir de bulas ANVISA, monografias hospitalares e normas regulatórias. Cada EP é uma unidade atômica de conhecimento — uma indicação, uma posologia, uma contraindicação — rastreável ao trecho exato do documento original.

A extração é feita por um modelo de linguagem (LLM) que recebe a seção da bula e retorna JSON estruturado. A qualidade dessa extração determina diretamente a confiabilidade do PRISMA como referência clínica.

Avaliamos dois caminhos:

2. Resultado do Benchmark

Benchmark realizado com a bula de Rocefin (ceftriaxona) — antibiótico com posologia complexa (variação por patógeno, peso, idade), múltiplas indicações e lista extensa de reações adversas. Representa o cenário mais exigente do acervo.

115
Items Haiku
80
Items Qwen
+44%
Mais granular
100%
Rastreabilidade
Tipo de EP Haiku Qwen Δ Observação
Indicações 16 11 +45% Haiku separa cada indicação; Qwen agrupa ("infecções ósseas/articulares/tecidos moles" num item só)
Contraindicações 11 6 +83% Haiku identifica populações especiais (neonatos, gestantes) como contraindicações separadas
Advertências 21 13 +62% Seção extensa (4.367 caracteres) — Haiku extrai mais precauções individuais
Interações 7 6 +17% Empate funcional — ambos identificam as interações clinicamente relevantes
Posologia 11 6 +83% Haiku diferencia por patógeno e população; Qwen agrupa esquemas
Reações Adversas 49 38 +29% Ambos com boa cobertura; diferença em reações de frequência desconhecida
Total 115 80 +44%

Rastreabilidade: ambos os modelos atingiram 100% de cobertura de source_excerpt — cada item extraído está vinculado ao trecho exato do documento original. Isto é condição inegociável para uso clínico.

3. Análise Qualitativa

O que significa "mais granular"?

A diferença de 44% não é volume por volume. É precisão clínica. Quando a bula lista "infecções ósseas, articulares, de tecidos moles e de pele", o Haiku cria quatro indicações separadas — cada uma aceitável ou rejeitável individualmente pelo curador. O Qwen agrupa tudo num item: "infecções ósseas/articulares/de tecidos moles/pele/feridas".

Para o farmacêutico curador, a granularidade do Haiku é diretamente útil: ele pode aceitar "infecções ósseas" e rejeitar "infecções de pele" se a evidência não for suficiente. Com o agrupamento do Qwen, é tudo ou nada.

O que ambos fazem bem

Nenhum dos modelos inventou informação inexistente (zero alucinações detectadas). Ambos responderam em português brasileiro. Ambos seguiram o schema JSON solicitado. A diferença é exclusivamente de granularidade e profundidade — não de precisão factual.

A questão não é se o Qwen funciona. Funciona. A questão é se a diferença de granularidade justifica o custo — e para uma base de conhecimento farmacêutico que será referência clínica, a resposta é sim.

4. Análise de Custos

Qwen 2.5:14b — Hetzner GEX44
€ 184/mês
Servidor dedicado com GPU. Custo fixo independente do volume.

Tempo por bula: ~10 min (sequencial no Mac Mini, estimado ~3 min no GEX44).
2.000 bulas = ~4 dias no GEX44 (sequencial).

Viável para desenvolvimento e testes. O custo mensal supera o processamento completo via Haiku já no primeiro mês.
Critério Haiku (Batch API) Qwen (local)
Custo por bula~US$ 0,06€ 0 (fixo)
Custo base de referência (2.000)~US$ 120€ 184 (1 mês)
Tempo por bula~30s (batch)~10 min
Items extraídos11580
Granularidade clínicaAltaMédia
AlucinaçõesZeroZero
Rastreabilidade100%100%
Dependência externaAPILocal
EscalabilidadeImediataLimitada

5. Fundamento da Decisão

A escolha pelo modelo mais caro não é preferência tecnológica — é decisão de responsabilidade clínica.

Por que não o modelo mais barato?

O PRISMA será referência para prescrição, dispensação e administração de medicamentos. Cada EP curado entra numa ontologia que profissionais de saúde consultam para tomar decisões clínicas. Nesse contexto:

O custo da imprecisão não é financeiro — é clínico. Uma indicação mal granularizada que passa pela curadoria e chega ao profissional de saúde pode levar a uma prescrição inadequada.

Onde o modelo local agrega valor

O Qwen 2.5:14b não é descartado. Ele serve para:

Recomendação

Usar Claude Haiku via Batch API para geração de Evidence Packs em produção. Custo estimado de US$ 120 para a base de referência completa (~2.000 monografias: 1.500 medicamentos de referência + 466 biológicos), com 44% mais granularidade clínica que a alternativa local.

Manter Qwen 2.5:14b como ferramenta de desenvolvimento, iteração de prompts e validação cruzada — custo zero para testar variações antes de rodar em produção.

O custo de US$ 120 para processar toda a base de referência é inferior a um único mês do servidor Hetzner (€184). O diferencial de qualidade — 44% mais items, granularidade atômica por indicação/patógeno/população — é estrutural e irrecuperável por pós-processamento. Não há trade-off: o modelo superior é também o mais barato para o volume de produção inicial.