Modelos de Geração de EPs — Relatório ao Conselho PharmData

1. Contexto

O pipeline Lector extrai informações farmacêuticas estruturadas (Evidence Packs) a partir de bulas ANVISA, monografias hospitalares e normas regulatórias. Cada EP é uma unidade atômica de conhecimento — uma indicação, uma posologia, uma contraindicação — rastreável ao trecho exato do documento original.

A extração é feita por um modelo de linguagem (LLM) que recebe a seção da bula e retorna JSON estruturado. A qualidade dessa extração determina diretamente a confiabilidade do PRISMA como referência clínica.

Avaliamos dois caminhos:

Claude Haiku (Anthropic) — modelo de linguagem via API, custo por uso
Qwen 2.5:14b (Alibaba/open-source) — modelo local, custo fixo de infraestrutura

2. Resultado do Benchmark

Benchmark realizado com a bula de Rocefin (ceftriaxona) — antibiótico com posologia complexa (variação por patógeno, peso, idade), múltiplas indicações e lista extensa de reações adversas. Representa o cenário mais exigente do acervo.

115

Items Haiku

80

Items Qwen

+44%

Mais granular

100%

Rastreabilidade

Tipo de EP	Haiku	Qwen	Δ	Observação
Indicações	16	11	+45%	Haiku separa cada indicação; Qwen agrupa ("infecções ósseas/articulares/tecidos moles" num item só)
Contraindicações	11	6	+83%	Haiku identifica populações especiais (neonatos, gestantes) como contraindicações separadas
Advertências	21	13	+62%	Seção extensa (4.367 caracteres) — Haiku extrai mais precauções individuais
Interações	7	6	+17%	Empate funcional — ambos identificam as interações clinicamente relevantes
Posologia	11	6	+83%	Haiku diferencia por patógeno e população; Qwen agrupa esquemas
Reações Adversas	49	38	+29%	Ambos com boa cobertura; diferença em reações de frequência desconhecida
Total	115	80	+44%

Rastreabilidade: ambos os modelos atingiram 100% de cobertura de source_excerpt — cada item extraído está vinculado ao trecho exato do documento original. Isto é condição inegociável para uso clínico.

3. Análise Qualitativa

O que significa "mais granular"?

A diferença de 44% não é volume por volume. É precisão clínica. Quando a bula lista "infecções ósseas, articulares, de tecidos moles e de pele", o Haiku cria quatro indicações separadas — cada uma aceitável ou rejeitável individualmente pelo curador. O Qwen agrupa tudo num item: "infecções ósseas/articulares/de tecidos moles/pele/feridas".

Para o farmacêutico curador, a granularidade do Haiku é diretamente útil: ele pode aceitar "infecções ósseas" e rejeitar "infecções de pele" se a evidência não for suficiente. Com o agrupamento do Qwen, é tudo ou nada.

O que ambos fazem bem

Nenhum dos modelos inventou informação inexistente (zero alucinações detectadas). Ambos responderam em português brasileiro. Ambos seguiram o schema JSON solicitado. A diferença é exclusivamente de granularidade e profundidade — não de precisão factual.

      A questão não é se o Qwen funciona. Funciona. A questão é se a diferença de granularidade justifica o custo — e para uma base de conhecimento farmacêutico que será referência clínica, a resposta é sim.
    

4. Análise de Custos

Claude Haiku — Batch API

~US$ 120

Custo estimado para processar ~2.000 monografias de referência (1.500 medicamentos de referência + 466 biológicos).

Batch API: 50% de desconto sobre preço normal.
Input: US$ 0,40/1M tokens · Output: US$ 2,00/1M tokens
~6 seções/bula × ~2k tokens/seção = ~US$ 0,06/bula

Custo pontual, proporcional ao uso. Sem compromisso mensal. Expansão futura para acervo completo (14.338 bulas): ~US$ 860.

Qwen 2.5:14b — Hetzner GEX44

€ 184/mês

Servidor dedicado com GPU. Custo fixo independente do volume.

Tempo por bula: ~10 min (sequencial no Mac Mini, estimado ~3 min no GEX44).
2.000 bulas = ~4 dias no GEX44 (sequencial).

Viável para desenvolvimento e testes. O custo mensal supera o processamento completo via Haiku já no primeiro mês.

Critério	Haiku (Batch API)	Qwen (local)
Custo por bula	~US$ 0,06	€ 0 (fixo)
Custo base de referência (2.000)	~US$ 120	€ 184 (1 mês)
Tempo por bula	~30s (batch)	~10 min
Items extraídos	115	80
Granularidade clínica	Alta	Média
Alucinações	Zero	Zero
Rastreabilidade	100%	100%
Dependência externa	API	Local
Escalabilidade	Imediata	Limitada

5. Fundamento da Decisão

A escolha pelo modelo mais caro não é preferência tecnológica — é decisão de responsabilidade clínica.

Por que não o modelo mais barato?

O PRISMA será referência para prescrição, dispensação e administração de medicamentos. Cada EP curado entra numa ontologia que profissionais de saúde consultam para tomar decisões clínicas. Nesse contexto:

Uma indicação que deveria ser um item separado mas foi agrupada com outras impede o curador de aceitar ou rejeitar individualmente
Uma posologia que não diferencia por patógeno obscurece a dose correta para cada situação clínica
Uma contraindicação que não identifica a população especial dilui a informação de segurança

O custo da imprecisão não é financeiro — é clínico. Uma indicação mal granularizada que passa pela curadoria e chega ao profissional de saúde pode levar a uma prescrição inadequada.

Onde o modelo local agrega valor

O Qwen 2.5:14b não é descartado. Ele serve para:

Desenvolvimento e iteração de prompts — custo zero para testar variações
Classificação de seções — tarefa simples onde qualidade é suficiente
Fallback — em caso de indisponibilidade temporária da API
Validação cruzada — comparar extrações para detectar divergências

Recomendação

Usar Claude Haiku via Batch API para geração de Evidence Packs em produção. Custo estimado de US$ 120 para a base de referência completa (~2.000 monografias: 1.500 medicamentos de referência + 466 biológicos), com 44% mais granularidade clínica que a alternativa local.

Manter Qwen 2.5:14b como ferramenta de desenvolvimento, iteração de prompts e validação cruzada — custo zero para testar variações antes de rodar em produção.

O custo de US$ 120 para processar toda a base de referência é inferior a um único mês do servidor Hetzner (€184). O diferencial de qualidade — 44% mais items, granularidade atômica por indicação/patógeno/população — é estrutural e irrecuperável por pós-processamento. Não há trade-off: o modelo superior é também o mais barato para o volume de produção inicial.

Modelos de Geração de Evidence Packs: Custo, Qualidade e Decisão Estratégica