O pipeline Lector extrai informações farmacêuticas estruturadas (Evidence Packs) a partir de bulas ANVISA, monografias hospitalares e normas regulatórias. Cada EP é uma unidade atômica de conhecimento — uma indicação, uma posologia, uma contraindicação — rastreável ao trecho exato do documento original.
A extração é feita por um modelo de linguagem (LLM) que recebe a seção da bula e retorna JSON estruturado. A qualidade dessa extração determina diretamente a confiabilidade do PRISMA como referência clínica.
Avaliamos dois caminhos:
Benchmark realizado com a bula de Rocefin (ceftriaxona) — antibiótico com posologia complexa (variação por patógeno, peso, idade), múltiplas indicações e lista extensa de reações adversas. Representa o cenário mais exigente do acervo.
| Tipo de EP | Haiku | Qwen | Δ | Observação |
|---|---|---|---|---|
| Indicações | 16 | 11 | +45% | Haiku separa cada indicação; Qwen agrupa ("infecções ósseas/articulares/tecidos moles" num item só) |
| Contraindicações | 11 | 6 | +83% | Haiku identifica populações especiais (neonatos, gestantes) como contraindicações separadas |
| Advertências | 21 | 13 | +62% | Seção extensa (4.367 caracteres) — Haiku extrai mais precauções individuais |
| Interações | 7 | 6 | +17% | Empate funcional — ambos identificam as interações clinicamente relevantes |
| Posologia | 11 | 6 | +83% | Haiku diferencia por patógeno e população; Qwen agrupa esquemas |
| Reações Adversas | 49 | 38 | +29% | Ambos com boa cobertura; diferença em reações de frequência desconhecida |
| Total | 115 | 80 | +44% |
Rastreabilidade: ambos os modelos atingiram 100% de cobertura de source_excerpt — cada item extraído está vinculado ao trecho exato do documento original. Isto é condição inegociável para uso clínico.
A diferença de 44% não é volume por volume. É precisão clínica. Quando a bula lista "infecções ósseas, articulares, de tecidos moles e de pele", o Haiku cria quatro indicações separadas — cada uma aceitável ou rejeitável individualmente pelo curador. O Qwen agrupa tudo num item: "infecções ósseas/articulares/de tecidos moles/pele/feridas".
Para o farmacêutico curador, a granularidade do Haiku é diretamente útil: ele pode aceitar "infecções ósseas" e rejeitar "infecções de pele" se a evidência não for suficiente. Com o agrupamento do Qwen, é tudo ou nada.
Nenhum dos modelos inventou informação inexistente (zero alucinações detectadas). Ambos responderam em português brasileiro. Ambos seguiram o schema JSON solicitado. A diferença é exclusivamente de granularidade e profundidade — não de precisão factual.
| Critério | Haiku (Batch API) | Qwen (local) |
|---|---|---|
| Custo por bula | ~US$ 0,06 | € 0 (fixo) |
| Custo base de referência (2.000) | ~US$ 120 | € 184 (1 mês) |
| Tempo por bula | ~30s (batch) | ~10 min |
| Items extraídos | 115 | 80 |
| Granularidade clínica | Alta | Média |
| Alucinações | Zero | Zero |
| Rastreabilidade | 100% | 100% |
| Dependência externa | API | Local |
| Escalabilidade | Imediata | Limitada |
A escolha pelo modelo mais caro não é preferência tecnológica — é decisão de responsabilidade clínica.
O PRISMA será referência para prescrição, dispensação e administração de medicamentos. Cada EP curado entra numa ontologia que profissionais de saúde consultam para tomar decisões clínicas. Nesse contexto:
O custo da imprecisão não é financeiro — é clínico. Uma indicação mal granularizada que passa pela curadoria e chega ao profissional de saúde pode levar a uma prescrição inadequada.
O Qwen 2.5:14b não é descartado. Ele serve para:
Usar Claude Haiku via Batch API para geração de Evidence Packs em produção. Custo estimado de US$ 120 para a base de referência completa (~2.000 monografias: 1.500 medicamentos de referência + 466 biológicos), com 44% mais granularidade clínica que a alternativa local.
Manter Qwen 2.5:14b como ferramenta de desenvolvimento, iteração de prompts e validação cruzada — custo zero para testar variações antes de rodar em produção.
O custo de US$ 120 para processar toda a base de referência é inferior a um único mês do servidor Hetzner (€184). O diferencial de qualidade — 44% mais items, granularidade atômica por indicação/patógeno/população — é estrutural e irrecuperável por pós-processamento. Não há trade-off: o modelo superior é também o mais barato para o volume de produção inicial.