Nature Machine Intelligence: nova métrica "unfamiliarity" mostra quando o ML pode ser confiável na descoberta de fármacos

Resumo: A revista Nature Machine Intelligence publicou em junho de 2026 o trabalho Molecular deep learning at the edge of chemical space, que propõe uma nova métrica chamada unfamiliarity para medir, antes de qualquer ensaio, quando um modelo de aprendizado de máquina molecular pode ser confiável fora dos dados em que foi treinado. A métrica foi validada em mais de 30 conjuntos de dados de bioatividade e ajudou a descobrir inibidores ativos contra dois alvos quinase clinicamente relevantes. Para empresas de descoberta de fármacos, é uma resposta direta a uma das maiores fraquezas do ML em química: a generalização.

O problema: ML que só vê o que já viu

Modelos de propriedade molecular treinados em datasets como ChEMBL ou MoleculeNet costumam acertar dentro da distribuição química do treino — e errar feio quando o químico medicinal manda uma molécula com um scaffold novo, exatamente onde a descoberta de fármacos importa. Esse distribution shift é o equivalente em química do que os autônomos enfrentam em estradas não mapeadas: o modelo opera, mas não sabe que não sabe.

O que é “unfamiliarity”

Os autores propõem treinar um modelo que faz duas coisas ao mesmo tempo: prever a propriedade (ex.: afinidade ao alvo) e reconstruir a molécula a partir do seu embedding. A qualidade da reconstrução vira um termômetro: quanto pior o modelo reconstrói, mais “desconhecida” a molécula é para ele — daí o nome unfamiliarity. A métrica funciona como um indicador prévio: antes de confiar na predição de bioatividade, o químico medicinal olha o número de unfamiliarity e decide se faz sentido investir bancada.

Resultados que chamam a atenção

Em análise sistemática sobre mais de 30 datasets de bioatividade, a unfamiliarity:

Identificou de forma robusta moléculas out-of-distribution.
Previu, com correlação alta, a queda de performance do classificador em regiões novas do espaço químico.
Permitiu, na validação experimental, encontrar inibidores ativos de dois alvos quinase relevantes para câncer — mostrando que o método não é só estatística, ele aponta para moléculas que de fato funcionam.

Por que importa

Toda a indústria farmacêutica que aposta em ML para reduzir custo de R&D enfrenta o mesmo dilema: quanto confiar em uma predição? Sem unfamiliarity (ou métrica equivalente), um modelo entrega ranking sem dizer onde está adivinhando. Com a métrica, o pipeline ganha um gate objetivo entre o ML e o ensaio caro. Isso muda como CROs, biotechs e big pharmas alocam capital — e como contratos de IA com fornecedores podem ser estruturados (por exemplo, pagamento variável por confiança da predição).

Status no Brasil

O Brasil tem laboratórios fortes em química medicinal (LADETEC/UFRJ, UNICAMP, IFSC-USP, Fiocruz) e iniciativas nascentes em IA para descoberta — incluindo o programa Brazilian AI Drug Discovery e parcerias com EMBRAPII. A barreira histórica é dado: bibliotecas químicas reais e ensaios pareados são caros e pouco compartilhados. A unfamiliarity ajuda aqui de duas formas: (1) viabiliza usar modelos pré-treinados em ChEMBL com mais segurança em séries químicas próprias; (2) abre caminho para combinar ML com química computacional clássica (docking, MD) só quando a métrica disser que vale o custo. Empresas como Aché, Eurofarma e Cristália têm muito a ganhar embutindo isso nas etapas iniciais de hit-to-lead.

Riscos e limitações

Três pontos a observar. (1) Unfamiliarity mede distância no espaço de embeddings — se o embedding é pobre, a métrica também é. (2) O método foi validado em alvos quinase; transferir para outros (GPCRs, proteínas desordenadas, RNA) ainda exige replicação. (3) A “unfamiliarity baixa” não significa “predição boa” — apenas “predição dentro da distribuição”; o modelo ainda pode errar por motivos estatísticos clássicos. A leitura correta é: descartar moléculas com alta unfamiliarity, validar experimentalmente as de baixa unfamiliarity com bom score.

Análise SWOT econômica

Forças

Métrica simples, derivada do próprio modelo — sem custo de inferência adicional.
Validação experimental real, não só benchmark sintético.
Compatível com qualquer pipeline que use embeddings moleculares.

Fraquezas

Depende fortemente da qualidade do encoder.
Não substitui validação experimental.
Curva de aprendizado para times de química sem ML in-house.

Oportunidades

Servir de gate em contratos de IA com pharma (pagamento por confiança).
Plataformas SaaS de descoberta podem expor o número como API.
Aceleração de hit-to-lead com menor desperdício de ensaio.

Ameaças

Concorrência de métricas proprietárias de big pharmas e CROs.
Risco regulatório: agências querem critérios reproduzíveis para validar modelos.
Dependência de qualidade do dataset de treino, que segue desigual no setor.

Cenário para os próximos 12 meses

Esperamos que a unfamiliarity (ou variantes) entre como critério em pipelines de empresas como Recursion, Insitro, Schrödinger e parceiros brasileiros, e que apareçam camadas open source (RDKit, DeepChem) implementando a métrica. Em paralelo, FDA e EMA devem incorporar discussões sobre “confidence-aware ML” em guidance sobre uso de IA em descoberta de fármacos — o Brasil, via ANVISA, deve seguir a tendência alguns trimestres depois.

Conclusão prática

Para times de descoberta, o recado é: pare de ranquear moléculas só por predicted score; combine sempre com uma métrica de confiança como a unfamiliarity. Para gestores de plataforma, é hora de revisar contratos com fornecedores de IA molecular e exigir relatório por molécula que inclua score + métrica de confiança. Como em qualquer aplicação de IA em saúde, validação experimental e revisão humana qualificada continuam não-negociáveis.

Fonte original: Nature Machine Intelligence — Molecular deep learning at the edge of chemical space.