HEMO 2025 / III Simpósio Brasileiro de Citometria de Fluxo
Mais dadosA translocação que forma o gene de fusão BCR-ABL t(9;22) e seus transcritos b2a2 (e13a2) e b3a2 (e14a2) é um marcador molecular importante no diagnóstico de cerca de 95% dos casos de Leucemia Mielóide Crônica e 5% da Leucemia Linfoblástica Aguda. A Reação em Cadeira da Polimerase em Tempo Real (RT-qPCR) é método padrão-ouro na detecção desses transcritos. Contudo, estratégias computacionais como Machine Learning (ML) podem explorar variáveis laboratoriais e demográficas rotineiras, ampliando o suporte à tomada de decisão e à triagem laboratorial. Machine Learning (ML) é um conjunto de métodos computacionais capazes de “aprender” padrões a partir de dados e fazer previsões ou classificações sem programação explícita para cada regra. No contexto laboratorial, esses algoritmos conseguem combinar variáveis (como idade, sexo e parâmetros hematológicos) para estimar a probabilidade de um desfecho molecular (como a detecção dos transcritos BCR-ABL).
ObjetivosAvaliar o desempenho de algoritmos de ML na predição de resultados de RT-qPCR para BCR-ABL, com base em dados laboratoriais e demográficos de pacientes atendidos na Fundação Centro de Hemoterapia e Hematologia (HEMOPA).
Material e métodosEstudo retrospectivo, transversal e quantitativo, aprovado pelo Comitê de Ética (CAAE: 20528519.8.0000.5550). Os dados utilizados foram obtidos de ensaios realizados no Laboratório de Biologia Molecular e Celular no HEMOPA 2015 a 2019. Os modelos foram treinados e avaliados na plataforma Orange Data Mining, com base em resultados de RT-qPCR, com desfecho Detectável (Det)/Indetectável (Ind) ocultado no conjunto de teste. Para treinamento, empregaram-se 368 exames coletados entre 2015-2018; o conjunto de validação incluiu 73 amostras de 2019. Como variáveis preditoras, incluiram dados demográficos (sexo e idade) e parâmetros do hemograma. Empregou-se validação cruzada estratificada (widget Test and Score) e matriz de confusão para aferir acertos e erros do treino e avaliar os algoritimos com maior desempenho.
ResultadosNa fase de treinamento, os algoritmos Random Forest, Neural Network, Logistic Regression, Gradient Boosting, AdaBoost e Decision Tree apresentaram um bom desempenho (acurácia >75%). No teste com 73 amostras, as taxas de acerto dos quatro melhores modelos foram: Random Forest (62/73; 84,9% — Det: 31/33; Ind: 31/40), Gradient Boosting (61/73; 83,6% — Det: 30/33; Ind: 31/40), Logistic Regression (60/73; 82,2% — Det: 27/33; Ind: 33/40) e Neural Network (56/73; 76,7% — Det: 32/33; Ind: 24/40).
Discussão e conclusãoAlgoritmos de ensemble (Random Forest e Gradient Boosting) apresentaram melhor acurácia e equilíbrio entre sensibilidade e especificidade frente a métodos tradicionais e redes neurais, se mostrando promissores para contribuir no controle de qualidade dos testes de qPCR para BCR/ABL. Apesar da adoção crescente de ML na saúde, seu uso formal em rotina laboratorial ainda não é tão comum. Este estudo evidencia o potencial do aprendizado de máquina para otimizar resultados. Os modelos de ML utilizados demonstram capacidade promissora na predição de resultados. Futuras pesquisas devem otimizar parâmetros, ampliar dados, incluir variáveis clínicas e realizar validação multicêntrica para consolidar resultados e incentivar sua adoção em rotina laboratorial, contribuindo na melhoria de recursos diagnósticos no contexto do SUS.




