Modelos de inteligência artificial vêm sendo cada vez mais utilizados em tarefas como triagem de pacientes e previsão de riscos na área da saúde. No entanto, quando treinados com bases de dados que não refletem de maneira equilibrada a diversidade da população, esses sistemas podem reproduzir vieses e gerar resultados desiguais entre gêneros, grupos étnico-raciais e diferentes faixas etárias.
Um estudo conduzido no Instituto de Ciência e Tecnologia da Universidade Federal de São Paulo (ICT-Unifesp), no campus de São José dos Campos, em colaboração com pesquisadores internacionais, propõe uma nova estratégia de otimização capaz de incorporar múltiplas restrições de equidade durante o treinamento dos modelos. O objetivo é reduzir disparidades sem comprometer o desempenho geral dos algoritmos. O trabalho foi publicado na revista Applied Soft Computing.
Segundo Lilian Berton, professora do ICT-Unifesp e coordenadora da pesquisa, os algoritmos de aprendizado de máquina dependem fortemente dos dados utilizados em seu treinamento. “Os algoritmos de aprendizado de máquina precisam de dados de treinamento. E, em muitos cenários reais, esses dados são desbalanceados em relação a gênero, grupos étnico-raciais e faixas etárias. Como o algoritmo aprende melhor com os dados mais abundantes, seus resultados tendem a ser menos precisos para mulheres, negros ou indígenas e pessoas com idades fora do padrão médio. Isso pode ser crítico no campo da saúde, porque estamos lidando com diagnósticos e vidas humanas”, afirma a pesquisadora, que atua em aplicações de inteligência artificial em saúde, redes sociais, clima, finanças e indústria 4.0.
O estudo se insere no campo da chamada fairness, termo que ainda não possui tradução consolidada para o português, mas que costuma ser associado ao conceito de equidade. “A tradução mais usada e mais aceita no Brasil é ‘equidade’. Tem pessoas usando as expressões ‘equidade algorítmica’ ou ‘justiça algorítmica’. Para alcançar essa meta, estamos propondo uma otimização multiobjetivo com mais de uma restrição em relação à equidade”, explica Berton.
Tradicionalmente, modelos de aprendizado de máquina são ajustados para maximizar métricas globais de desempenho, como a acurácia, sem levar em conta possíveis vieses. Já as técnicas de mitigação de vieses existentes, em muitos casos, reduzem o desempenho médio do modelo. Encontrar um equilíbrio entre esses fatores era um desafio ainda pouco explorado na literatura científica. A proposta do estudo foi tratar o treinamento como um problema multiobjetivo, no qual desempenho e diferentes métricas de equidade são otimizados ao mesmo tempo.
No contexto do aprendizado de máquina, as principais taxas avaliadas incluem verdadeiros positivos (pessoas doentes corretamente identificadas), falsos positivos (pessoas saudáveis classificadas como doentes), verdadeiros negativos (pessoas saudáveis corretamente identificadas) e falsos negativos (pessoas doentes classificadas como saudáveis). Cada uma dessas taxas dá origem a métricas específicas.
“O algoritmo pode atribuir mais falsos positivos para um recorte demográfico do que para outro. Isso é um viés. Pode também atribuir mais falsos negativos para o mesmo ou para outros recortes. Isso é outro viés. Ambos os comportamentos estão relacionados com vieses. Mas são acessados por meio de métricas distintas. Nosso estudo, como foi dito, conjugou três objetivos: o desempenho e pelo menos duas métricas de equidade diferentes”, reforça Berton.
A metodologia foi testada em três bases públicas de dados clínicos: arritmia, com 452 pacientes; diabetes, com 1.635 pacientes; e hemorragia intracraniana, com 526 pacientes. Dependendo do conjunto, foram analisados atributos como gênero, etnia e idade.
Nos experimentos iniciais sem restrições de equidade, o conjunto de arritmia apresentou uma diferença de paridade demográfica de 0,4543 entre grupos definidos por gênero. Com a aplicação do modelo que considerou simultaneamente gênero e idade, essa diferença caiu para menos de 0,1, representando uma redução de cerca de 78% na disparidade.
No caso do diabetes, a desigualdade inicial associada à etnia era de 0,0110 e foi reduzida para menos de 0,005, o que corresponde a uma diminuição superior a 54% no viés racial, sem prejuízo perceptível nas métricas de desempenho. Já no conjunto de hemorragia intracraniana, a abordagem também apresentou melhorias estatisticamente significativas, indicando robustez mesmo em cenários com dados limitados.
Para confirmar que os resultados não eram fruto do acaso, os pesquisadores aplicaram o teste estatístico não paramétrico de Wilcoxon, que avalia se diferenças entre conjuntos de resultados são significativas. Na maioria dos cenários analisados, os testes indicaram um nível de confiança superior a 99% de que as melhorias observadas em equidade e equilíbrio foram consequência direta da metodologia adotada.
De acordo com Berton, os experimentos foram realizados respeitando os custos computacionais. “Em alguns casos utilizamos plataformas gratuitas, como o Google Colab, que oferece recursos adequados para aprendizado de máquina. Quando necessário, recorremos a clusters de alto desempenho, como o supercomputador Santos Dumont, no Brasil”, relata.
Os resultados sugerem que tratar a equidade algorítmica como um problema de otimização interseccional permite avançar além de soluções pontuais, normalmente focadas em um único atributo sensível. Ao equilibrar desempenho e equidade, a metodologia aumenta a confiabilidade e a robustez de decisões clínicas apoiadas por algoritmos.
O estudo, entretanto, limita-se a modelos lineares de regressão logística e a dados tabulares. A aplicação da abordagem a modelos não lineares, como redes neurais profundas, e a outros tipos de dados, como imagens médicas e séries temporais, permanece como um desafio para pesquisas futuras.
A pesquisa contou com apoio da FAPESP, por meio de auxílio à pesquisa e de bolsa de pós-doutorado concedida a Maira Blumer Fatoretto, primeira autora do estudo.
O artigo Optimizing fairness and utility in healthcare machine learning models está disponível na plataforma ScienceDirect.
LEIA TAMBÉM:
Deixe um comentário