MT-DWL ViT-KAN: Estimação simultânea de sexo e idade a partir de radiografias panorâmicas
visão computacional, aprendizado profundo, odontologia forense, estimativa de idade, classificação do sexo, multitarefa, Mask Autoencoder, rede Kolmogorov-Arnold, Vision Transformer
A odontologia forense é uma área que aplica conhecimentos científicos para analisar elementos dentários, como dentes e arcadas dentárias, com o objetivo de identificar indivíduos. Essa análise é especialmente valiosa em situações como desastres em massa, investigações criminais e casos de pessoas desaparecidas. Tradicionalmente, a determinação do sexo e da idade é feita por meio de análises morfológicas e métricas de estruturas dentárias e ósseas. No entanto, essas abordagens têm limitações, como a variabilidade dos dados e a subjetividade das análises. Com os avanços no aprendizado profundo, tornou-se possível aplicar visão computacional para analisar radiografias dentárias, utilizando técnicas de classificação e regressão. Esta dissertação propõe uma abordagem Multitask-Dynamic Weighted Loss Vision Transformer-Kolmogorov-Arnold Networks (MT-DWL ViT-KAN) que combina aprendizado multitarefa com pré-treinamento autossupervisionado utilizando Mask Autoencoders, permitindo ao modelo aprender representações latentes robustas de grandes volumes de dados não rotulados. Além disso, as redes Kolmogorov-Arnold são empregadas para decompor relações complexas entre as características dentárias e os rótulos de sexo e idade, melhorando a precisão do modelo. O metodologia denominada também incorpora uma função de perda com ponderação logarítmica dinâmica, que ajusta automaticamente os pesos das tarefas durante o treinamento, garantindo um equilíbrio otimizado entre a classificação do sexo e a estimativa da idade. Em nossos experimentos, a incorporação da estratégia de Mask Autoencoders, que utiliza a arquitetura Vision Transformer, resultou em uma melhoria significativa no desempenho do modelo em comparação com o modelo EfficientNetV2-L pré-treinado na ImageNet. Além disso, ao integrar a rede Kolmogorov-Arnold na camada final multitarefa, obtivemos os melhores resultados entre todas as configurações testadas. O MT-DWL ViT-KAN alcançou um erro absoluto médio de 3,393 anos na estimativa de idade e um F1-score de 0,9421 na classificação de sexo. Esses resultados evidenciam o potencial do modelo proposto em extrair características relevantes de imagens médicas e em realizar previsões multitarefa no cenário da odontologia forense. É importante também que as avaliações futuras considerem a diversidade nas populações de grupos étnicos e no status socioeconômico para uma análise ainda mais abrangente.