|
|
Архив публикацийТезисыXXXIII-ая конференцияМодель на основе импульсных трансформеров для мультимодальной обработки медицинских изображенийШаньдунская академия наук, Государственная ключевая лаборатория вычислительной мощности, интернета и информационной безопасности, ул. Цзинши Ист, 28666, район Личэн, провинция Шаньдун, Китай. 1 стр. (принято к публикации)Импульсные нейронные сети (SNN), нейронные сети третьего поколения, обладают пространственно-временным кодированием и энергоэффективными характеристиками, находящимися на применении в интерфейсе мозг-компьютер (BCI), машинном восприятии и обработке естественного языка (NLP). Однако SNN демонстрируют ограниченную производительность по сравнению с традиционными глубокими нейронными сетями (DNN), главным образом из-за нестабильных циклов обучения[1] и накопления задержки на нескольких временных шагах. В данном исследовании разработана гибридная модель Spiking-Transformer, которая сочетает пространственно-временное кодирование SNN с многоголовочным механизмом самовнимания, что позволяет эффективно моделировать пространственные зависимости на больших расстояниях в медицинских изображениях и направлено на повышение точности классификации модели и ее обобщающей способности для различных задач обработки изображений. Предложенная гибридная архитектура включает механизм эффективного по времени обучения (TET) и методы улучшения изображений для снижения вычислительных затрат при сохранении пространственно-временной информации. В отличие от существующих моделей Transformer, основанных на механизме внимания (Spike-driven Transformer) [2], предлагаемая архитектура поддерживает как двухмерные, так и трехмерные медицинские изображения и совместима с существующими конвейерами глубокого обучения. Мы обучили модель на эталонных наборах данных MedMNIST[3], при этом все эксперименты проводились на графическом процессоре NVIDIA T4, используя функцию потерь кросс-энтропии (LOSSCE) для оценки. Экспериментальные результаты показывают, что средняя потеря модели составляет около 2 к 3-й эпохе (т.е. общему количеству циклов обучения), а средняя точность top-5 на тестовом наборе составляет приблизительно 0,74. Эти результаты показывают тенденцию к снижению потерь модели в течение первых трех эпох, что согласуется с медленной сходимостью, наблюдаемой при обучении SNN, указывая на то, что модель эффективно обучается, практически без признаков переобучения. Дальнейшая работа будет направлена на увеличение количества эпох обучения и расширение архитектуры до задач сегментации с целью смягчения проблемы затухания градиентов или снижения скорости обучения, что в конечном итоге сделает модель пригодной для реальных многомодальных задач и клинической диагностики с использованием ИИ. Литература. 1. Yamazaki K., et al. Spiking Neural Networks and Their Applications: A Review // Brain Sciences Vol. 12, 2022. pp. 863. 2. M. Yao et al., “Spike-driven Transformer V2: Meta Spiking Neural Network Architecture Inspiring the Design of Next-generation Neuromorphic Chips,” Feb. 2024, doi: 2404.03663v1. 3. M. Yao et al. MedMNIST v2 - A Large-Scale Lightweight Benchmark for 2D and 3D Biomedical Image Classification // Scientific Data Vol. 10, 2023. pp. 41. |