banner
Дом / Новости / FracAtlas: набор данных для классификации переломов, локализации и сегментации рентгенограмм скелетно-мышечной системы.
Новости

FracAtlas: набор данных для классификации переломов, локализации и сегментации рентгенограмм скелетно-мышечной системы.

Feb 05, 2024Feb 05, 2024

Научные данные, том 10, Номер статьи: 521 (2023) Цитировать эту статью

1 Альтметрика

Подробности о метриках

Цифровая рентгенография является одним из наиболее распространенных и экономически эффективных стандартов диагностики переломов костей. Для такого диагноза требуется вмешательство специалиста, которое отнимает много времени и требует тщательной подготовки. С недавним развитием алгоритмов компьютерного зрения наблюдается всплеск интереса к компьютерной диагностике. Разработка алгоритмов требует больших наборов данных с соответствующими аннотациями. Существующие наборы рентгеновских данных либо малы, либо не имеют надлежащей аннотации, что затрудняет разработку алгоритмов машинного обучения и оценку относительной производительности алгоритмов классификации, локализации и сегментации. Мы представляем FracAtlas, новый набор данных рентгеновских снимков, составленный на основе изображений, собранных в трех крупных больницах Бангладеш. Наш набор данных включает 4083 изображения, которые были вручную аннотированы для классификации, локализации и сегментации переломов костей с помощью двух опытных рентгенологов и ортопеда с использованием платформы маркировки с открытым исходным кодом makeense.ai. Имеется 717 изображений с 922 случаями переломов. Каждый из экземпляров перелома имеет свою собственную маску и ограничивающую рамку, тогда как сканы также имеют глобальные метки для задач классификации. Мы считаем, что этот набор данных станет ценным ресурсом для исследователей, заинтересованных в разработке и оценке алгоритмов машинного обучения для диагностики переломов костей.

В последние десятилетия наблюдается резкий рост спроса на системы компьютерной диагностики (САПР). Более того, в последнее время в различных областях медицинской науки наблюдается быстрое развитие процессов автоматизации диагностики с использованием больших наборов данных и передовых алгоритмов машинного обучения1,2. Такие модели, как сверточные нейронные сети (CNN)3, «Вы смотрите только один раз» (YOLO)4 и U-NET5, могут достичь экспертной производительности при обнаружении аномалий при рентгеновском сканировании. Для обучения таких моделей требуются большие и хорошо аннотированные наборы данных6,7,8. Такие данные трудно собрать в больницах и диагностических центрах. Процесс аннотации может быть очень дорогостоящим, поскольку требует участия нескольких врачей и рентгенологов для достижения консенсуса в целях устранения предвзятости и человеческих ошибок. Из-за конфиденциального характера медицинских данных также очень сложно сделать полученные данные доступными для публичного использования. Подводя итог, создание таких наборов данных является дорогостоящим и трудоемким2,9.

Некоторые из общедоступных наборов рентгеновских данных, посвященных аномалиям, включают MURA10, MedPix11, GRAZPEDWRI-DX12, IIEST1, MOST13, VinDr-CXR2, VinDr-SpineXR14 и ChestX-ray1415. Среди этих наборов данных MURA представляет собой коллекцию 2D-рентгенограмм скелета мышц с 40 561 изображением из разных областей, таких как локоть, палец, предплечье, кисть, плечевая кость, плечо и запястье10. Каждое изображение помечено как «Нормальное» или «Ненормальное», что делает его пригодным для задач классификации, однако на нем отсутствуют надлежащие аннотации для локализации и сегментации. MedPix — это онлайн-база данных медицинских 2D- и 3D-сканирований различных заболеваний, которые можно отфильтровать по ключевому слову «перелом», в результате чего получается 954 изображения. Эти изображения включают рентгеновские снимки, реальные изображения, магнитно-резонансную томографию (МРТ), компьютерную томографию (КТ) и ультразвуковую визуализацию. Однако в наборе данных есть такие проблемы, как неорганизованные аннотации и изображения с ложной маркировкой, а также некоторые спам-изображения. GRAZPEDWRI-DX — это недавно выпущенный набор данных, содержащий 20 327 сканов с аннотациями по локализации, собранных у 6 091 пациента. Хотя это достаточно большой набор данных, он охватывает только переломы запястья, игнорируя остальные части человеческого тела. IIEST — это небольшой набор данных двумерных рентгеновских снимков, содержащий 217 изображений, из которых 49 здоровых, 99 — с переломами и 69 — сканы раковых костей. Этот набор данных очень мал и недостаточен для машинного обучения. MOST — это набор данных, содержащий 4446 рентгеновских и МРТ-сканирований, маркированных по системе оценок Келлгрена-Лоуренса (KL)16 и имеющих пять классов от 0 до 4 с возрастающей степенью тяжести от одного к другому. Этот набор данных больше не доступен в открытом доступе из-за отсутствия финансирования и закрытия. Он также охватывает только переломы коленного сустава. VinDr-CXR также представляет собой недавно опубликованный набор данных, который содержит 18 000 изображений рентгенограмм грудной клетки (CXR) с ручными аннотациями для локализации. Этот набор данных содержит образцы для 28 различных типов заболеваний и аномалий грудной клетки. Хотя это хороший набор данных для выявления заболеваний грудной клетки, он не подходит для выявления переломов костей. Аналогично, у группы VinDr есть другие наборы данных VinDr-Mammo17, VinDr-SpineXR14 и PediCXR18, которые не подходят для изучения переломов по тем же причинам. ChestX-ray14 — это набор данных рентгенограмм, содержащий 112 000 рентгеновских снимков. Этот набор данных также не подходит для исследования переломов костей, поскольку содержит только образцы заболеваний грудной клетки. Некоторые известные наборы данных рентгенограмм человеческого тела сравниваются с набором данных FracAtlas19 в таблице 1.