banner

Noticias

May 30, 2023

HyperKvasir, un completo multi

Scientific Data volumen 7, Número de artículo: 283 (2020) Citar este artículo

22k Accesos

109 citas

48 Altmetric

Detalles de métricas

La inteligencia artificial es actualmente un tema candente en la medicina. Sin embargo, los datos médicos a menudo son escasos y difíciles de obtener debido a las restricciones legales y la falta de personal médico para el engorroso y tedioso proceso de etiquetar manualmente los datos de entrenamiento. Estas limitaciones dificultan el desarrollo de sistemas de análisis automático, como la detección de enfermedades u otras lesiones. En este sentido, este artículo presenta HyperKvasir, el mayor conjunto de datos de imágenes y videos del tracto gastrointestinal disponible en la actualidad. Los datos se recopilan durante exámenes reales de gastroscopia y colonoscopia en el Hospital Bærum de Noruega y, en parte, son etiquetados por endoscopistas gastrointestinales experimentados. El conjunto de datos contiene 110 079 imágenes y 374 videos, y representa puntos de referencia anatómicos, así como hallazgos patológicos y normales. El número total de imágenes y cuadros de video juntos es de alrededor de 1 millón. Los experimentos iniciales demuestran los beneficios potenciales de los sistemas de diagnóstico asistidos por computadora basados ​​en inteligencia artificial. El conjunto de datos de HyperKvasir puede desempeñar un papel valioso en el desarrollo de mejores algoritmos y sistemas de examen asistidos por computadora no solo para gastro y colonoscopia, sino también para otros campos de la medicina.

Mediciones)

luz del tubo digestivo • luz del colon

Tipos de tecnología

Endoscopia gastrointestinal • Colonoscopia

Muestra Característica - Organismo

Un hombre sabio

Archivo de metadatos accesible por máquina que describe los datos informados: https://doi.org/10.6084/m9.figshare.12759833

El tracto gastrointestinal (GI) humano está sujeto a numerosos hallazgos anormales diferentes en la mucosa que van desde molestias menores hasta enfermedades altamente letales. Por ejemplo, según la Agencia Internacional para la Investigación del Cáncer (https://gco.iarc.fr/today/fact-sheets-cancers), la agencia especializada en cáncer de la Organización Mundial de la Salud (OMS), el cáncer GI representa globalmente unos 3,5 millones de casos nuevos cada año. Estos tipos de cáncer suelen tener una mortalidad combinada de alrededor del 63 % y 2,2 millones de muertes al año1,2,3.

La endoscopia es actualmente el procedimiento estándar de oro para examinar el tracto GI, pero su efectividad está considerablemente limitada por la variación en el desempeño del operador4,5,6. Esto provoca, por ejemplo, una tasa de ausencia de pólipos promedio del 20 % en el colon7. Por lo tanto, el rendimiento endoscópico mejorado, los exámenes clínicos de alta calidad y la detección sistemática son factores importantes para prevenir la morbilidad y las muertes relacionadas con enfermedades gastrointestinales. El reciente auge de los sistemas de apoyo habilitados con inteligencia artificial (IA) se ha mostrado prometedor al brindar a los profesionales de la salud las herramientas necesarias para brindar atención de calidad a gran escala8,9. El núcleo de un sistema eficiente basado en IA es la combinación de datos de calidad y algoritmos que enseñan a un modelo a resolver problemas del mundo real, como detectar lesiones precancerosas o cánceres en imágenes. Los sistemas basados ​​en IA de hoy utilizan predominantemente un subcampo de IA llamado aprendizaje automático (ML), que generalmente requiere capacitación en miles de muestras de datos para desempeñarse bien en cualquier tarea determinada. Sin embargo, los datos de salud suelen ser escasos y difíciles de obtener debido a restricciones legales y problemas estructurales en la recopilación de datos. No obstante, se está desarrollando un número cada vez mayor de soluciones de IA prometedoras destinadas al diagnóstico en endoscopia10,11,12,13,14,15,16,17. Los conjuntos de datos utilizados para estos sistemas, como CVC18,19 y la base de datos de pólipos ASU-Mayo20, son bastante pequeños en el contexto de la investigación de ML. En otras áreas de ML no médicas, los conjuntos de datos como ImageNet21 consisten en 14 millones de imágenes. La Tabla 1 ofrece una descripción general de todos, según nuestro conocimiento, los conjuntos de datos existentes de imágenes y videos del tracto GI humano. Como se puede observar, son más bien pequeños y, a menudo, se limitan a pólipos. Varios de estos también han dejado de estar disponibles últimamente.

Las imágenes y videos en HyperKvasir se recopilaron prospectivamente a partir de exámenes clínicos de rutina realizados en un hospital noruego entre 2008 y 2016. Obtuvimos las imágenes de la base de datos de documentación de imágenes de Picsara (CSAM, Noruega), un complemento del sistema de registro médico electrónico, en 2016. Como primer paso, 4000 de estas imágenes fueron clasificadas en ocho clases diferentes por expertos médicos y publicadas como el conjunto de datos de Kvasir22. Posteriormente, el conjunto de datos se amplió a 8.000 imágenes. Utilizando Kvasir, investigadores de todo el mundo han comenzado a desarrollar diferentes modelos de aprendizaje automático y sistemas de IA para endoscopia GI23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38 . Además, el conjunto de datos de Kvasir se ha utilizado para organizar competiciones internacionales, es decir, Medico Task en MediaEval en 201739 y 201840 y ACM Multimedia 2019 BioMedia Grand Challenge41.

Según las lecciones aprendidas de la publicación del conjunto de datos de Kvasir y la organización de competencias, quedó claro que uno de los mayores desafíos en la IA médica sigue siendo la disponibilidad de datos. Los datos son difíciles de recuperar de los sistemas de atención médica, las aprobaciones de los comités médicos son difíciles de obtener, los expertos médicos tienen tiempo limitado y no existen herramientas eficientes para etiquetar dichos datos. Por lo tanto, con HyperKvasir, aumentamos significativamente la cantidad de datos médicos etiquetados para el aprendizaje supervisado y también liberamos una gran cantidad de datos no etiquetados. El nuevo conjunto de datos contiene 110 079 imágenes y 374 videos de varios exámenes gastrointestinales, lo que da como resultado 1 millón de imágenes y marcos en total. Con respecto al valor de los datos sin etiquetar, el trabajo reciente en la comunidad de ML ha mostrado mejoras notables para abordar el desafío de la falta de datos. En lugar de aprender de un gran conjunto de datos anotados, los algoritmos ahora pueden aprender de datos escasamente etiquetados y sin etiquetar. Esta técnica se conoce como aprendizaje semisupervisado y últimamente se ha aplicado con éxito en diferentes análisis de imágenes médicas42. Ejemplos de aprendizaje semisupervisado son el autoaprendizaje43,44 y el aprendizaje de gráficos neuronales45, que utilizan datos no etiquetados además de una pequeña cantidad de datos etiquetados para extraer información adicional43,44,46. Creemos que estos nuevos algoritmos podrían ser el desarrollo necesario para hacer que la IA sea aún más útil para las aplicaciones médicas. Los datos no etiquetados de HyperKvasir están destinados a ser utilizados en comunidades médicas y técnicas para explorar métodos semisupervisados ​​y no supervisados, y los usuarios de los datos podrían incluso considerar emplear a sus propios expertos locales para proporcionar etiquetas. Posteriormente, además de la descripción de los datos, proporcionamos un análisis de referencia utilizando las clases etiquetadas del conjunto de datos y direcciones de investigación futuras factibles para los investigadores interesados ​​en utilizar el conjunto de datos.

Los datos de imagen y video se recopilaron utilizando equipos de endoscopia estándar de Olympus (Olympus Europe, Alemania) y Pentax (Pentax Medical Europe, Alemania) en el Departamento de Gastroenterología, Bærum Hospital, Vestre Viken Hospital Trust, Noruega. Vestre Viken brinda servicios de atención médica a 490 000 personas, de las cuales 189 000 están cubiertas por el hospital Bærum. Partes de los datos recopilados se anotaron con etiquetas de clase y máscaras de segmentación. Las anotaciones fueron realizadas por al menos un gastroenterólogo experimentado del hospital Bærum, el Registro de Cáncer de Noruega o el Hospital Universitario Karolinska en Suecia, y una o más personas con experiencia que trabajan en el campo de la medicina, como un médico junior o Ph.D. alumno. Aunque varios médicos han evaluado cada registro de datos etiquetados del conjunto de datos, existe la posibilidad de que algunas de las evaluaciones estén sesgadas por la conocida variación del observador, en particular con respecto a cambios sutiles como la esofagitis por reflujo de bajo grado y la colitis ulcerosa. Tales discrepancias han sido demostradas en estudios previos47,48. Para abordar esto aún más, decidimos combinar algunos de los hallazgos que son propensos al sesgo en una clase (los detalles sobre las clases y las combinaciones se pueden encontrar en las descripciones de los registros de datos). Finalmente, se proporciona una gran cantidad de imágenes sin etiquetar.

El estudio fue aprobado por la Autoridad de Protección de Datos de Privacidad de Noruega y estuvo exento del consentimiento del paciente porque los datos eran completamente anónimos. Se eliminaron todos los metadatos y se cambió el nombre de todos los archivos a nombres de archivo generados aleatoriamente antes de que el departamento de TI interno del hospital Bærum exportara los archivos desde un servidor central. El estudio estuvo exento de la aprobación del Comité Regional para la Ética de la Investigación Médica y Sanitaria - Sudeste de Noruega ya que la recopilación de los datos no interfirió con la atención brindada al paciente. Dado que los datos son anónimos, el conjunto de datos se puede compartir públicamente según las leyes noruegas y del Reglamento general de protección de datos (GDPR). Aparte de esto, los datos no han sido preprocesados ​​ni aumentados de ninguna manera.

El método para etiquetar imágenes se puede dividir en tres pasos distintos. Primero, gastroenterólogos experimentados involucrados en el proyecto decidieron qué clases deberían incluirse en el proceso de etiquetado, según la relevancia médica y los datos recopilados. Las clases seleccionadas fueron descritas en detalle por expertos médicos. En segundo lugar, dos médicos junior o Ph.D. los estudiantes que trabajaban en el campo anotaron un subconjunto de las imágenes en las clases proporcionadas. Una vez que se realizó este paso de preetiquetado, los expertos médicos revisaron las etiquetas y las ajustaron cuando fue necesario. Los casos en los que no se pudo encontrar el consentimiento se descartaron y se reemplazaron con nuevas imágenes del conjunto de datos. El primer conjunto de datos que creamos constaba de 4000 imágenes de ocho clases22. Posteriormente se amplió a 8.000 imágenes para las mismas ocho clases. Para HyperKvasir, el conjunto de datos se amplía aún más a 10 662 imágenes y 23 clases. En total, HyperKvasir contiene 110 079 imágenes (10 662 etiquetadas y 99 417 imágenes no etiquetadas) del tracto gastrointestinal.

HyperKvasir incluye imágenes con máscaras de segmentación correspondientes y cuadros delimitadores para 1000 imágenes de la clase de pólipos. Para crear las máscaras de segmentación, subimos 1000 imágenes de pólipos a la plataforma Labelbox (https://www.labelbox.com/). Labelbox es una herramienta que permite el etiquetado con precisión de píxel de las regiones de la imagen. Primero, un médico junior y un Ph.D. estudiante pre-segmentó las 1.000 imágenes. Posteriormente, un gastroenterólogo revisó todas las imágenes para verificar y corregir las máscaras de segmentación preetiquetadas. Puede encontrar una descripción detallada del proceso de anotación y un ejemplo de caso de uso del conjunto de datos en49,50.

Para obtener las etiquetas por video, subimos los datos del video a una plataforma de anotación de video proporcionada por Augere Medical AS (Oslo, Noruega). Cada video fue analizado y etiquetado por un gastroenterólogo experimentado. Las etiquetas de clase seleccionadas por el gastroenterólogo representaban el hallazgo principal en el video con la mayor precisión posible. Por ejemplo, si el video contiene imágenes de un pólipo, la etiqueta de ese video sería pólipo. Además, hay ejemplos de múltiples hallazgos en el mismo video. Si es así, estas y más descripciones detalladas se incluyen en el archivo video-labeling.csv.

El conjunto de datos completo de HyperKvasir51, con todas sus imágenes, videos y metadatos, está disponible en Open Science Framework (OSF) a través del enlace https://doi.org/10.17605/OSF.IO/MH9SJ. El conjunto de datos también está disponible en https://datasets.simula.no/hyper-kvasir. HyperKvasir es de acceso abierto y tiene licencia de Creative Commons Attribution 4.0 International (CC BY 4.0). En total, el conjunto de datos consta de cuatro registros de datos principales. Los registros son imágenes etiquetadas, imágenes segmentadas, imágenes sin etiquetar y videos etiquetados. Todas las diversas clases etiquetadas se muestran en la Fig. 1, es decir, 16 clases del tracto GI superior (Fig. 1a) y 24 clases del tracto GI inferior (Fig. 1b). El conjunto de datos tiene un tamaño aproximado de 66,4 GB (sin incluir los archivos de metadatos y las máscaras de segmentación), 32,5 GB para videos y 33,9 GB para imágenes. En la Tabla 2 se proporciona una descripción general de todos los registros de datos en el conjunto de datos. Algunas de las imágenes y videos contienen una imagen en imagen (miniatura verde en la esquina inferior izquierda) que representa el Olympus ScopeGuideTM (Olympus Europa, Alemania), utilizado por el endoscopista para obtener una vista topográfica del colon. En las Figs. 2 y 3. Las siguientes subsecciones proporcionan detalles adicionales para cada registro de datos.

Ejemplos de imágenes de las diversas clases etiquetadas para imágenes y/o videos.

Resolución de las 110.079 imágenes en HyperKvasir.

Estadísticas de los 374 videos en HyperKvasir.

En total, el conjunto de datos contiene 10 662 imágenes etiquetadas almacenadas en formato JPEG, donde la Fig. 4 muestra las 23 clases diferentes que representan las imágenes etiquetadas y la cantidad de imágenes en cada clase. Se proporciona un archivo CSV (image-labels.csv) que proporciona la asignación entre la imagen (nombre de archivo) y el etiquetado de cada imagen. Estas clases están estructuradas según la ubicación en el tracto GI y el tipo de hallazgo, como se muestra en la Fig. 5. Definimos cuatro categorías principales de hallazgos donde el primero y el tercero se encuentran tanto en el tracto GI superior como en el inferior:

Puntos de referencia anatómicos: los puntos de referencia anatómicos son características del tracto gastrointestinal que se utilizan para orientarse durante los procedimientos endoscópicos. Además, se utilizan para confirmar la extensión completa del examen. Existen puntos de referencia tanto en el tracto GI superior (esófago, estómago y duodeno) como en el tracto GI inferior (íleon terminal, colon y recto). Sin embargo, en el intestino delgado, no existen puntos de referencia específicos que se utilicen para la localización topográfica de una lesión.

Calidad de las vistas de la mucosa: la visualización completa de toda la mucosa es crucial para no pasar por alto los hallazgos patológicos. En el colon existe una clasificación para la calidad de la visualización de la mucosa, la Escala de Preparación Intestinal de Boston (BBPS)52.

Hallazgos patológicos: todas las partes del tracto gastrointestinal pueden verse afectadas por anomalías o hallazgos debidos a una enfermedad. La mayoría de los hallazgos patológicos pueden verse como cambios más o menos evidentes en la mucosa de la pared intestinal. Estos hallazgos se clasifican según la Minimal Standard Terminology, definida por la Organización Mundial de Endoscopia53.

Intervenciones terapéuticas: cuando se detecta una lesión o un hallazgo patológico, con frecuencia se requiere una intervención terapéutica para tratar la afección, por ejemplo, levantamiento y resección de un pólipo, dilatación de una estenosis o inyección de una úlcera sangrante.

El número de imágenes en las diversas clases de imágenes etiquetadas de HyperKvasir según las carpetas de archivos.

Las diversas clases de imágenes estructuradas en posición y tipo, también la estructura de las imágenes almacenadas.

Cada clase y las imágenes que le pertenecen se almacenan en la carpeta correspondiente a la categoría a la que pertenece. Por ejemplo, la carpeta 'pólipos' en la categoría hallazgos patológicos en el tracto GI inferior contiene todas las imágenes de pólipos, la carpeta 'barrett's' en la categoría hallazgos patológicos en el tracto GI superior contiene todas las imágenes del esófago de Barrett, etc. Como se observa en Fig. 2, el número de imágenes por clase no está equilibrado, lo cual es un desafío general en el campo médico debido al hecho de que algunos hallazgos ocurren con más frecuencia que otros. Esto agrega un desafío adicional para los investigadores, ya que los métodos aplicados a los datos también deberían poder aprender de una pequeña cantidad de datos de entrenamiento. A continuación, detallamos más cada clase.

El tracto GI superior examinado por endoscopia incluye el esófago, el estómago y el duodeno. A continuación, ofrecemos una descripción de las diversas clases de hallazgos encontrados aquí.

Como se ve en la Fig. 5, hemos etiquetado tres clases de puntos de referencia anatómicos en el tracto GI superior. La línea Z normal es la unión anatómica entre el epitelio escamoso del esófago y el epitelio cilíndrico del estómago. Una línea Z normal se encuentra al mismo nivel que la unión gastroesofágica. Estómago en retroflexión significa que el endoscopio está en retroflexión, mirando hacia atrás para visualizar el cardias y el fondo en las partes superiores del estómago. El píloro es la unión anatómica entre el estómago y el bulbo duodenal, y un esfínter que regula el proceso de vaciado del estómago hacia el duodeno.

Todas las siguientes clases se definen como hallazgos patológicos en el tracto GI superior. La esofagitis por reflujo es una inflamación que afecta principalmente al tercio inferior del esófago, cerca de la línea Z. La esofagitis por reflujo se puede clasificar según la clasificación de Los Ángeles (LA)54. La clasificación LA de esofagitis se define en cuatro clases como (A) rupturas de la mucosa de menos de 5 mm, sin continuidad a través de los pliegues de la mucosa donde los cambios sutiles pueden ser difíciles de diferenciar de una línea Z normal; (B) roturas de la mucosa de más de 5 mm que no se extienden entre la parte superior de dos pliegues de la mucosa; (C) una (o más) rupturas de la mucosa que es continua entre la parte superior de dos o más pliegues de la mucosa, pero que involucra menos del 75% de la circunferencia; y (D) una (o más) roturas de la mucosa que es continua entre la parte superior de dos o más pliegues de la mucosa y afecta a más del 75% de la circunferencia. Hemos dividido la esofagitis en dos clases porque existe una importante variación del observador en la evaluación de la esofagitis de bajo grado47. Las dos clases son esofagitis A y esofagitis BD. Esta clasificación binaria de las imágenes permite evaluar si la clasificación errónea entre normalidad y esofagitis solo afecta al grado A. El esófago de Barrett representa una transformación metaplásica del epitelio escamoso del esófago en un epitelio cilíndrico de tipo gástrico. El esófago de Barrett se considera una condición premaligna, lo que significa que podría convertirse en cáncer. Las biopsias que muestran la presencia de metaplasia intestinal especializada confirman el diagnóstico. El esófago de Barrett se puede clasificar según la clasificación de Praga, que describe la extensión circunferencial y longitudinal de la enfermedad55. Hemos dividido las imágenes del esófago de Barrett en dos clases. Esófago de segmento largo de Barrett y de segmento corto de Barrett donde un segmento corto se caracteriza por una extensión longitudinal de menos de 3 cm55.

El tracto GI inferior examinado por colonoscopia incluye el íleon terminal (la última parte del intestino delgado), el colon y el recto (el intestino grueso). A continuación, describimos las clases del tracto GI inferior en el conjunto de datos.

Hemos etiquetado tres clases de puntos de referencia anatómicos en el tracto gastrointestinal inferior. El íleon son los 2/3 distales del intestino delgado, reconocidos por vellosidades intestinales visibles. Endoscópicamente, el íleon no se puede distinguir de otras partes del intestino delgado. Durante la colonoscopia, se pueden alcanzar y examinar los 5 a 20 cm distales del íleon, denominado íleon terminal. La visualización del íleon terminal confirma la colonoscopia completa. El ciego es el extremo proximal del intestino grueso y se caracteriza por la visualización del orificio apendicular y la válvula ileocecal. El examen completo de todo el colon sólo puede confirmarse si se ha visualizado la pared medial del ciego, es decir, el área entre el orificio apendicular y la válvula ileocecal. La parte más distal del recto es una de las zonas ciegas del colon. Por lo tanto, el endoscopio se retroflexiona en el recto para visualizar la línea dentada y la circunferencia del orificio proximal del canal anal, que se denomina recto retroflejo.

La calidad de las vistas de la mucosa es un indicador de calidad clave y siempre debe evaluarse porque un intestino limpio es esencial para detectar hallazgos patológicos. En este sentido, el grado de limpieza intestinal durante una colonoscopia está descrito por la Escala de Preparación Intestinal de Boston (BBPS)56. BBPS consta de cuatro grados diferentes que son: (BBPS 0) segmento de colon no preparado sin mucosa visible debido a heces sólidas que no se pueden eliminar; (BBPS 1) se ven porciones de la mucosa del segmento de colon, pero otras áreas del segmento de colon no se ven bien debido a tinción, heces residuales y/o líquido opaco; (BBPS 2) cantidad menor de pequeños fragmentos de heces y/o líquido opaco, pero se observa bien la mucosa del segmento de colon; y (BBPS 3) toda la mucosa del segmento de colon se ve bien sin fragmentos residuales de heces o líquido opaco. La limpieza intestinal se considera adecuada si la puntuación BBPS es 2 o 3 en los tres segmentos del colon después del lavado. Por lo tanto, hemos clasificado nuestras imágenes en las dos clases BBPS 0-1 y BBPS 2-3, donde la clase 0-1 representa una preparación intestinal inadecuada y la clase 2-3 representa una preparación intestinal adecuada. Además, un hallazgo frecuente en personas mayores de 50 años son bolsas en la pared del colon llamadas divertículos y si son numerosas llamadas diverticulosis. A veces, las heces se ven impactadas en estos divertículos y pueden aumentar el riesgo de diverticulitis. En el conjunto de datos, esto se presenta en la clase de heces impactadas.

Las siguientes clases se definen como hallazgos patológicos en el tracto gastrointestinal inferior. La colitis ulcerosa es una enfermedad inflamatoria intestinal crónica que a menudo debuta en los años veinte. El grado y extensión de la enfermedad se determina por colonoscopia y puede clasificarse según el Mayo Score57. El Score de Mayo para colitis ulcerosa se define: (Puntuación 0) inactivo, donde la mucosa solo presenta patrones vasculares normales; (Puntuación 1) leve con eritema, patrón vascular disminuido, friabilidad leve; (Puntuación 2) moderado con eritema, patrón vascular ausente, friabilidad leve, erosiones; y (Puntuación 3) grave con sangrado espontáneo y ulceraciones. Para la colitis ulcerosa, proporcionamos seis clases etiquetadas diferentes, tanto las clases de puntuación de Mayo (colitis ulcerosa 1/2/3) como algunas clases intermedias en las que es difícil determinar la clase exacta y porque estudios previos han mostrado una importante variación del observador en la valoración del grado de inflamación (Colitis ulcerosa 0-1/1-2/2-3)48. Los pólipos son lesiones neoplásicas más frecuentes del intestino grueso. Tienen principalmente tres formas diferentes; protruyendo en el lumen, plano o excavado según la Clasificación de París58. Su tamaño varía de 1 mm a varios cm. La prevalencia aumenta con la edad. Los tipos de pólipos más comunes son los premalignos y pueden transformarse en cáncer. Por lo tanto, es importante descubrir pólipos y extirpar los pólipos sospechosos durante la endoscopia. Las hemorroides son venas hinchadas patológicamente en el ano o en la parte inferior del recto. Cuando están presentes en el recto, se llaman hemorroides internas, y cuando se encuentran en el ano, se llaman hemorroides externas.

Finalmente, las intervenciones terapéuticas muestran tratamientos de los hallazgos patológicos detectados. Incluye, por ejemplo, levantamiento y remoción de tejido neoplásico (pólipos) y terapia de inyección de úlcera sangrante. La clase de pólipos levantados teñidos contiene imágenes de pólipos levantados con inyección submucosa utilizando una solución que contiene índigo carmín. Esto se hace antes de la resección de pólipos para un mejor diagnóstico y una resección más fácil. El tinte se reconoce por el color azul debajo del pólipo. Después de la resección de los pólipos teñidos con un asa, los márgenes y el sitio de la resección aparecen azules debido a la solución de índigo carmín. Las imágenes de este tipo de margen de resección se presentan en la clase de márgenes de resección teñidos.

Para el conjunto de imágenes segmentadas, proporcionamos la imagen original, una máscara de segmentación y un cuadro delimitador para 1000 imágenes de la clase de pólipos. En la máscara, los píxeles que representan tejido de pólipos, la región de interés, están representados por el primer plano (máscara blanca), mientras que el fondo (en negro) no contiene píxeles de pólipos. El cuadro delimitador se define como los píxeles más externos del pólipo encontrado. Para este conjunto de segmentación, tenemos dos carpetas, una para imágenes y otra para máscaras, cada una de las cuales contiene 1000 imágenes comprimidas en JPEG. Los cuadros delimitadores de las imágenes correspondientes se almacenan en un archivo de notación de objetos JavaScript (JSON). La imagen y su máscara correspondiente tienen el mismo nombre de archivo. Las imágenes y los archivos se almacenan en la carpeta de imágenes segmentadas. Es importante señalar que las imágenes de la clase de pólipos del conjunto de datos de Kvasir tenían duplicados en la carpeta de imágenes. Estos duplicados fueron reemplazados por imágenes de pólipos de alta calidad del colon y segmentadas.

En total, el conjunto de datos contiene 99.417 imágenes sin etiquetar. Las imágenes sin etiquetar se pueden encontrar en la carpeta sin etiquetar, que es una subcarpeta en la carpeta de imágenes, junto con las demás carpetas de imágenes etiquetadas. Además de los archivos de imagen sin etiquetar, también proporcionamos las características globales extraídas y las posibles asignaciones de agrupamiento no supervisadas en el repositorio de HyperKvasir Github como archivos de formato de archivo de relación de atributos (ARFF). Los archivos ARFF se pueden abrir y procesar utilizando, por ejemplo, la biblioteca de aprendizaje automático WEKA, o se pueden convertir fácilmente en archivos de valores separados por comas (CSV).

Los videos etiquetados se graban con fines clínicos y, por lo tanto, representan la práctica diaria. En total, se proporcionan 374 videos en el conjunto de datos, que corresponden a 9,78 horas de videos y 889 372 fotogramas de video que se pueden convertir en imágenes si es necesario. En total, un gastroenterólogo experimentado identificó 30 clases de hallazgos, y la Fig. 6 muestra cuántos videos hemos identificado para cada clase. La clase describe el video como un todo utilizando el hallazgo principal, pero además, muchos videos incluyen más de una categoría y varias clases donde, por ejemplo, un solo video puede contener pólipos, pólipos teñidos levantados y márgenes de resección teñidos. El formato de archivo de video es Audio Video Interleave (AVI), y se almacenan en la carpeta llamada videos etiquetados. Como se ve en la Fig. 7, los videos se organizan y almacenan aún más según el tracto GI superior o inferior y luego las cuatro categorías principales como para las imágenes etiquetadas descritas anteriormente. Además de los archivos de video, se proporciona un archivo CSV (video-labels.csv) que contiene el identificador de video y el etiquetado de los videos. Aquí, el VideoID contiene el nombre del archivo de video correspondiente, y el etiquetado incluye la ubicación superior o inferior, la categoría y la clase con algunas descripciones detalladas del video. A continuación, describimos las nuevas clases por categoría para un total de 60 videos del tracto GI superior y los 60 videos del tracto GI inferior.

La cantidad de videos en las diversas clases de video etiquetadas de HyperKvasir según las carpetas de archivos.

Las diversas clases de video estructuradas en posición y tipo, que también es la estructura de las carpetas de video.

Como se ve en la Fig. 7, tenemos muchas de las mismas clases para videos e imágenes, pero dado que hemos etiquetado todos nuestros videos, se agregan más clases para el tracto gastrointestinal superior e inferior. En el tracto GI superior, las tres clases de puntos de referencia anatómicos (línea Z, píloro y estómago retroflexo) se describen en la sección anterior de imágenes etiquetadas. En la categoría de hallazgos patológicos, tanto el esófago de Barrett como la esofagitis también se describen anteriormente, pero aquí también agregamos algunas clases nuevas. El primero son los pólipos donde la descripción anterior de pólipos en el colon también es válida para el tracto GI superior. Además, se incluyen cinco nuevas clases no descritas anteriormente. Las úlceras mucosas son bastante comunes en el tracto gastrointestinal superior. Las úlceras casi siempre son causadas por una infección por Helicobacter pylori, medicamentos ulcerogénicos o cáncer. Las úlceras se caracterizan según la clasificación de Forrest para predecir el riesgo de sangrado59. Forrest I representa sangrado en curso, Forrest II presenta algunos signos de sangrado previo; y Forrest III no muestra ningún signo de sangrado. La ectasia vascular antral gástrica de segunda clase (GAVE) representa pequeños vasos superficiales dilatados en la mucosa del antro gástrico. Estas lesiones pueden causar hemorragia crónica y anemia subsiguiente y, con frecuencia, se tratan con coagulación con plasma de argón (APC) para evitar una mayor hemorragia. Las várices (venas dilatadas) tanto en el esófago como en el fondo del estómago son causadas con mayor frecuencia por enfermedades hepáticas crónicas complicadas con cirrosis hepática. Las várices representan un riesgo mayor de sangrado severo. El cáncer de esófago y estómago son hallazgos comunes en el tracto GI superior. La última clase de banda gástrica perforada muestra un hallazgo raro, que es la complicación de una operación anterior de banda gástrica donde la banda perfora la pared del estómago. La categoría de intervenciones terapéuticas se introduce para el tracto GI superior especialmente porque casi siempre se ilustran mejor con videos y también pueden tener importantes propósitos educativos. Dado que la mayoría de las intervenciones terapéuticas se presentan como secundarias a un hallazgo patológico, solo incluimos la colangiopancreatografía retrógrada endoscópica (CPRE), un procedimiento para tratar las anomalías de las vías biliares como una clase independiente. Sin embargo, otras intervenciones terapéuticas comunes como los dos métodos térmicos; APC y heatherprobe, así como la terapia de inyección con adrenalina y la aplicación de hemospray para detener el sangrado se pueden encontrar en los segundos hallazgos en el archivo csv. En la categoría calidad de la vista de la mucosa, también agregamos un video que muestra una vista reducida debido a líquido opaco en el estómago o burbujas de aire en el duodeno. La vista reducida aumenta el riesgo de perder lesiones. Por el contrario, la vista óptima demuestra una excelente visualización del duodeno.

Los videos del tracto GI inferior ilustran principalmente las mismas categorías y clases que las imágenes etiquetadas. Sin embargo, aumentan la diversidad del conjunto de datos. La categoría de puntos de referencia anatómicos difiere de las imágenes etiquetadas en que solo contiene la clase de ciego y no incluye las clases de íleon terminal y recto retroflejo, solo definidos como segundos hallazgos. Las dos categorías de hallazgos patológicos e intervención terapéutica también son un poco diferentes en comparación con las imágenes etiquetadas. En la categoría hallazgos patológicos, todavía tenemos las clases de pólipos y hemorroides descritas anteriormente. Sin embargo, todas las clases de colitis ulcerosa se fusionan con la colitis y también incluyen la colitis isquémica y la colitis infecciosa. Se agregó la nueva clase de cáncer colorrectal, el segundo cáncer más mortal a nivel mundial60. El cáncer colorrectal puede presentarse de diferentes formas en el colon, desde pequeñas lesiones con un diámetro de 1 cm hasta tumores más grandes que obstruyen toda la luz del intestino y cubren segmentos intestinales de varios centímetros. Además, los parásitos, un hallazgo común de pequeños gusanos que se mueven por el colon, se encuentran con mayor frecuencia en áreas tropicales. La estenosis se caracteriza por una obstrucción estrecha del intestino causada por inflamación o enfermedades malignas. Las lesiones neoplásicas grandes, como los cánceres, se extirpan quirúrgicamente y, posteriormente, se realiza una anastomosis para restaurar la función intestinal normal. La anastomosis se puede visualizar durante las colonoscopias de seguimiento. Una complicación temida después de la cirugía del intestino grueso es la fuga anastomótica, que puede causar cavidades más pequeñas o más grandes de fuga anastomótica, especialmente en el recto. Las intervenciones terapéuticas endoscópicas mini-invasivas de la última década han reemplazado en cierta medida a la cirugía tradicional y laparoscópica en el tratamiento de grandes pólipos y estenosis del colon. Las clases de pólipo levantado teñido y margen de resección teñido se describen en las imágenes etiquetadas, pero los videos mejoran la ilustración de la técnica. Se presentan tres nuevas clases que muestran la extirpación de pólipos mediante resección simple con asa o resección endoscópica de la mucosa (EMR). Para prevenir o detener el sangrado después de estas resecciones, se ilustra la colocación de clips metálicos. Los stents autoexpandibles se utilizan para abrir y dilatar estenosis benignas o malignas. Finalmente, en la categoría de calidad de las vistas de la mucosa, hemos eliminado la clase de heces impactadas que tenemos para las imágenes, e incluimos solo las clases BBPS 0-1 y BBPS 2-3 descritas anteriormente. Aquí, también vale la pena señalar que muchos de los videos en BBPS 2-3 están perfectamente limpios (BBPS 3), es decir, como se describe en el archivo csv, estos contienen videos de mucosa normal (también marcados como hallazgo 2) que se puede extraer en imágenes o videos normales cuando sea necesario.

Para demostrar la calidad técnica del conjunto de datos, realizamos varios experimentos para proporcionar algunas métricas de referencia y dar una idea de las cualidades estadísticas del conjunto de datos. Si el lector desea información sobre los enfoques de clasificación y segmentación y los experimentos que comparan los métodos más avanzados utilizando partes de este conjunto de datos, se le remite a otros estudios49.

El conjunto de datos presentado es adecuado para una variedad de tareas diferentes, una de las cuales es la clasificación de imágenes. Como paso preliminar para evaluar el rendimiento de los métodos de última generación en la parte etiquetada de HyperKvasir, realizamos una serie de experimentos basados ​​en métodos que anteriormente habían logrado buenos resultados en la clasificación de imágenes del tracto gastrointestinal. El propósito de estos experimentos es simplemente dar ejemplos de resultados de línea de base para que futuras investigaciones los utilicen para comparar y medir sus resultados. En total, realizamos cinco experimentos utilizando diferentes métodos. Los métodos se seleccionaron principalmente de los métodos de mejor rendimiento presentados en MediaEval Medico Task39,40. Cada método se basa en redes neuronales convolucionales profundas, que actualmente es lo último en clasificación de imágenes. Común para todos los experimentos es que las imágenes se redimensionaron a 224 × 224 antes de alimentar las redes. Todas las redes se basan en arquitecturas comunes, ligeramente modificadas para adaptarse a nuestra tarea de clasificar 23 clases diferentes de imágenes. Los detalles de cada método se explican con más detalle a continuación:

ResNet-50 preentrenado es una implementación de TensorFlow de la arquitectura ResNet-50 que utiliza pesos inicializados de ImageNet. La red fue entrenada en dos pasos. Primero, un entrenamiento inicial de 7 épocas, y luego un paso de ajuste fino de 3 épocas que solo entrenó las capas después del índice 100. Las imágenes se cargaron con un tamaño de lote de 32 y los pesos se optimizaron con Adam con una tasa de aprendizaje de 0,001.

ResNet-152 preentrenado es una implementación de PyTorch de la arquitectura ResNet-152 que utiliza pesos inicializados de ImageNet. La red se entrenó durante 50 épocas utilizando un tamaño de lote de 32 y se optimizó mediante el descenso de gradiente estocástico (SGD) con una tasa de aprendizaje de 0,001. No se utilizó ningún ajuste fino para este método.

DenseNet-161 preentrenado es una implementación de PyTorch de la arquitectura DenseNet-161 estándar que utiliza pesos inicializados de ImageNet. La red se entrenó durante 50 épocas con un tamaño de lote de 32 y se optimizó con SGD con una tasa de aprendizaje de 0,001. No se utilizó ningún ajuste fino para este método.

ResNet-152 promedio + DenseNet-16138,61 es un enfoque que combina el enfoque ResNet-152 y DenseNet-161 al promediar la salida de ambos modelos como la predicción final. Ambos modelos se entrenaron simultáneamente propagando hacia atrás la pérdida promediada a través de ambos modelos. En general, las redes se entrenaron para 50 épocas utilizando un tamaño de lote de 32. Se utilizó SGD para optimizar los pesos con una tasa de aprendizaje de 0,001. Tanto el modelo ResNet-152 como el DenseNet-161 se inicializaron utilizando los mejores pesos de las implementaciones de ResNet-152 preentrenado y DenseNet-161 preentrenado anteriores.

ResNet-152 + DenseNet-161 + MLP38,61 es similar al método anterior que usa ResNet-152 y DenseNet-161 para generar una predicción. Sin embargo, en lugar de promediar la salida de cada modelo, este método utiliza un perceptrón multicapa simple (MLP) para estimar la mejor manera de promediar la salida de cada modelo. Todas las redes se entrenaron simultáneamente durante 50 épocas utilizando un tamaño de lote de 32. Los pesos se optimizaron utilizando SGD con una tasa de aprendizaje de 0,001. Los modelos ResNet-152 y DenseNet-161 se inicializaron utilizando los mejores pesos de las dos implementaciones anteriores de ResNet-152 preentrenado y DenseNet-161 preentrenado.

Cada método se evaluó utilizando métricas de clasificación estándar, incluida la puntuación F1 promediada macro y micropromediada, la precisión y el recuerdo. Además, calculamos el coeficiente de correlación de Matthews (MCC) para cada experimento usando la generalización multiclase que también se conoce como RK. Los resultados en la Tabla 3 muestran que cada método supera la línea de base aleatoria y de clase mayoritaria por un amplio margen. Sin embargo, los números presentados también indican que hay margen de mejora. Mirando las matrices de confusión en la Fig. 8, vemos que algunas clases son más difíciles de identificar que otras. Por ejemplo, existe mucha confusión en torno a la diferencia entre los grados de colitis ulcerosa y esofagitis. Además, también existe cierta confusión entre clases específicas, como pólipos elevados teñidos y márgenes de resección teñidos, y distinguir la enfermedad de Barrett de la esofagitis o una línea Z normal. Al menos la confusión entre clases de línea Z, esofagitis y esófago de Barrett es similar a la variación humana en la evaluación de estas lesiones. Por lo tanto, es un desafío crear una verdad fundamental.

Matrices de confusión para ResNet-152 promedio + DenseNet-161 y DenseNet-161 preentrenado que incluyen ambas divisiones. Estas matrices de confusión fueron seleccionadas en base a su desempeño. ResNet-152 promediado + DenseNet-161 logró los mejores resultados de promedio micro, mientras que DenseNet-161 preentrenado logró el mejor resultado de promedio macro. Los códigos de color representan los porcentajes del número total de imágenes dentro de cada clase. El etiquetado de las clases es el siguiente: (A) de Barrett; (B) bbps-0-1; (C) bbps-2-3; (D) pólipos levantados teñidos; (E) márgenes de resección teñidos; (F) hemorroides; (G) íleon; (H) heces impactadas; (I) ciego normal; (J) píloro normal; (K) línea Z normal; (L) esofagitis-a; (M) esofagitis-bd; (N) pólipo; (O) recto retroflejo; (P) estómago retroflejo; (Q) segmento corto de Barrett; (R) colitis ulcerosa grado 0-1; (S) colitis ulcerosa grado 1-2; (T) colitis ulcerosa grado 2-3; (U) colitis ulcerosa grado 1; (V) colitis ulcerosa grado 2; (W) colitis ulcerosa grado 3.

Para mostrar la composición aproximada de los datos sin etiquetar, presentamos algunos experimentos iniciales para analizar los datos proporcionados que no tienen etiquetas anotadas de expertos médicos Usamos nuestro modelo de clasificación preentrenado para clasificar simplemente los datos sin etiquetar para indicar cuántos de las clases etiquetadas están en los datos no etiquetados y para tener una idea general sobre la distribución de datos de las 99,417 imágenes. En particular, usamos los dos mejores modelos de clasificación de los experimentos anteriores, es decir, DenseNet-161 preentrenado y ResNet-152 promedio + DenseNet-161 usando split_0 y split_1 del experimento anterior. Los resultados se muestran en la Fig. 9. En los resultados, podemos observar que un gran número de predicciones se asignan a la clase píloro normal, mientras que un número menor de predicciones se asignan a las clases hemorroides y colitis ulcerosa grado 1-2. Sin embargo, estas predicciones son similares a las precisiones de nivel de clase del modelo ML en los datos etiquetados. Por lo tanto, podemos suponer que las clases que lograron un alto número de predicciones correctas en las imágenes etiquetadas también son más precisas en los datos no etiquetados. Por el contrario, es difícil sacar conclusiones sobre las etiquetas que tenían un bajo número de predicciones ya que los modelos no son lo suficientemente precisos. Para el trabajo futuro, los investigadores podrían revisar las clasificaciones de los datos no etiquetados y, por ejemplo, crear un conjunto de datos etiquetados más grande o realizar un análisis de fallas para descubrir por qué las clases se confundieron o clasificaron incorrectamente. Las etiquetas de clase creadas durante estos experimentos están disponibles en el repositorio de GitHub.

Predicciones de datos de imágenes sin etiquetar para ResNet-152 promedio + DenseNet-161 y DenseNet-161 preentrenado.

En la sección de validación técnica, proporcionamos métricas de referencia y dimos una idea de las cualidades estadísticas del conjunto de datos para demostrar su calidad técnica. Con la gran cantidad de imágenes disponibles en HyperKvasir, alentamos a otros investigadores a investigar y desarrollar métodos nuevos y mejorados para el dominio médico. Esto también incluye una metodología mejorada para crear la verdad del terreno en clases donde hay una variación sustancial entre observadores en la evaluación, que podría ser utilizada por otros investigadores para aumentar la cantidad de etiquetas y segmentaciones para el conjunto de datos.

En nuestra investigación sobre la detección, clasificación y segmentación de hallazgos normales y anormales en el tracto gastrointestinal, hemos recopilado, según nuestro conocimiento, el conjunto de datos más grande y diverso. Estos datos están disponibles como un recurso para la comunidad de investigación, lo que permite a los investigadores no solo tener la capacidad de investigar la detección o clasificación de varios hallazgos GI, sino también diferenciar entre la gravedad de los hallazgos.

En resumen, hemos utilizado los datos etiquetados para investigar la clasificación y segmentación de los hallazgos gastrointestinales utilizando enfoques de visión por computadora y ML para ser potencialmente utilizados en el análisis en vivo y posterior a los exámenes de pacientes. Las áreas de utilización potencial son el análisis, la clasificación, la segmentación y la recuperación de imágenes y videos con hallazgos particulares o propiedades particulares del área informática. Los datos etiquetados también se pueden utilizar para la enseñanza y la formación en educación médica. Con gastroenterólogos expertos que brindan las verdades básicas sobre varios hallazgos, HyperKvasir proporciona un conjunto de aprendizaje único y diverso para futuros médicos. Además, los datos sin etiquetar son adecuados para métodos semisupervisados ​​y no supervisados ​​y, si se necesitan aún más datos reales, los usuarios de los datos pueden usar sus propios expertos médicos locales para proporcionar las etiquetas necesarias. Finalmente, los videos también se pueden usar para simular endoscopias en vivo que alimentan el video al sistema como si se capturara directamente desde los endoscopios, lo que permite a los desarrolladores clasificar las imágenes.

El conjunto de datos incluye una serie de secuencias de comandos y archivos de texto que tienen como objetivo ayudar a los investigadores a comenzar rápidamente a usar el conjunto de datos para tareas estándar de ML, como la clasificación. Están disponibles en el repositorio de GitHub para el conjunto de datos: http://www.github.com/simula/hyper-kvasir. Además, proporcionamos tres divisiones oficiales del conjunto de datos que se pueden usar para experimentos de validación cruzada. Mantener las divisiones consistentes entre los métodos ayuda a mantener una comparación justa de los resultados. Los scripts utilizados para generar los gráficos, dividir los datos en diferentes pliegues y generar archivos de anotaciones se incluyen para la reproducibilidad y la transparencia. Estos archivos también se pueden usar para seguir experimentando con el conjunto de datos. Finalmente, incluimos los archivos utilizados para crear nuestros experimentos preliminares.

Actualmente se están realizando muchas investigaciones en el campo del análisis de imágenes y videos GI, y agradecemos y alentamos futuras contribuciones en esta área. Esto no se limita al uso del conjunto de datos para comparaciones y reproducibilidad de experimentos, sino también a la publicación y el intercambio de nuevos datos en el futuro.

Además de publicar los datos, también ponemos a disposición el código utilizado en los experimentos. Todo el código y los datos adicionales necesarios para los experimentos están disponibles en GitHub en http://www.github.com/simula/hyper-kvasir.

Brenner, H., Kloor, M. & Pox, CP Cáncer colorrectal. The Lancet 383, 1490–502, https://doi.org/10.1016/S0140-6736(13)61649-9 (2014).

Artículo Google Académico

Torre, LA et al. Estadísticas mundiales de cáncer, 2012. CA: A Cancer J. for Clin. 65, 87–108, https://doi.org/10.1056/NEJMoa0907667 (2015).

Artículo Google Académico

Organización Mundial de la Salud - Agencia Internacional para la Investigación del Cáncer. Incidencia, mortalidad y prevalencia estimadas del cáncer en todo el mundo en 2012 (2012).

Hewett, DG, Kahi, CJ y Rex, DK Eficacia y efectividad de la colonoscopia: ¿cómo cerrar la brecha? Gastrointestinal. Endosc. clin. 20, 673–684, https://doi.org/10.1016/j.giec.2010.07.011 (2010).

Artículo Google Académico

Lee, SH et al. La experiencia endoscópica mejora el acuerdo entre observadores en la clasificación de la esofagitis según la clasificación de Los Ángeles: endoscopia convencional y sistema de imagen de banda óptima. Hígado intestinal 8, 154, https://doi.org/10.5009/gnl.2014.8.2.154 (2014).

Artículo PubMed Google Académico

Van Doorn, SC et al. Morfología de los pólipos: una evaluación interobservador para la clasificación de París entre expertos internacionales. El Am. J. Gastroenterol. 110, 180–187, https://doi.org/10.1038/ajg.2014.326 (2015).

Artículo PubMed Google Académico

Kaminski, MF et al. Indicadores de calidad de la colonoscopia y el riesgo de cáncer de intervalo. Nuevo ingl. J. Medicina 362, 1795–1803, https://doi.org/10.1056/NEJMoa0907667 (2010).

Artículo CAS Google Académico

Topol, EJ Medicina de alto rendimiento: la convergencia de la inteligencia humana y artificial. Nat. Medicina 25, 44–56, https://doi.org/10.1038/s41591-018-0300-7 (2019).

Artículo CAS Google Académico

Riegler, M. et al. Multimedia y medicina: Compañeros de equipo para una mejor detección de enfermedades y supervivencia. En Actas de la Conferencia Internacional ACM sobre Multimedia (ACM MM), 968–977, https://doi.org/10.1145/2964284.2976760 (2016).

Riegler, M. et al. EIR: marco eficiente de diagnóstico asistido por computadora para endoscopias gastrointestinales. En Actas del Taller internacional IEEE sobre indexación multimedia basada en contenido (CBMI), 1–6, https://doi.org/10.1109/CBMI.2016.7500257 (2016).

Alammari, A. et al. Clasificación de la gravedad de la colitis ulcerosa en videos de colonoscopia usando cnn. En Actas de la Conferencia Internacional ACM sobre Gestión e Ingeniería de la Información (ACM ICIME), 139–144, https://doi.org/10.1145/3149572.3149613 (2017).

Wang, Y., Tavanapong, W., Wong, J., Oh, JH y De Groen, PC Alerta de pólipos: retroalimentación en tiempo casi real durante la colonoscopia. computar Métodos Programas Biomed. 120, 164–179, https://doi.org/10.1016/j.cmpb.2015.04.002 (2015).

Artículo PubMed Google Académico

Hirasawa, T., Aoyama, K., Fujisaki, J. & Tada, T. 113 aplicación de inteligencia artificial usando red neuronal convolucional para detectar cáncer gástrico en imágenes endoscópicas. Gastrointestinal. Endosc. 87, AB51, https://doi.org/10.1016/j.gie.2018.04.025 (2018).

Artículo Google Académico

Wang, L., Xie, C. & Hu, Y. Iddf2018-abs-0260 aprendizaje profundo para la segmentación de pólipos. Gut 67, A84–A85, https://doi.org/10.1136/gutjnl-2018-IDDFabstracts.181 (2018).

Artículo Google Académico

Mori, Y. et al. Uso en tiempo real de la inteligencia artificial en la identificación de pólipos diminutos durante la colonoscopia: un estudio prospectivo. Pasante de Anales. Medicina 169, 357–366, https://doi.org/10.7326/M18-0249 (2018).

Artículo Google Académico

Bychkov, D. et al. El análisis de tejido basado en el aprendizaje profundo predice el resultado en el cáncer colorrectal. ciencia Informes 8, 3395, https://doi.org/10.1038/s41598-018-21758-3 (2018).

Artículo ADS CAS Google Académico

Min, M. et al. Diagnóstico asistido por computadora de pólipos colorrectales mediante colonoscopia de imágenes en color vinculadas para predecir la histología. ciencia informes 9, 2881, https://doi.org/10.1038/s41598-019-39416-7 (2019).

Artículo ADS CAS Google Académico

Bernal, J. & Aymeric, H. Miccai visión endoscópica desafío detección y segmentación de pólipos. https://endovissub2017-giana.grand-challenge.org/home/, Acceso: 2017-12-11 (2017).

Bernal, J. et al. Mapas Wm-dova para el resaltado preciso de pólipos en la colonoscopia: validación frente a mapas de prominencia de los médicos. computar Medicina. Gráfico de imágenes. 43, 99–111, https://doi.org/10.1016/j.compmedimag.2015.02.007 (2015).

Artículo PubMed Google Académico

Tajbakhsh, N., Gurudu, SR & Liang, J. Detección automática de pólipos en videos de colonoscopia utilizando información de forma y contexto. Transacciones IEEE en Med. Imágenes 35, 630–644, https://doi.org/10.1109/TMI.2015.2487997 (2016).

Artículo Google Académico

Deng, J. et al. ImageNet: una base de datos de imágenes jerárquicas a gran escala. En Actas de la Conferencia IEEE sobre visión artificial y reconocimiento de patrones (CVPR), 248–255, https://doi.org/10.1109/CVPR.2009.5206848 (2009).

Pogorelov, K. et al. Kvasir: un conjunto de datos de imágenes de varias clases para la detección de enfermedades gastrointestinales asistida por computadora. En Actas de la Conferencia de Sistemas Multimedia ACM (ACM MMSYS), 164–169, https://doi.org/10.1145/3083187.3083212 (2017).

Pogorelov, K. et al. Aprendizaje profundo y enfoques basados ​​en funciones artesanales para la detección de pólipos en videos médicos. En Actas del Simposio internacional IEEE sobre sistemas médicos basados ​​en computadora (CBMS), 381–386, https://doi.org/10.1109/CBMS.2018.00073 (2018).

Berstad, TJD et al. Compensaciones mediante la clasificación de redes neuronales binarias y multiclase para la detección médica de múltiples enfermedades. En Actas del Simposio Internacional IEEE sobre Multimedia (ISM), 1–8, https://doi.org/10.1109/ISM.2018.00009 (2018).

de Lange, T., Halvorsen, P. & Riegler, M. Metodología para desarrollar algoritmos de aprendizaje automático para mejorar el rendimiento en endoscopia gastrointestinal. Mundo J. Gastroenterol. 24, 5057–5062, https://doi.org/10.3748/wjg.v24.i45.5057 (2018).

Artículo PubMed PubMed Central Google Académico

Hicks, S. et al. 383 aprendizaje profundo para la generación automática de informes de endoscopia. Gastrointestinal. Endosc. 89, AB77, https://doi.org/10.1016/j.gie.2019.04.053 (2019).

Artículo Google Académico

Ahmad, J., Muhammad, K., Lee, MY & Baik, SW Clasificación y recuperación de imágenes endoscópicas utilizando características convolucionales agrupadas. J.Med. sist. 41, 196, https://doi.org/10.1007/s10916-017-0836-y (2017).

Artículo PubMed Google Académico

Owais, M., Arsalan, M., Choi, J., Mahmood, T. & Park, KR Clasificación basada en inteligencia artificial de múltiples enfermedades gastrointestinales utilizando videos de endoscopia para el diagnóstico clínico. J. Clin. Medicina 8, 986, https://doi.org/10.3390/jcm8070986 (2019).

Artículo Google Académico

Ahmad, J., Muhammad, K. y Baik, SW Recuperación de imágenes médicas con códigos binarios compactos generados en el dominio de la frecuencia usando características convolucionales altamente reactivas. J.Med. sist. 42, 24, https://doi.org/10.1007/s10916-017-0875-4 (2017).

Artículo PubMed Google Académico

Harzig, P., Einfalt, M. & Lienhart, R. Detección automática de enfermedades y generación de informes para el examen del tracto gastrointestinal. Actas de la Conferencia Internacional ACM sobre Multimedia (ACM MM) 5, 2573–2577, https://doi.org/10.1145/3343031.3356066 (2019).

Artículo Google Académico

Kasban, H. & Salama, DH Un sólido sistema de recuperación de imágenes médicas basado en la optimización de ondículas y la codificación adaptativa de truncamiento de bloques. multimed. Aplicación de herramientas 78, 35211–35236, https://doi.org/10.1007/s11042-019-08100-3 (2019).

Artículo Google Académico

Ghatwary, N., Zolgharni, M. & Ye, X. Gfd r-cnn más rápido: Gabor fractal densenet más rápido r-cnn para la detección automática de anomalías esofágicas en imágenes endoscópicas. Taller internacional sobre aprendizaje automático en imágenes médicas (MLMI) 11861, 89–97, https://doi.org/10.1007/978-3-030-32692-0_11 (2019).

Artículo Google Académico

Ghatwary, NM, Ye, X. y Zolgharni, M. Detección de anomalías esofágicas mediante r-cnn más rápido basado en densenet con características de gabor. Acceso IEEE 7, 84374–84385, https://doi.org/10.1109/ACCESS.2019.2925585 (2019).

Artículo Google Académico

Hicks, SA et al. Mimir: un sistema automático de informes y razonamiento para el análisis basado en el aprendizaje profundo en el ámbito médico. En Actas de la Conferencia de Sistemas Multimedia ACM (ACM MMSYS), 369–374, https://doi.org/10.1145/3204949.3208129 (2018).

Hicks, S. et al. Disección de redes neuronales profundas para una mejor clasificación de imágenes médicas y comprensión de la clasificación. En Actas del Simposio internacional IEEE sobre sistemas médicos basados ​​en computadora (CBMS), 363–368, https://doi.org/10.1109/CBMS.2018.00070 (2018).

Hicks, SA et al. Razonamiento comprensible e informes automatizados de exámenes médicos basados ​​en análisis de aprendizaje profundo. En Actas de la Conferencia de Sistemas Multimedia ACM (ACM MMSYS), 490–493, https://doi.org/10.1145/3204949.3208113 (2018).

Pogorelov, K. et al. Opensea: herramienta de clasificación basada en búsqueda abierta. En Actas de la Conferencia de Sistemas Multimedia ACM (ACM MMSYS), 363–368, https://doi.org/10.1145/3204949.3208128 (2018).

Thambawita, VL et al. Un estudio extenso sobre el sesgo de conjuntos de datos cruzados y la interpretación de métricas de evaluación para el aprendizaje automático aplicado a la clasificación de anomalías del tracto gastrointestinal. Transacciones de ACM en Comput. para la Saludc. (2020).

Riegler, M. et al. Multimedia para la medicina: la tarea médica en medieval 2017. En Actas de la iniciativa de evaluación comparativa de MediaEval para el taller de evaluación multimedia (MediaEval) (2017).

Pogorelov, K. et al. Medico multimedia task en medieval 2018. In Proceeding of the MediaEval Benchmarking Initiative for Multimedia Evaluation Workshop (MediaEval) (2018).

Hicks, S. et al. Resumen del gran desafío de Acm multimedia biomedia 2019. En Actas de la Conferencia Internacional ACM sobre Multimedia (ACM MM), 2563–2567, https://doi.org/10.1145/3343031.3356058 (2019).

Cheplygina, V., de Bruijne, M. & Pluim, JP No tan supervisado: una encuesta de aprendizaje semisupervisado, de múltiples instancias y de transferencia en el análisis de imágenes médicas. Medicina. Análisis de imágenes 54, 280–296, https://doi.org/10.1016/j.media.2019.03.009 (2019).

Artículo Google Académico

Hénaff, OJ, Razavi, A., Doersch, C., Eslami, S. & Oord, AVD Reconocimiento de imágenes eficiente en datos con codificación predictiva contrastiva. preimpresión de arXiv arXiv:1905.09272 (2019).

Misra, I. & van der Maaten, L. Aprendizaje autosupervisado de representaciones invariantes de pretexto. Preimpresión de arXiv arXiv:1912.01991 (2019).

Bui, TD, Ravi, S. & Ramavajjala, V. Neuralgraphlearning: Trainingneuralnetworksusinggraphs. En Proceedings of the ACM International Conference on Web Searchand Data Mining (WSDM), 64–71, https://doi.org/10.1145/3159652.3159731 (2018).

He, K., Fan, H., Wu, Y., Xie, S. y Girshick, R. Momentum contrast para el aprendizaje de representaciones visuales sin supervisión. preimpresión de arXiv arXiv:1911.05722 (2019).

Amano, Y. et al. Acuerdo interobservador en la clasificación de los diagnósticos endoscópicos de esofagitis no erosiva. Endoscopia 38, 1032–1035, https://doi.org/10.1055/s-2006-944778 (2006).

Artículo CAS PubMed Google Académico

De Lange, T., Larsen, S. & Aabakken, L. Acuerdo entre observadores en la evaluación de los hallazgos endoscópicos en la colitis ulcerosa. BMC gastroenterología 4, 9, https://doi.org/10.1186/1471-230X-4-9 (2004).

Artículo PubMed PubMed Central Google Académico

Jha, D. et al. Kvasir-seg: un conjunto de datos de pólipos segmentados. En Actas de la Conferencia Internacional sobre Modelado Multimedia (MMM), vol. 11962, 451–462, https://doi.org/10.1007/978-3-030-37734-2_37 (2020).

Jha, D. et al. Resunet++: una arquitectura avanzada para la segmentación de imágenes médicas. En Actas del Simposio Internacional sobre Multimedia (ISM), 225–230, https://doi.org/10.1109/ISM46123.2019.00049 (2019).

Borgli, H. et al. El conjunto de datos HyperQuasir. Marco de ciencia abierta, https://doi.org/10.17605/OSF.IO/MH9SJ (2020).

Calderwood, AH & Jacobson, BC Validación integral de la escala de preparación intestinal de Boston. Gastrointestinal. endoscopia 72, 686–692, https://doi.org/10.1016/j.gie.2010.06.068 (2010).

Artículo Google Académico

Aabakken, L. et al. Informe endoscópico estandarizado. J. Gastroenterol. Hepatol. 29, 234–240, https://doi.org/10.1111/jgh.12489 (2014).

Artículo PubMed Google Académico

Lundell, LR et al. Evaluación endoscópica de la esofagitis: correlatos clínicos y funcionales y mayor validación de la clasificación de los ángeles. Gut 45, 172–180, https://doi.org/10.1136/gut.45.2.172 (1999).

Artículo CAS PubMed PubMed Central Google Scholar

Sharma, P. et al. El desarrollo y validación de un sistema de clasificación endoscópico para el esófago de Barrett: los criterios de praga c & m. Gastroenterología 131, 1392–1399, https://doi.org/10.1053/j.gastro.2006.08.032 (2006).

Artículo PubMed Google Académico

Lai, EJ, Calderwood, AH, Doros, G., Fix, OK & Jacobson, BC La escala de preparación intestinal de Boston: un instrumento válido y confiable para la investigación orientada a la colonoscopia. Gastrointestinal. Endosc. 69, 620–625, https://doi.org/10.1016/j.gie.2008.05.057 (2009).

Artículo PubMed PubMed Central Google Académico

Schroeder, KW, Tremaine, WJ e Ilstrup, DM Tratamiento con ácido 5-aminosalicílico oral recubierto para la colitis ulcerosa activa de leve a moderada. El Nuevo Inglés. J. Medicina 317, 1625–1629, https://doi.org/10.1056/NEJM198712243172603 (1987).

Artículo CAS Google Académico

Lambert, R. La clasificación endoscópica de París de las lesiones neoplásicas superficiales: esófago, estómago y colon: del 30 de noviembre al 1 de diciembre de 2002. Gastrointest Endosc 58, S3–S43, https://doi.org/10.1016/S0016-5107(03)02159-X (2003) .

Artículo Google Académico

Forrest, JH, Finlayson, N. & Shearman, D. Endoscopia en hemorragia gastrointestinal. The Lancet 304, 394–397, https://doi.org/10.1016/s0140-6736(74)91770-x (1974).

Artículo Google Académico

Bray, F. et al. Estadísticas mundiales de cáncer 2018: estimaciones de Globocan de incidencia y mortalidad en todo el mundo para 36 cánceres en 185 países. CA: una revista de cáncer para médicos 68, 394–424, https://doi.org/10.3322/caac.21492 (2018).

Artículo Google Académico

Thambawita, V. et al. The medico-task 2018: Detección de enfermedades en el tracto gastrointestinal utilizando características globales y aprendizaje profundo. In Proceeding of the MediaEval Benchmarking Initiative for Multimedia Evaluation Workshop (MediaEval) (2018).

Bernal, J., Sánchez, J. & Vilarino, F. Hacia la detección automática de pólipos con un modelo de apariencia de pólipos. Reconocimiento de patrones. 45, 3166–3182, https://doi.org/10.1016/j.patcog.2012.03.002 (2012).

Artículo Google Académico

Ali, S. et al. Conjunto de datos de desafío de detección de artefactos de endoscopia (ead 2019). preimpresión de arXiv arXiv:1905.03209 (2019).

Silva, J., Histace, A., Romain, O., Dray, X. & Granado, B. Hacia la detección incrustada de pólipos en imágenes de wce para el diagnóstico temprano del cáncer colorrectal. En t. J. Cómputo. Asistir. Radiol. Cirugía 9, 283–293, https://doi.org/10.1007/s11548-013-0926-3 (2014).

Artículo PubMed Google Académico

Koulaouzidis, A. et al. Proyecto Kid: un atlas de video digital basado en Internet de cápsula endoscópica con fines de investigación. Endosc. abierto internacional 5, E477–E483, https://doi.org/10.1055/s-0043-105488 (2017).

Artículo Google Académico

Bernal, J. & Aymeric, H. Análisis de imágenes gastrointestinales (GIANA) Desafío D&L de angiodisplasia. https://endovissub2017-giana.grand-challenge.org/home/, Acceso: 2017-11-20 (2017).

Angermann, Q. et al. Hacia la detección de pólipos en tiempo real en videos de colonoscopia: adaptación de metodologías basadas en cuadros fijos para el análisis de secuencias de video. Endoscopia robótica y asistida por computadora y procedimientos clínicos basados ​​en imágenes (CARE CLIP) 10550, 29–41, https://doi.org/10.1007/978-3-319-67543-5_3 (2017).

Artículo Google Académico

Bernal, J. et al. Benchmark de detección de pólipos en videos de colonoscopia usando gtcreator: una herramienta novedosa totalmente configurable para la anotación fácil y rápida de bases de datos de imágenes. En Procedimientos de radiología y cirugía asistida por computadora (CARS), https://hal.archives-ouvertes.fr/hal-01846141 (2018).

Gastrolab - el sitio gastrointestinal, http://www.gastrolab.net/index.htm. Acceso: 2019-12-12.

Atlas de endoscopia clínica Weo, http://www.endoatlas.org/index.php. Acceso: 2019-12-12.

Lesiones gastrointestinales en el conjunto de datos de colonoscopia regular, http://www.depeca.uah.es/colonoscopy_dataset/, Acceso: 2019-12-12.

El atlas de endoscopio gastrointestinal, http://www.endoatlas.com/atlas_1.html. Acceso: 2019-12-12.

Atlas de videoendoscopia gastrointestinal de El Salvador, http://www.gastrointestinalatlas.com/index.html. Consultado: 2019-1216.

Pogorelov, K. et al. Nerthus: un conjunto de datos de video de calidad de preparación intestinal. En Actas de la Conferencia de Sistemas Multimedia ACM (ACM MMSYS), 170–174, https://doi.org/10.1145/3083187.3083216 (2017).

Descargar referencias

Nos gustaría agradecer a varias personas en el Hospital Bærum por hacer que los datos estén disponibles. Además, el trabajo está parcialmente financiado en parte por el Consejo de Investigación de Noruega, números de proyecto 263248 (Privaton) y 282315 (AutoCap).

Estos autores contribuyeron por igual: Hanna Borgli, Vajira Thambawita, Pia H. Smedsrud, Steven Hicks, Debesh Jha, Hugo L. Hammer, Michael A. Riegler, Pål Halvorsen, Thomas de Lange.

Estos autores supervisaron conjuntamente este trabajo: Michael A. Riegler, Pål Halvorsen, Thomas de Lange.

SimulaMet, Oslo, Noruega

Hanna Borgli, Vajira Thambawita, Pia H. Smedsrud, Steven Hicks, Debesh Jha, Hugo L. Hammer, Michael A. Riegler & Pål Halvorsen

Universidad Metropolitana de Oslo, Oslo, Noruega

Vajira Thambawita, Steven Hicks, Hugo L. Hammer y Pål Halvorsen

Universidad de Oslo, Oslo, Noruega

Hanna Borgli, Pia H. Smedsrud, Kristin Ranheim Randel, Carsten Griwodz y Håkon K. Stensland

Departamento de Investigación Médica, Hospital Bærum, Bærum, Noruega

Sigrun L. Eskeland y Thomas de Lange

Universidad de Bergen, Bergen, Noruega

Duc Tien Dang Nguyen

Incrementar Medical AS, Oslo, Noruega

Pia H. Smedsrud y Thomas de Lange

UIT Universidad Ártica de Noruega, Tromsø, Noruega

Debesh Jha y Dag Johansen

Laboratorio de Investigación Simula, Oslo, Noruega

Konstantin Pogorelov y Håkon K. Stensland

Departamento de Medicina (Solna), Karolinska Institutet, Estocolmo, Suecia

Pedro T. Schmidt

Registro de Cáncer de Noruega, Oslo, Noruega

Kristin RanheimRandel

Universidad de Klagenfurt, Klagenfurt, Austria

matias lux

Departamento Médico, Hospital Universitario Sahlgrenska-Mölndal, Mölndal, Suecia

Tomás de Lange

SINTEF Digital, Oslo, Noruega

Enrique Garcia-Ceja

Departamento de Medicina, hospital Ersta, Estocolmo, Suecia

Pedro T. Schmidt

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

SAH, VT, PH, HLH, MAR y TdL concibieron los experimentos, SAH, VT, HLH y MAR realizaron los experimentos, HB, SAH, MAR, PH y TdL prepararon y limpiaron los datos para su publicación, y todos los autores analizaron los resultados y revisaron el manuscrito.

Correspondencia a Pål Halvorsen.

Los autores PHS, DJ, CG, MAR, PH y TdL poseen acciones en la empresa Augere Medical AS que desarrolla soluciones de IA para colonoscopias. El sistema de anotación de video Augere se utilizó para etiquetar los videos. Augere no tiene ningún interés comercial con respecto a esta publicación y conjunto de datos. De lo contrario, los autores declaran que no hay conflictos de intereses.

Nota del editor Springer Nature se mantiene neutral con respecto a los reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso abierto Este artículo tiene una licencia internacional Creative Commons Attribution 4.0, que permite el uso, el intercambio, la adaptación, la distribución y la reproducción en cualquier medio o formato, siempre que se otorgue el crédito correspondiente al autor o autores originales y a la fuente. proporcionar un enlace a la licencia Creative Commons e indicar si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la regulación legal o excede el uso permitido, deberá obtener el permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

La exención de dedicación de dominio público de Creative Commons http://creativecommons.org/publicdomain/zero/1.0/ se aplica a los archivos de metadatos asociados con este artículo.

Reimpresiones y permisos

Borgli, H., Thambawita, V., Smedsrud, PH et al. HyperKvasir, un completo conjunto de datos de imágenes y videos de varias clases para endoscopia gastrointestinal. Datos científicos 7, 283 (2020). https://doi.org/10.1038/s41597-020-00622-y

Descargar cita

Recibido: 31 de diciembre de 2019

Aceptado: 21 de julio de 2020

Publicado: 28 agosto 2020

DOI: https://doi.org/10.1038/s41597-020-00622-y

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, un enlace para compartir no está disponible actualmente para este artículo.

Proporcionado por la iniciativa de intercambio de contenido Springer Nature SharedIt

Datos científicos (2023)

Informes científicos (2023)

Informes científicos (2023)

Informes científicos (2022)

Informes científicos (2022)

COMPARTIR