banner
Centro de Noticias
Amplios conocimientos en ventas y producción.

GTMNet: un transformador de visión con mapa de transmisión guiada para la eliminación de neblina de una sola imagen de teledetección

Jan 17, 2024

Scientific Reports volumen 13, Número de artículo: 9222 (2023) Citar este artículo

35 Accesos

Detalles de métricas

Los algoritmos de eliminación de neblina existentes no son efectivos para imágenes de detección remota (RSI) con neblina densa, y los resultados de eliminación de neblina son propensos a una mejora excesiva, distorsión del color y artefactos. Para abordar estos problemas, proponemos un modelo GTMNet basado en redes neuronales convolucionales (CNN) y transformadores de visión (ViT), combinados con canal oscuro previo (DCP) para lograr un buen rendimiento. Específicamente, primero se usa una capa de transformación de características espaciales (SFT) para introducir suavemente el mapa de transmisión guiada (GTM) en el modelo, mejorando la capacidad de la red para estimar el espesor de la neblina. Luego se agrega un módulo potenciado de fortalecimiento, operación y resta (SOS) para refinar las características locales de la imagen restaurada. El marco de GTMNet se determina ajustando la entrada del módulo potenciado SOS y la posición de la capa SFT. En el conjunto de datos SateHaze1k, comparamos GTMNet con varios algoritmos clásicos de eliminación de neblina. Los resultados muestran que en subconjuntos de datos de niebla moderada y niebla espesa, el PSNR y el SSIM de GTMNet-B son comparables con los del modelo de última generación Dehazeformer-L, con solo 0,1 veces la cantidad de parámetros. Además, nuestro método es intuitivamente eficaz para mejorar la claridad y los detalles de las imágenes eliminadas, lo que demuestra la utilidad y la importancia de utilizar el GTM anterior y el módulo potenciado SOS en una única eliminación RSI.

Los satélites de teledetección y los sensores de vehículos aéreos no tripulados (UAV) son susceptibles a los fenómenos atmosféricos que pueden afectar el contraste y la fidelidad del color de las imágenes recopiladas, lo que genera detalles de imagen debilitados y dificulta el reconocimiento de la información en la imagen. La neblina, la niebla y el humo son fenómenos atmosféricos muy comunes generados por la absorción y dispersión atmosférica. Con la aplicación de tecnología de detección remota en los campos de seguridad policial, protección de plantas agrícolas y forestales, inspección de patrullas de energía eléctrica, estudio de recursos terrestres y aplicaciones similares, es de gran importancia eliminar con precisión la neblina, la niebla y el humo de las imágenes de detección remota. (RSI) para detección de objetivos, seguimiento de objetivos y detección de UAV. Para simplificar, el término eliminación de neblina se usa uniformemente para denotar la eliminación de neblina, niebla y humo.

En la tarea de desempañado de imágenes, la siguiente expresión se usa ampliamente para describir la imagen borrosa como 1,2,3:

donde \(I(x)\), \(J(x)\), A y t denotan la imagen borrosa, la imagen sin niebla, la luz atmosférica global y el mapa de transmisión, respectivamente. La eliminación de neblina de una sola imagen es un problema desafiante, que tiene restricciones insuficientes debido a la información de profundidad desconocida. En la actualidad, se han propuesto numerosos algoritmos de eliminación de neblina desde varias direcciones.

Se ha demostrado que los primeros enfoques basados ​​en antecedentes son efectivos. Usando la Ec. (1), \(A\) y \(t\) deben estimarse con precisión para restaurar imágenes claras. Uno de los más representativos es el método Dark Channel Prior (DCP)4 para determinar la relación de mapeo entre imágenes claras y modelos físicos atmosféricos, que es un algoritmo de eliminación de neblina relativamente estable. Sin embargo, el efecto de eliminación de neblina en grandes áreas blancas tiende a producir grandes desviaciones. Por lo tanto, varios investigadores utilizan enfoques de aprendizaje profundo basados ​​en datos5,6 para estimar los parámetros intermedios del modelo de dispersión atmosférica y construir una relación de mapeo desde la imagen borrosa hasta los parámetros intermedios. Estos algoritmos de aprendizaje profundo se basan en el modelo de dispersión atmosférica. Aunque han mejorado mucho en la región del cielo y son visualmente más efectivos que los métodos tradicionales, los modelos son muy complejos y vulnerables a las limitaciones de la iluminación atmosférica y los cambios de escena, lo que da como resultado un rendimiento deficiente en tiempo real y un brillo oscurecido de la imagen restaurada. Para abordar estos problemas, varios algoritmos predicen directamente las imágenes sin neblina latentes de un extremo a otro. Huang et al.7 propusieron una red antagónica generativa condicional que utiliza imágenes RGB y SAR para eliminar la neblina. Mehta et al.8 desarrollaron SkyGAN específicamente para eliminar la neblina en imágenes aéreas, abordando el desafío de los limitados conjuntos de datos de imágenes aéreas hiperespectrales con neblina.

En los últimos años, Vision Transformer (ViT)9 se ha destacado en tareas de visión de alto nivel, centrándose en el modelado de dependencias a largo plazo en los datos. Sin embargo, ViT y Pyramid Vision Transformer (PVT)10 anteriores estaban sobreparametrizados y eran computacionalmente costosos. Por lo tanto, Liang et al.11 se inspiraron en Swin-Transformer12 y propusieron SwinIR que consiste en varios bloques de transformadores Swin residuales (RSTB), cada uno con varias capas de transformadores Swin y una conexión residual. Uformer13 introdujo un novedoso bloque transformador de ventana mejorado localmente (LeWin) y un modulador de restauración multiescala que se puede aprender en forma de un sesgo espacial multiescala para ajustar características en múltiples capas del decodificador Uformer. Dong et al.14 propusieron TransRA, una red neuronal de dos ramas fusionada con transformador y atención residual, para recuperar detalles finos de RSI de desempañado. Song et al.15 propusieron Dehazeformer basado en Swin-Transformer12 y U-Net16, modificando la capa de estandarización, la función de activación y el esquema de agregación de información espacial, e introduciendo restricciones suaves usando un previo débil. El Dehazeformer ha demostrado un rendimiento superior en comparación con los métodos anteriores en conjuntos de datos de interiores SOTS, al mismo tiempo que es más eficiente con menos parámetros y costos computacionales más bajos. Sin embargo, es difícil obtener suficientes conjuntos de datos RSI borrosos emparejados debido a las condiciones naturales y las limitaciones del equipo. Cuando las muestras de entrenamiento son pequeñas y contienen imágenes densas de neblina, el Dehazeformer funciona mal en la eliminación de neblina de RSI.

En resumen, en las tareas de eliminación de neblina de RSI, las características locales y globales son importantes, y los métodos tradicionales de eliminación de neblina de imágenes se basan en fundamentos teóricos sólidos que pueden guiar el aprendizaje de la red. Por lo tanto, hemos diseñado un nuevo modelo de eliminación de neblina de imágenes de detección remota RGB (GTMNet) basado en Dehazeformer mediante la reconstrucción de la arquitectura del modelo y la combinación de DCP en la red propuesta. Debido a las operaciones de reducción de muestreo en el codificador del Dehazeformer, es posible que el decodificador del Dehazeformer no recupere de manera eficaz la información espacial comprimida. Por lo tanto, usamos la estrategia de fortalecer-operar-restar (SOS) en el decodificador para recuperar información más comprimida y restaurar gradualmente las imágenes sin neblina latentes en este trabajo. También comparamos varios modelos de eliminación de neblina avanzados con GTMNet y verificamos la aplicabilidad del modelo propuesto. Para este trabajo, las principales contribuciones son las siguientes: (1) Se propone una arquitectura híbrida novedosa, que se basa en CNN y ViT, y combina el DCP. Comparado con otros modelos referenciados, proporciona mejores PSNR y SSIM; (2) El mapa de transmisión optimizado por filtrado guiado y una transformación lineal se introduce suavemente en el modelo a través de la capa de transformación de características espaciales (SFT), lo que permite una mejor estimación del espesor de la neblina en la imagen y, por lo tanto, mejora el rendimiento; (3) Para refinar gradualmente la imagen restaurada en el módulo de recuperación de características, el módulo potenciado SOS se combina con la tarea de eliminación de neblina de imágenes a través de una conexión de salto.

Esta sección presenta los detalles de GTMNet. Primero, presentamos el DCP. Luego estimamos el mapa de transmisión. Finalmente, describimos los detalles de la capa SFT, el módulo potenciado SOS y el módulo de fusión SK.

He et al.4 realizaron análisis estadísticos en regiones no celestes de más de 5000 imágenes de exteriores sin neblina y descubrieron que a menudo hay algunos píxeles con valores muy bajos en al menos un canal de color. Formalmente, el color primario oscuro de la imagen libre de neblina \(J(x)\) se define como:

donde c representa un canal entre los canales R, G y B; Ω(x) es un cuadrado local con centro en x; \({J}^{c}\) representa un determinado canal de color de \(J\). La observación muestra que, si \(J\) es una imagen exterior libre de neblina, a excepción de la región del cielo, el valor de píxel de \({J}^{oscuro}\) tiende a ser 0. La observación estadística anterior es llamado el DCP o el color primario oscuro anterior.

Para obtener una imagen clara sin neblina \(J\) en la ecuación. (1), es necesario resolver A y t. La ecuación (1) se puede reescribir como:

Según el DCP, el canal oscuro de una imagen de neblina se aproxima bien a la densidad de la neblina. Por lo tanto, He et al.4 eligieron el 0,1 % de los píxeles superiores más brillantes en el canal oscuro de la imagen borrosa. Entre estos píxeles, el píxel con mayor intensidad en la imagen de entrada I se selecciona como la luz atmosférica.

Suponiendo que la transmisión en un parche local Ω(x) es constante, la transmisión del parche \(\widehat{t}\left(x\right)\) se puede definir como:

Como se menciona en la literatura4, incluso si el clima es despejado, los objetos distantes se ven más o menos afectados por la neblina, por lo que los autores controlan el grado de neblina introduciendo un factor ω de [0,1] para dar una sensación de profundidad de campo. . La expresión específica es:

donde ω suele tomarse como 0,95.

Debido a las suposiciones locales, el mapa de transmisión estimado \(\widehat{t}\left(x\right)\) exhibirá efectos de bloque. En los métodos tradicionales de eliminación de neblina de imágenes, \(\widehat{t}\left(x\right)\) generalmente se refina utilizando el método de matizado suave, filtrado guiado o filtrado guiado rápido. Aunque el método de mateado suave puede lograr buenos resultados, la información de los bordes del objeto es débil y requiere mucho tiempo. Por lo tanto, utilizamos un filtro guiado rápido para la optimización17, en el que el radio de la ventana del filtro se establece en 60 y el parámetro de regularización e es 0,0001.

La Figura 1 muestra los resultados relevantes de los mapas de transmisión en el conjunto de datos SateHaze1k. Encontramos que el mapa de transmisión optimizado por el filtro de guía rápida en la Fig. 1c puede estimar objetivamente la distribución nebulosa de la imagen de entrada. Sin embargo, la introducción del DCP en este documento tiene como objetivo estimar la concentración de turbidez. Como se muestra en la Fig. 1d, para resaltar el espesor de la neblina en la imagen, utilizamos una transformación lineal para mejorar el mapa de transmisión optimizado t y lo definimos como el mapa de transmisión guiada (GTM) t1, que se puede formular como:

Resultados de los mapas de transmisión en el conjunto de datos SateHaze1k: (a) imágenes de entrada; (b) Mapas de canales oscuros; (c) Los mapas de transmisión optimizados por filtro guiado rápido; (d) Los mapas de transmisión guiada.

Como se muestra en la Fig. 2 y la Tabla 1, la red GTMNet propuesta se basa en Dehazeformer, pero incorpora capas SFT18 y módulos potenciados por SOS. Las capas SFT integran el GTM en GTMNet, que puede fusionar de manera efectiva las características del GTM y la imagen de entrada para estimar con mayor precisión el espesor de la neblina en la imagen de entrada. Los módulos potenciados por SOS pueden restaurar imágenes claras de forma iterativa. Al final del decodificador, se utiliza una capa de reconstrucción blanda para estimar la imagen sin neblina \(\widehat{J}\).

La arquitectura general de la GTMNet propuesta.

La capa SFT se aplica primero en tareas de superresolución18. Es eficiente desde el punto de vista de los parámetros y se puede introducir fácilmente en las estructuras de red de eliminación de neblina existentes con una fuerte extensibilidad. Como se muestra en la Fig. 3, usamos el GTM t1 como entrada adicional de la capa SFT, que primero aplica tres capas convolucionales para extraer los mapas condicionales φ del GTM; luego, los mapas condicionales φ se introducen en las otras dos capas convolucionales para predecir los parámetros de modulación γ y β, respectivamente; finalmente, la transformación se lleva a cabo escalando y desplazando mapas de características de una capa específica, y podemos obtener las características desplazadas de salida mediante:

donde F son los mapas de características con las mismas dimensiones que γ y β, ⊙ se refiere a la multiplicación por elementos, es decir, el producto de Hadamard, y ⊕ es la suma por elementos. Dado que las dimensiones espaciales se conservan, la capa SFT realiza una manipulación y una transformación espacial. Dado que el tamaño de cada objeto es generalmente pequeño en RSI, la obtención de características locales se vuelve crucial. En este documento, utilizamos capas SFT con parámetros compartidos para compensar la capacidad limitada del Transformador para adquirir características locales.

La estructura de la capa SFT.

Se ha demostrado matemáticamente que el método de refuerzo SOS19 es efectivo para eliminar el ruido de la imagen, lo que restaura iterativamente imágenes claras. Dong et al.20 han verificado una variedad de módulos potenciados SOS opcionales, y los resultados muestran que el siguiente esquema potenciado tiene el mejor efecto, como se muestra en la ecuación. (8):

donde \(Up(.)\) denota el operador de muestreo superior usando un método de mezcla de píxeles21, \({S}^{n+1}\) representa la función de nivel anterior, \({I}^{n}\) denota la característica latente del codificador, \(({I}^{n}+Up{(S}^{n+1}))\) representa la característica reforzada, y \({\mathcal{G}}_{ {\theta }_{n}}^{n}\) denota la unidad de refinamiento entrenable en el (n)-ésimo nivel parametrizado por \({\theta }_{n}\). De acuerdo con la arquitectura propuesta, la Ec. (8) se escribe como Eq. (9):

donde \({J}^{n+1}\) denota la característica del bloque Dehazeformer del decodificador. El módulo potenciado SOS consta de tres bloques residuales, como se muestra en la Fig. 4.

La estructura del módulo potenciado SOS.

Song et al.22 diseñaron un módulo Fusion de núcleo selectivo (SK), que está inspirado en SKNet23, para fusionar múltiples ramas utilizando la atención del canal. Usamos el módulo SK Fusion22 para fusionar las ramas SOS y decodificador. Específicamente, sean dos mapas de características \(x1\) y \(x2\), una capa lineal \(f\left(.\right)\) se usa primero para proyectar \(x1\) a \(\widehat{x }1\). Luego, se utiliza una agrupación promedio global \(GAP\left(.\right)\), un perceptrón multicapa \(MLP\left(.\right)\), una función softmax y una operación de división para obtener los pesos de fusión, como se muestra en la ecuación (10):

Finalmente, los pesos \(\left\{a1,a2\right\}\) se usan para fusionar \(\widehat{x}1\), \(x2\) con un residual corto adicional a través de \(y=a1\ sombrero ancho{x}1+a2x2+x2\).

En esta parte, primero presentamos conjuntos de datos y los detalles de implementación de GTMNet. Luego, evaluamos nuestro método en conjuntos de datos RS-Haze y SateHaze1k. Finalmente, se realizan estudios de ablación y otros experimentos comparativos para analizar el enfoque propuesto.

RS-Haze22 es un conjunto de datos RSI brumoso sintético sintetizado a partir de 76 RSI que contienen topografía diversa con buenas condiciones climáticas y 108 RSI nublados. Todas las imágenes se descargan del producto de datos Landsat-8 Nivel 1 en EarthExplorer. El conjunto de entrenamiento final contiene 51 300 pares RSI y el conjunto de prueba contiene 2700 pares RSI con una resolución de imagen de 512 × 512. Dado que el método propuesto está optimizado en el modelo Dehazeformer, la configuración experimental es consistente con Dehazeformer22. Entrenamos el modelo utilizando la pérdida L1 durante 150 épocas, cada una de las cuales se valida una vez. Las imágenes del conjunto de prueba son las mismas que las del conjunto de verificación.

SateHaze1k7 también es un conjunto de datos de detección remota satelital de neblina sintética, que utiliza el software Photoshop como herramienta auxiliar para generar imágenes difusas ricas, reales y diversas. Este conjunto de datos contiene 1200 pares RSI, y cada par de imágenes incluye una imagen borrosa y una imagen real sin niebla. Estas imágenes se dividen en tres subconjuntos de imágenes de neblina: niebla fina, niebla moderada y niebla espesa, con una resolución de imagen de 512 × 512. Seleccionamos 320 pares de imágenes de cada tipo de subconjunto de imágenes de neblina como conjunto de entrenamiento y 45 pares de imágenes como el conjunto de prueba. Cada tipo de subconjunto de imágenes borrosas se entrena y prueba por separado. Dado que el conjunto de datos SateHaze1k es pequeño, entrenamos GTMNet para 1000 épocas y lo verificamos cada diez épocas. Otras configuraciones experimentales son las mismas que las del conjunto de datos RS-Haze.

Proporcionamos cuatro variantes de GTMNet (-T, -S, -B y -L para diminuto, pequeño, básico y grande, respectivamente), implementamos la estructura de red propuesta utilizando el marco PyTorch y entrenamos el modelo en una NVIDIA GeForce RTX3090 . Durante el entrenamiento, las imágenes se recortan aleatoriamente en parches de 256 × 256. Establecemos diferentes tamaños de mini lotes para diferentes variantes, es decir, {32, 16, 8, 4} para {-T, -S, -B, -L}. La tasa de aprendizaje inicial se establece en {4, 2, 2, 1} × 10–4 para la variante {-T, -S, -B, -L}. Usamos el optimizador AdamW24 con una estrategia de recocido de coseno25 para entrenar el modelo, donde la tasa de aprendizaje disminuye gradualmente desde la tasa de aprendizaje inicial a {4, 2, 2, 1} × 10–6.

El mecanismo propuesto para el entrenamiento de GTMNet se ilustra en el Algoritmo 1. Todos los parámetros que se pueden aprender en GTMNet se inicializan utilizando la estrategia de distribución normal truncada26.

Usamos la relación pico señal/ruido (PSNR) y la medición del índice de similitud de estructura (SSIM) como indicadores de evaluación objetiva, y comparamos la cantidad de parámetros entre GTMNet y otros métodos, como se muestra en las tablas 2 y 3, donde la negrita indica el valor óptimo y el subrayado indica el valor subóptimo.

Debido a las limitaciones del equipo, solo se realizan pruebas y capacitación en -T. Comparamos el método propuesto con otros cuatro algoritmos clásicos de eliminación de neblina. Como se muestra en la Tabla 2, el PSNR de nuestro método es ligeramente más bajo que el de Dehazeformer-T, mientras que el SSIM de ambos es el mismo. Dado que la arquitectura propuesta tiene más parámetros, es más fácil sobreajustar, lo que da como resultado un rendimiento de generalización deficiente.

Comparamos el método propuesto con DCP4, DehazeNet5, Huang (SAR)7, SkyGAN8, TransRA14 y Dehazeformer22, y los resultados se muestran en la Tabla 3. El PSNR y SSIM de GTMNet-T en los tres subconjuntos de datos son mejores que los de Dehazeformer-T22, especialmente, el PSNR en Thin Fog se mejora en casi un 2,6% y el SSIM se incrementa de 0,968 a 0,970. En niebla moderada, el PSNR y SSIM de GTMNet-B alcanzan 27,22 dB y 0,973, respectivamente, un aumento del 7,2 % y 7,6 % en comparación con SkyGAN8. En Thick Fog, aunque el PSNR de GTMNet-B es más bajo que el de Huang (SAR)7 y SkyGAN8, la métrica SSIM mejora en un 8,7 % y un 5,2 %, respectivamente, en comparación con los dos algoritmos. En los tres subconjuntos de datos, GTMNet-T logra mejores puntajes de PSNR y SSIM que TransRA14, con una mejora significativa en el rendimiento de PSNR.

Como se muestra en la Tabla 3, combinado con los resultados de la comparación cuantitativa anterior, el modelo propuesto aún es liviano, aunque los parámetros han aumentado ligeramente. En los subconjuntos de datos de niebla moderada y niebla espesa, GTMNet-B tiene un rendimiento comparable al de Dehazeformer-L, pero con solo 0,1 veces la cantidad de parámetros. Sin embargo, el rendimiento de GTMNet-L es inferior al de Dehazeformer-L, lo que puede deberse a dos aspectos: en primer lugar, la mayor cantidad de parámetros de GTMNet-L hace que sea más propenso al sobreajuste; En segundo lugar, la capacidad de generalización de GTMNet-L se reduce debido al pequeño conjunto de datos.

Se realizó una comparación cualitativa de métodos relacionados en los conjuntos de datos RS-Haze y SateHaze1k. Dado que Song et al.22 compararon los métodos avanzados existentes de eliminación de neblina en el conjunto de datos RS-Haze, aquí solo presentamos las imágenes de eliminación de neblina de GTMNet-T y Dehazeformer-T. Como se muestra en la Fig. 5, hay poca diferencia visual entre GTMNet-T y Dehazeformer-T en las imágenes de RS-Haze, ya que ambas muestran claridad, información rica en características, colores realistas y un sentido de jerarquía.

Comparación cualitativa de los métodos de eliminación de neblina de imágenes en el conjunto de datos RS-Haze.

En el conjunto de datos SateHaze1k, presentamos los resultados de la comparación cualitativa de GTMNet y los métodos más avanzados. Las imágenes de entrada borrosas incluyen tierras de cultivo, carreteras, edificios y vegetación, como se muestra en la Fig. 6. Descubrimos que el método DCP4 falló, posiblemente debido a la similitud entre los colores de la luz atmosférica y el objeto. Aunque el método de Huang (SAR)7 puede eliminar la neblina, la información de las características del suelo de la imagen restaurada en el área de neblina densa no es lo suficientemente rica y los detalles del edificio se debilitan gravemente. En general, tanto DehazeNet5 como SkyGAN8 no pudieron eliminar por completo la neblina (como se muestra en el resultado del procesamiento de la primera imagen borrosa en la Fig. 6), lo que resultó en un color poco natural de la imagen y una capacidad de recuperación débil para obtener información detallada. Dehazeformer-T22 y GTMNet-T resuelven el problema de la eliminación de imágenes incompletas. Sin embargo, para áreas con neblina espesa o neblina de nubes, el algoritmo Dehazeformer sufre una distorsión de color grave. GTMNet mejora no solo el problema de la desviación del color de la imagen, sino también la nitidez.

Comparación cualitativa de los métodos de eliminación de neblina de imágenes en el conjunto de datos SateHaze1k.

En esta parte, realizamos estudios de ablación sobre la estructura del modelo propuesto para analizar los factores que pueden influir en los resultados. En estos estudios, excepto para diferentes sujetos, las otras estrategias son las mismas en cada grupo de experimentos.

Para estudiar la influencia de diferentes componentes en el efecto de eliminación de neblina de la imagen, tomamos Dehazeformer-T22 como modelo de referencia y realizamos experimentos de ablación en diferentes componentes en el conjunto de datos SateHaze1k7.

Como se muestra en la Tabla 4, D-SOS-T se refiere a agregar el módulo SOS a Dehazeformer-T. De acuerdo con la Tabla 5, encontramos que los indicadores PSNR y SSIM de los tres subconjuntos de datos se han mejorado significativamente, verificando la efectividad del módulo SOS en la tarea de eliminación de imágenes. D-GTM-T indica la introducción de GTM como anterior en Dehazeformer-T a través de dos capas SFT. La ubicación de la capa SFT se muestra en la Fig. 9b. De acuerdo con la Tabla 5, el rendimiento de agregar solo un GTM anterior a Dehazeformer-T sin utilizar la estrategia potenciada por SOS es mejor que el de Dehazeformer-T en niebla moderada, pero el efecto es pobre en niebla fina y niebla espesa. Creemos que esto se debe a que el método para obtener GTM se basa en estadísticas de imágenes ordinarias, que tienen una gran diferencia entre los RSI y las imágenes ordinarias. Los métodos anteriores tradicionales son más efectivos en imágenes de neblina uniforme.

Como se muestra en la Fig. 7, las imágenes sin neblina generadas por Dehazeformer-T, D-SOS-T y D-GTM-T muestran distorsión de construcción. Entre todos los métodos, el efecto de eliminación de neblina de GTMNet es el mejor, que puede garantizar la claridad de la imagen restaurada y restaurar mejor el color de la imagen. En los subconjuntos de datos Thin Fog y Thick Fog, los indicadores PSNR y SSIM aumentan más cuando los dos componentes se usan juntos que cuando se usan por separado.

Comparación cualitativa de diferentes modelos de ablación de componentes en el conjunto de datos SateHaze1k.

De acuerdo con la Ec. (8–9), diseñamos dos modelos de ablación diferentes D-SOS-T y D-SOS1-T en el conjunto de datos SateHaze1k. La configuración específica se muestra en la Tabla 6. De acuerdo con la Tabla 7, si \({S}^{2}\) se muestrea directamente y se ingresa a SOS1 (Fig. 2), en comparación con D-SOS-T, PSNR disminuye de 27,09 a 26,77 dB, y el valor de SSIM permanece sin cambios en niebla moderada. Además, en comparación con Dehazeformer-T, PSNR y SSIM aumentan de 26,38 dB y 0,969 a 26,77 dB y 0,971, respectivamente.

Como se ve en la Fig. 8, hay muy poca diferencia visual entre las imágenes despejadas de D-SOS-T y D-SOS1-T. En el área de neblina densa, la distorsión del color es severa y se pierde el detalle del borde, como se muestra en los resultados de la tercera imagen de neblina en la Fig. 8. En resumen, \(Up({J}^{2})\ ) se configura como la entrada del módulo SOS1.

Comparación cualitativa de modelos de ablación con diferentes entradas al módulo SOS1 en el conjunto de datos SateHaze1k.

De acuerdo con la estructura del modelo, la posición de las capas SFT se puede categorizar en cuatro situaciones (como se muestra en la Fig. 9): (a) usar solo una capa SFT frente al bloque Dehazeformer1, (b) usar solo una capa SFT detrás del bloque 5 de Dehazeformer, (c) usando una capa SFT delante del bloque 1 de Dehazeformer y detrás del bloque 5 de Dehazeformer, respectivamente (es decir, GTMNet), y (d) usando una capa SFT delante del bloque 2 de Dehazeformer y detrás del bloque 4 de Dehazeformer, respectivamente. Como se muestra en la Tabla 8, (d)-T tiene el PSNR y SSIM más alto en niebla moderada, pero la Tabla 9 indica que GTMNet-B tiene un mayor aumento en PSNR y SSIM que (d)-B. Además, como se ve en los resultados de la comparación en la Fig. 10, el mejor resultado de eliminación de neblina se logra usando GTMNet-T, con una claridad de imagen significativamente mejorada y una distorsión del color de la imagen menos severa, especialmente en la tercera imagen borrosa en la Fig. 10.

Posición de las capas SFT: (a) Frente al bloque 1 de Dehazeformer; (b) Detrás del bloque 5 de Dehazeformer; (c) Delante del bloque 1 de Dehazeformer y detrás del bloque 5 de Dehazeformer; (d) Delante del bloque 2 de Dehazeformer y detrás del bloque 4 de Dehazeformer.

Comparación cualitativa de modelos de ablación de la capa SFT y GTM en el conjunto de datos SateHaze1k.

Con base en los resultados que se muestran en la Tabla 8, concluimos que agregar GTM tanto al codificador como al decodificador tiene un efecto superior en la eliminación de la neblina de los RSI de Niebla Fina, y agregar GTM únicamente al decodificador tiene un mejor efecto en la eliminación de la neblina de los RSI Moderados. RSI de niebla y niebla espesa. Creemos que la efectividad de GTM no solo está relacionada con el espesor de la neblina, sino que también depende de la presencia o ausencia de módulos potenciados por SOS.

Diferentes mapas de transmisión pueden afectar el rendimiento de eliminación de neblina de un modelo. En nuestro experimento, utilizamos dos tipos de mapas de transmisión: el mapa de transmisión optimizado únicamente mediante filtrado guiado, denominado (c)-tT, y el GTM obtenido al optimizar el mapa de transmisión estimado mediante filtrado guiado y, posteriormente, aplicarle una transformación lineal. que se utilizó en GTMNet. Como se muestra en la Tabla 8, el GTM conduce a indicadores PSNR y SSIM más altos tanto en niebla fina como en niebla espesa en comparación con el mapa de transmisión optimizado únicamente mediante filtrado guiado. Además, la evaluación visual subjetiva y los resultados de métricas cuantitativas objetivas demuestran que GTM también es adecuado para imágenes de neblina densa local y produce un notable efecto de eliminación de neblina.

De acuerdo con el método de entrenamiento en Dehazeformer22, la tasa de aprendizaje inicial del modelo disminuye a medida que disminuye el tamaño del lote. Siguiendo la regla de escalado lineal, la tasa de aprendizaje inicial de GTMNet-B debe ser 1 × 10–4. Realizamos experimentos de ablación en tres subconjuntos de datos y encontramos que si redujimos la tasa de aprendizaje inicial en GTMNet-B, como se muestra en la Tabla 10, los valores de PSNR y SSIM generalmente disminuyeron significativamente, por lo que mantuvimos la tasa de aprendizaje inicial constante, es decir , 2 × 10–4, incluso si reducimos el tamaño del lote de una iteración en -B.

Para evaluar la capacidad de generalización de GTMNet, seleccionamos dos RSI aéreos nebulosos no tripulados del mundo real para la prueba. En general, el método Dehazeformer es subóptimo; por lo tanto, solo comparamos los resultados de GTMNet-T y Dehazeformer-T en esta parte y usamos el modelo -T entrenado en niebla moderada para probar las dos imágenes de neblina del mundo real. La Figura 11 muestra poca diferencia visual entre los resultados de procesamiento obtenidos por el algoritmo propuesto y Dehazeformer-T. Ambos métodos producen información del terreno rica y clara y colores realistas, lo que sugiere que ambos algoritmos son adecuados para imágenes de teledetección borrosas en el mundo real. Hemos incluido comparaciones visuales adicionales en Material complementario para mostrar el rendimiento de nuestro método en imágenes del mundo real (Material complementario).

Comparación cuantitativa de Dehazeformer y GTMNet para imágenes del mundo real. Las entradas brumosas son adquiridas por un DJI-Phantom 4 Pro.

Las imágenes borrosas sufren problemas como bajo contraste, baja saturación, pérdida de detalles y desviación de color, que afectan seriamente las tareas de análisis de imágenes, como la clasificación, el posicionamiento, la detección y la segmentación. Por lo tanto, en tales casos, la eliminación de neblina es crucial para generar imágenes con buena calidad perceptiva y mejorar el rendimiento de las tareas de visión por computadora posteriores.

En esta sección, analizamos el impacto de los resultados de eliminación de neblina en la segmentación de cuerpos de agua RSI. En primer lugar, entrenamos una red de segmentación de agua RSI inspirada en U-Net para la segmentación de imágenes biomédicas28 con 1500 RSI y la probamos con 300 RSI. En segundo lugar, seleccionamos dos imágenes del conjunto de prueba, agregamos una concentración moderada de neblina usando el software Photoshop y probamos las dos imágenes usando el modelo -T entrenado en niebla moderada. Finalmente, comparamos cualitativamente los resultados de la segmentación del cuerpo de agua para entradas brumosas, resultados de eliminación de neblina de GTMNet-T y Dehazeformer-T e imágenes sin neblina. Como se muestra en la Fig. 12, hay muy poca diferencia visual entre las imágenes sin neblina de GTMNet-T y las imágenes sin neblina. Sin embargo, las imágenes sin neblina de Dehazeformer-T han aumentado los errores en el proceso de segmentación del cuerpo de agua en comparación con las imágenes sin neblina.

Comparación cualitativa de diferentes resultados de eliminación de neblina en la tarea de segmentación de cuerpos de agua de RSI. Las verdades del terreno son adquiridas por un DJI-Phantom 3 Pro.

Combinando las ventajas de ViT y CNN, proponemos un nuevo modelo híbrido de eliminación de neblina RSI GTMNet. El GTM se introduce primero en el modelo utilizando dos capas SFT para mejorar la capacidad del modelo para estimar el espesor de la neblina. A continuación, se introduce el módulo mejorado SOS para refinar gradualmente las características locales de la imagen restaurada. Los resultados experimentales muestran que el modelo propuesto tiene un excelente efecto de eliminación de neblina incluso para conjuntos de datos RSI borrosos a pequeña escala, lo que compensa la falta de datos de entrenamiento para las tareas visuales actuales de bajo nivel de manera efectiva y mejora la aplicabilidad del modelo. En comparación con los métodos más avanzados, GTMNet mitiga, hasta cierto punto, la distorsión del color en el techo de los edificios con mucho brillo y en áreas densas de neblina.

Descubrimos que la efectividad del GTM anterior depende de la presencia del módulo potenciado SOS. Por lo tanto, la estrategia de introducir conocimientos previos externos es crucial. En trabajos futuros, inspirados en una red de memoria dinámica (DMN +)29 para fusionar el conocimiento externo relacionado con el objetivo y las características de la imagen, y una red de fusión de características multinivel (MFFN)30 para abordar la redundancia de la red, exploraremos la auto- estrategia de fusión ponderada de los datos auxiliares (p. ej., imagen de radar de apertura sintética, GTM) y características RSI. Además, estudiaremos más a fondo las estrategias de combinación de métodos tradicionales y métodos basados ​​en el aprendizaje profundo, y diseñaremos modelos más adecuados para evitar el sobreajuste.

Todos los datos generados o analizados durante este estudio se incluyen en este artículo publicado. La versión del software Photoshop para crear RSI borrosos es la 24.3, que está disponible en https://www.adobe.com/products/photoshop.html.

McCartney, EJ Óptica de la Atmósfera: Dispersión por Moléculas y Partículas (Springer, 1976).

Google Académico

Nayar, SK & Narasimhan, SG Visión con mal tiempo. En Actas de la Séptima Conferencia Internacional IEEE sobre Visión por Computador, vol. 2, 820–827 (IEEE, 1999).

Narasimhan, SG & Nayar, SK Visión y la atmósfera. En t. J. Cómputo. Vis. 48, 233–254 (2002).

Artículo MATEMÁTICAS Google Académico

He, K., Sun, J. & Tang, X. Eliminación de la neblina de una sola imagen usando el canal oscuro antes. Trans. IEEE. Patrón Anal. Mach. Intel. 33, 2341–2353 (2010).

Académico de Google de PubMed

Cai, B., Xu, X., Jia, K., Qing, C. y Tao, D. Dehazenet: un sistema integral para la eliminación de la neblina de una sola imagen. Trans. IEEE. Proceso de imagen. 25, 5187–5198 (2016).

Artículo ADS MathSciNet MATH Google Scholar

Chavez, PS Jr. Una técnica mejorada de sustracción de objetos oscuros para la corrección de dispersión atmosférica de datos multiespectrales. Sensores Remotos Entorno. 24, 459–479 (1988).

Artículo ANUNCIOS Google Académico

Huang, B., Zhi, L., Yang, C., Sun, F. & Song, Y. Eliminación de neblina de imágenes ópticas de un solo satélite usando una imagen SAR previa basada en redes antagónicas generativas condicionales. En Actas de la Conferencia de invierno IEEE/CVF sobre aplicaciones de visión artificial, 1806–1813 (2020).

Mehta, A., Sinha, H., Mandal, M. y Narang, P. Reconstrucción hiperespectral no supervisada con reconocimiento de dominio para eliminar la neblina de imágenes aéreas. En Actas de la Conferencia de invierno IEEE/CVF sobre aplicaciones de visión artificial, 413–422 (2021).

Vaswani, A. et al. La atención es todo lo que necesitas. Adv. Información neuronal Proceso. sist. 30, 1–10 (2017).

Google Académico

Wang, W. et al. Transformador de visión piramidal: una columna vertebral versátil para la predicción densa sin circunvoluciones. En Actas de la Conferencia internacional IEEE/CVF sobre visión artificial, 568–578 (2021).

Liang, J. et al. Swinir: Restauración de imágenes usando el transformador swin. En Actas de la Conferencia internacional IEEE/CVF sobre visión artificial, 1833–1844 (2021).

Liu, Z. et al. Swin transformer: Transformador de visión jerárquica utilizando ventanas desplazadas. En Actas de la Conferencia internacional IEEE/CVF sobre visión artificial, 10012–10022 (2021).

Wang, Z. et al. Uformer: un transformador general en forma de U para la restauración de imágenes. En Actas de la Conferencia IEEE/CVF sobre visión artificial y reconocimiento de patrones, 17683–17693 (2022).

Dong, P. & Wang, B. TransRA: Transformador y fusión de atención residual para eliminar la neblina de una sola imagen de teledetección. multidimensional. sist. Proceso de señal. 33, 1119–1138 (2022).

Artículo Google Académico

Song, Y., He, Z., Qian, H. & Du, X. Transformadores de visión para eliminar la neblina de una sola imagen. Trans. IEEE. Proceso de imagen. 32, 1927-1941 (2023).

Artículo ANUNCIOS Google Académico

Ronneberger, O., Fischer, P. & Brox, T. U-net: Redes convolucionales para la segmentación de imágenes biomédicas. En Conferencia internacional sobre computación de imágenes médicas e intervención asistida por computadora, 234–241 (Springer, 2015).

He, K., Sun, J. & Tang, X. Filtrado guiado de imágenes. En la conferencia europea sobre visión artificial, 1–14 (Springer, 2010).

Wang, X., Yu, K., Dong, C. & Loy, CC Recuperación de textura realista en superresolución de imagen mediante transformación profunda de características espaciales. En Actas de la Conferencia IEEE sobre visión artificial y reconocimiento de patrones, 606–615 (2018).

Romano, Y. & Elad, M. Impulso de algoritmos de reducción de ruido de imagen. SIAM J. Imag. ciencia 8, 1187–1219 (2015).

Artículo MathSciNet MATEMÁTICAS Google Académico

Dong, H. et al. Red de eliminación de neblina potenciada a varias escalas con fusión de características densas. En Actas de la Conferencia IEEE/CVF sobre visión artificial y reconocimiento de patrones, 2157–2167 (2020).

Shi, W. et al. Súper resolución de video e imagen única en tiempo real utilizando una eficiente red neuronal convolucional de subpíxeles. En Actas de la Conferencia IEEE sobre visión artificial y reconocimiento de patrones, 1874–1883 ​​(2016).

Song, Y., He, Z., Qian, H. & Du, X. Transformadores de visión para eliminación de neblina de una sola imagen. http://arxiv.org/abs/2204.03883 (2022).

Li, X., Wang, W., Hu, X. y Yang, J. Redes de kernel selectivas. En Actas de la Conferencia IEEE/CVF sobre visión artificial y reconocimiento de patrones, 510–519 (2019).

Loshchilov, I. y Hutter, F. Regularización del deterioro del peso desacoplado. http://arxiv.org/abs/1711.05101 (2017).

Loshchilov, I. & Hutter, F. Sgdr: Descenso de gradiente estocástico con reinicios en caliente. http://arxiv.org/abs/1608.03983 (2016).

Burkardt, J. La distribución normal truncada. Sitio web del Departamento de Computación Científica 1, 35 (2014).

Chen, D. et al. Red de agregación de contextos cerrados para eliminar la neblina y el desrainado de imágenes. En 2019 IEEE Winter Conference on Applications of Computer Vision (WACV) 1375–1383 (IEEE, 2019).

Ronneberger, O., Fischer, P. & Brox, T. U-net: Redes convolucionales para la segmentación de imágenes biomédicas. En Medical Image Computing and Computer-Assisted Intervention–MICCAI 2015: 18th International Conference, Munich, Alemania, del 5 al 9 de octubre de 2015, Actas, Parte III 18 234–241 (Springer, 2015).

Chen , Y. , Xia , R. , Zou , K. & Yang , K. FFTI: Algoritmo de pintura de imágenes a través de fusión de características y pintura en dos pasos . J. Vis. común Imagen Representar. Rev. 91, 103776 (2023).

Artículo Google Académico

Chen, Y., Xia, R., Yang, K. y Zou, K. MFFN: superresolución de imagen a través de una red de fusión de características de varios niveles. Vis. computar 1, 1–16 (2023).

Google Académico

Descargar referencias

Yaping Zhang fue financiado por el Proyecto Especial Conjunto de Investigación Básica Agrícola Provincial de Yunnan (Subvención No. 202101BD070001-042) y el Programa de Diez Mil Talentos de Yunnan. Los autores declaran no tener conflictos de intereses.

Escuela de Ciencias y Tecnologías de la Información, Universidad Normal de Yunnan, Kunming, 650500, Yunnan, China

Haiqin Li, Yaping Zhang, Jiatao Liu y Yuanjie Ma

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

NS: conceptualización, software, investigación, visualización, validación, redacción, revisión. YZ: conceptualización, metodología, redacción, revisión, supervisión, apoyo financiero. JL: conceptualización, redacción, revisión. YM: validación, recursos.

Correspondencia a Yaping Zhang.

Los autores declaran no tener conflictos de intereses.

Springer Nature se mantiene neutral con respecto a los reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso abierto Este artículo tiene una licencia internacional Creative Commons Attribution 4.0, que permite el uso, el intercambio, la adaptación, la distribución y la reproducción en cualquier medio o formato, siempre que se otorgue el crédito correspondiente al autor o autores originales y a la fuente. proporcionar un enlace a la licencia Creative Commons e indicar si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la regulación legal o excede el uso permitido, deberá obtener el permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Li, H., Zhang, Y., Liu, J. et al. GTMNet: un transformador de visión con mapa de transmisión guiada para eliminar la neblina de una sola imagen de teledetección. Informe científico 13, 9222 (2023). https://doi.org/10.1038/s41598-023-36149-6

Descargar cita

Recibido: 14 febrero 2023

Aceptado: 30 de mayo de 2023

Publicado: 07 junio 2023

DOI: https://doi.org/10.1038/s41598-023-36149-6

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, un enlace para compartir no está disponible actualmente para este artículo.

Proporcionado por la iniciativa de intercambio de contenido Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y Pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.