Di più

Come migliorare l'accuratezza della classificazione per le immagini a 3 bande (RGB)?

Come migliorare l'accuratezza della classificazione per le immagini a 3 bande (RGB)?


Spero di estrarre alcune semplici caratteristiche della vegetazione (artemisia) da immagini NAIP da 1 m a 3 bande (RGB). Sfortunatamente, non è disponibile una banda nel vicino infrarosso per questo set di dati e ho bisogno di usare questa particolare immagine per un'analisi delle serie temporali, quindi sono bloccato con le 3 bande. Se si trattasse di immagini a 4 bande, prenderei in considerazione l'aggiunta degli indici di vegetazione NDVI ed EVI come dati ausiliari per la classificazione. Ho intenzione di incorporare la trama nella classificazione.

Quali ulteriori indici di banda o informazioni utili da dati ampiamente disponibili (ad es. NED, morfologia) posso incorporare nella classificazione per aumentare la precisione? Sono flessibile in quale approccio di classificazione prendo.


Ho fatto questo tipo di cose per un progetto universitario alcuni anni fa usando la fotografia aerea di 25 cm. È una cosa difficile da realizzare. Ho eseguito una serie di analisi delle texture sulle immagini e ho aggiunto le bande alle immagini RGB per avere maggiori informazioni durante il processo di classificazione. Sebbene non sia un sostituto della banda NIR, ha fornito alcune informazioni aggiuntive che hanno aumentato l'accuratezza della classificazione.


Determinazione del bilancio dell'uso del suolo mediante immagini satellitari e sistema di informazione geografica: caso di studio nella provincia di South Sulawesi, Indonesia

Questo studio è stato condotto per produrre una mappa dell'equilibrio uso del suolo/copertura del suolo (LULC) basata su GIS per un certo periodo come riferimento per i responsabili politici nella pianificazione del loro futuro sviluppo regionale. Questo studio misura anche l'accuratezza della classificazione supervisionata in base al telerilevamento e all'integrazione del sistema informativo geografico (GIS) con le condizioni del campo. Nel giugno 2005 le immagini satellitari 7 ETM+ sono state utilizzate come mappe delle risorse per valutare i cambiamenti nell'uso del suolo (LUC). Sebbene a marzo 2019, le mappe di responsabilità utilizzassero immagini satellitari 8 OLI/TIRS. L'analisi dei metodi consiste nell'elaborazione preliminare dell'immagine, nell'interpretazione dell'immagine, nel punto casuale, nel controllo sul campo e nella valutazione dell'accuratezza. I risultati dell'elaborazione delle immagini sono stati sovrapposti a una mappa topografica indonesiana per disegnare una mappa di equilibrio LULC. I risultati indicano che a giugno 2005 e marzo 2019, ogni LULC aveva un valore di accuratezza della valutazione dell'82% e dell'86%, con un valore di accuratezza della valutazione previsto rispettivamente del 18,05% e del 20,50%. Questi risultati vengono controllati per determinare le prestazioni di idoneità degli approcci di imaging basati sul campo in base ai criteri del coefficiente di Cohen Kappa di 0,45 e 0,48 per giugno 2005 e marzo 2019. Sulla base di questi risultati, la precisione e l'idoneità dell'elaborazione delle immagini sono state eccellenti poiché sono più dell'80% e soddisfano il criterio di prestazione di Cohen Kappa. Inoltre, i dati geospaziali sulla mappa del bilancio LULC sono essenziali come guida per pianificatori e decisori per pianificare il loro sviluppo regionale.


Le foreste, essendo il più grande pozzo di carbonio terrestre e il principale ospite della biodiversità terrestre, occupano una posizione significativa nelle funzioni e nei servizi dell'ecosistema terrestre. Una gestione efficace e un uso sostenibile delle foreste e delle risorse forestali richiedono una comprensione accurata ed efficiente degli attributi della foresta nei domini della struttura, della biologia, dell'ecologia e della fenologia a varie scale spaziali e temporali. Gli attributi dell'ecosistema forestale che sono importanti per comprendere un fenomeno o sono associati a una specifica domanda di ricerca sono considerati informazioni tematiche (ad esempio, tratti funzionali o strutturali della foresta), che sono generalmente collegati a una specifica area geografica e in un arco di tempo. Una raccolta dati robusta ed efficiente, nonché un'interpretazione dei dati intelligente e affidabile sono gli elementi chiave a supporto dell'estrazione di informazioni tematiche. Nuove applicazioni di tali informazioni innescano una nuova comprensione delle funzionalità forestali e supportano la gestione e le decisioni politiche.

Questo numero speciale richiede documenti originali che dimostrino nuovi progressi nell'estrazione di informazioni tematiche in vari tipi di foresta (boreale, temperata e tropicale) e nuovi progressi nelle applicazioni di tali informazioni nella gestione delle risorse forestali, nella protezione del clima e nella conservazione della biodiversità, ecc.

Gli argomenti di questo numero speciale includono ma non sono limitati a quanto segue:

  • Nuovi sensori, piattaforme e loro integrazione per estrazioni di informazioni tematiche forestali
  • Nuovi algoritmi, metodologie e procedure di interpretazione dei dati e di estrazione delle informazioni
  • Analisi delle informazioni multiscala e multitemporali
  • Applicazioni delle informazioni tematiche in selvicoltura, ecologia forestale, protezione del clima e della biodiversità, ecc.

Dott. Xinlian Liang
Prof. Hans Verbeeck
Dott. Markus Hollaus
Dott.ssa Ninni Saarinen
Dott. Yunsheng Wang
Prof. Juha Hyyppä
Editor ospiti

Informazioni sull'invio del manoscritto

I manoscritti devono essere inviati online all'indirizzo www.mdpi.com registrandosi e accedendo a questo sito web. Una volta registrato, clicca qui per accedere al modulo di invio. I manoscritti possono essere inviati fino alla scadenza. Tutti i documenti saranno sottoposti a peer review. Gli articoli accettati saranno pubblicati continuamente sulla rivista (non appena accettati) e saranno elencati insieme sul sito web del numero speciale. Sono invitati articoli di ricerca, articoli di revisione e brevi comunicazioni. Per gli articoli pianificati, un titolo e un breve abstract (circa 100 parole) possono essere inviati alla Redazione per l'annuncio su questo sito.

I manoscritti inviati non dovrebbero essere stati pubblicati in precedenza, né essere in considerazione per la pubblicazione altrove (ad eccezione degli atti di conferenze). Tutti i manoscritti sono accuratamente valutati attraverso un processo di revisione tra pari in cieco. Una guida per gli autori e altre informazioni utili per l'invio dei manoscritti sono disponibili nella pagina Istruzioni per gli autori. Telerilevamento è una rivista semestrale internazionale peer-reviewed ad accesso aperto pubblicata da MDPI.

Si prega di visitare la pagina Istruzioni per gli autori prima di inviare un manoscritto. L'Articolo Processing Charge (APC) per la pubblicazione in questa rivista ad accesso aperto è di 2400 CHF (franchi svizzeri). I documenti inviati devono essere ben formattati e utilizzare un buon inglese. Gli autori possono utilizzare il servizio di editing in inglese di MDPI prima della pubblicazione o durante le revisioni dell'autore.


Integrazione della trama e della risposta spettrale con le tecniche di intelligenza artificiale per l'identificazione dell'impronta degli edifici utilizzando immagini satellitari ad alta risoluzione

La rapida crescita e il progresso nell'applicazione del telerilevamento (RS) e dei sistemi di informazione geografica (GIS) in diversi domini applicativi hanno aiutato molti ricercatori ad analizzare un'ampia gamma di informazioni dalle immagini satellitari. Le informazioni sugli insediamenti che includono le impronte degli edifici sono un parametro molto essenziale per diverse applicazioni come la pianificazione urbana, la pianificazione ambientale e la gestione dei disastri. Il modello di rete neurale convenzionale (CNN) VGG-16 (Visual Geometry Group) è un modello popolare utilizzato per rilevare e classificare le immagini di input. In questo studio, è stato proposto un nuovo approccio mediante l'integrazione del modello VGG-16-CNN con informazioni spettrali e tessiturali delle immagini satellitari per l'identificazione delle impronte degli edifici. Il modello è stato addestrato e implementato per identificare le impronte dell'edificio utilizzando l'immagine satellitare ad alta risoluzione Worldview-3 su parte della città di Mumbai nello stato del Maharashtra, in India. Si osserva che l'accuratezza della classificazione nell'approccio proposto è quasi del 94% rispetto all'82% nel caso del solo algoritmo del rivelatore a colpo singolo (SSD). Anche parametri metrici come il punteggio F1 di 0,957, l'intersezione sull'unione (IOU) del 94,86% e il tasso di errore totale dell'8,133% hanno indicato una migliore performance dell'approccio proposto. In particolare, l'approccio è estremamente vantaggioso per le autorità di sviluppo urbano in quanto devono monitorare il gran numero di terreni liberi sparsi nelle aree urbane.

Questa è un'anteprima del contenuto dell'abbonamento, accessibile tramite il tuo istituto.


Un approccio di classificazione della copertura del suolo basato su GIS adatto per la gestione delle acque urbane su larga scala

Nel contesto dello stress climatico, dell'urbanizzazione e della crescita demografica, stanno diventando più comuni strumenti di progettazione e pianificazione che aiutano nella pianificazione infrastrutturale decentralizzata e ambientale. Al fine di supportare la progettazione di sistemi di infrastrutture idriche urbane sempre più complessi, sono fondamentali database spaziali accurati e facilmente ottenibili che descrivono i tipi di copertura del suolo. Di conseguenza, viene proposta una metodologia di categorizzazione delle coperture del suolo che integra questi strumenti. Utilizzando immagini GIS di elevata precisione spaziale facilmente ottenibili da tecniche di sorvolo, vengono generati dati radiometrici e geometrici per creare una classificazione multifunzionale della copertura del suolo urbana, progettata per essere applicabile a vari strumenti di pianificazione urbana con scopi diversi, ad es. gestione delle acque urbane. La metodologia sviluppa 13 singole categorie di copertura del suolo basate sulle capacità complete delle immagini NDVI e nDSM, che vengono quindi adattate per soddisfare i requisiti degli strumenti di pianificazione. Convalida tramite un'applicazione di studio di caso a Innsbruck (Austria), è stata raggiunta una precisione di classificazione complessiva dell'89,3 %. L'accuratezza del processo è stata limitata nel differenziare alcune categorie (ad es. Erba secca e calcestruzzo, alberi ed erba irrigata, ecc.), che potrebbero comportare limitazioni soggette alle applicazioni del modello previste. Nonostante ciò, i risultati della classificazione hanno prodotto un'elevata precisione, dimostrando che la metodologia può essere utilizzata da vari software per migliorare l'analisi della gestione delle acque urbane.

Questa è un'anteprima del contenuto dell'abbonamento, accessibile tramite il tuo istituto.


Descrittori delle caratteristiche della forma spaziale nella classificazione di oggetti ingegnerizzati utilizzando dati di telerilevamento ad alta risoluzione spaziale

Le caratteristiche spaziali e spettrali sono due importanti attributi che formano il database basato sulla conoscenza, utile nella classificazione degli oggetti ingegnerizzati, utilizzando i dati del telerilevamento. Le caratteristiche spettrali da sole possono essere insufficienti per identificare edifici e strade nelle aree urbane a causa dell'omogeneità spettrale e della somiglianza da esse esibite. Ciò ha portato i ricercatori a esplorare le caratteristiche spaziali descritte in termini di descrittori di forma per migliorare l'accuratezza della classificazione degli oggetti ingegnerizzati. Questo documento discute i parametri delle caratteristiche della forma spaziale e il metodo per implementare queste funzionalità per migliorare l'estrazione di oggetti ingegnerizzati, utilizzando la macchina vettoriale di supporto (SVM). I risultati classificati SVM ottenuti utilizzando le caratteristiche della forma spaziale vengono confrontati con le caratteristiche statistiche di co-occorrenza del livello di grigio in cui il primo ha mostrato una migliore precisione di classificazione per edifici e strade. L'accuratezza della classificazione viene anche calcolata utilizzando le caratteristiche spettrali di edifici e strade mediante classificatori come il mappatore dell'angolo spettrale e la divergenza delle informazioni spettrali. L'analisi mostra che le caratteristiche della forma spaziale migliorano i risultati della classificazione di edifici e strade nelle aree urbane.

Questa è un'anteprima del contenuto dell'abbonamento, accessibile tramite il tuo istituto.


Classificazione dell'immagine orientata agli oggetti stratificata basata sulla divisione della scena dell'immagine telerilevata

Il tradizionale metodo di segmentazione dell'immagine di telerilevamento utilizza lo stesso set di parametri per l'intera immagine. Tuttavia, a causa della natura dipendente dalla scala degli oggetti, i parametri di segmentazione ottimali per un'immagine complessiva potrebbero non essere adatti a tutti gli oggetti. Secondo l'idea di dipendenza spaziale, lo stesso tipo di oggetti, che hanno una scala spaziale simile, si riuniscono spesso nella stessa scena e formano una scena. Sulla base di questo scenario, questo documento propone un metodo di analisi delle immagini orientato agli oggetti stratificato basato sulla divisione della scena dell'immagine di telerilevamento. Questo metodo utilizza innanzitutto la semantica centrale che può riflettere la complessità visiva di un'immagine per classificare l'immagine di telerilevamento in diverse scene, quindi all'interno di ciascuna scena viene impiegato un algoritmo di ricerca della griglia migliorato per ottimizzare il risultato della segmentazione di ciascuna scena, in modo che la scala può essere adottato al massimo per ogni scena. Poiché la complessità dei dati viene efficacemente ridotta dall'elaborazione stratificata, l'ottimizzazione su scala locale garantisce l'accuratezza della classificazione complessiva dell'intera immagine, che è praticamente significativa per l'applicazione di georilevamento a distanza.

1. Introduzione

GEOBIA è stato il metodo principale per l'elaborazione di immagini di telerilevamento ad alta risoluzione spaziale [1, 2]. Le dimensioni spaziali sono cruciali per i metodi GEOBIA [3] e la scala ha una grande influenza sulla classificazione orientata agli oggetti di un'immagine di telerilevamento. Tuttavia, a causa della complessità del tipo di caratteristica, non esiste una scala ottimale assoluta adatta a tutti gli oggetti [4–6] la scala è un problema che deve essere risolto nella segmentazione dell'immagine [7]. La qualità della segmentazione sarà limitata dai parametri impostati dall'esperienza dell'utente [8] e l'algoritmo di ottimizzazione determina i parametri di segmentazione ottimali dell'immagine complessiva, che è un risultato di compromesso di tutti gli oggetti.

Diversi oggetti o fenomeni geografici hanno scale spaziali e temporali intrinseche [9], ed è sempre più difficile riconoscere modelli complessi in alta risoluzione [10]. Per estrarre oggetti o separarli dall'ambiente circostante, la scala di elaborazione (scala di segmentazione) deve essere impostata in modo simile alle scale spaziali degli oggetti [11]. La selezione della scala basata sull'oggetto è la chiave per l'analisi dell'immagine basata sull'oggetto e la selezione di una scala inappropriata causerà una sovra o sottosegmentazione [12]. Ciò ridurrà l'accuratezza e l'efficienza dell'estrazione di informazioni multiscala da immagini ad alta risoluzione spaziale [13–15]. Sono stati utilizzati molti metodi per selezionare i parametri ottimali per la segmentazione multiscala [16-25], tuttavia, i parametri di segmentazione ottimali per un'immagine complessiva potrebbero non essere adatti a oggetti diversi durante l'elaborazione di immagini eterogenee di grandi dimensioni [26, 27]. Un problema chiave che resta da risolvere è quello di determinare una scala di segmentazione adeguata che permetta di caratterizzare diversi oggetti e fenomeni in un'unica immagine [28, 29]. Tuttavia, le osservazioni indicano che esiste una tendenza: gli stessi tipi di oggetti hanno spesso una scala spaziale simile e spesso si aggregano nella stessa area. Pertanto, è un modo fattibile per dividere l'immagine complessiva in diverse scene e quindi utilizzare un algoritmo di ottimizzazione per segmentare l'immagine della scena in oggetti immagine, il che migliorerà la qualità complessiva della segmentazione. Diversamente dal metodo convenzionale di classificazione delle scene che mira a determinare l'attributo di classe di un'immagine [30–32], la divisione della scena menzionata in questo articolo mira a dividere un'intera immagine in più scene. I metodi utilizzati per classificare le immagini di telerilevamento in scene possono essere approssimativamente separati nelle seguenti tre categorie: tracciamento del confine della mano, con segmentazione della soglia del livello e divisione delle scene basata sulla segmentazione o sulla classificazione.

Il metodo di tracciamento del confine della mano ordinario [33-35] delinea i confini della scena in base alla composizione del colore o alla differenza tra i valori delle caratteristiche, come luminosità e NDVI. Questo metodo può garantire che il risultato soddisfi i requisiti soggettivi dell'utente, ma soffre della soggettività dell'operatore e richiede molto tempo [36].

Il metodo di segmentazione della soglia del livello in evidenza sceglie una caratteristica, come la luminosità o NDVI, per dividere approssimativamente l'immagine in più scene impostando le soglie [37, 38]. Ad esempio, i valori NDVI tra una scena di copertura vegetale e una scena di copertura non vegetale sono diversi, quindi l'immagine può essere suddivisa approssimativamente in più scene utilizzando un valore di soglia definito. In questo metodo, la soglia ha una grande influenza sul risultato e la selezione della soglia viene spesso eseguita utilizzando statistiche campione o campioni casuali. Pertanto, sia la soglia che i campioni utilizzati per le statistiche influenzano i risultati della divisione.

Il metodo di divisione delle scene basato sulla segmentazione combina due idee: una è impostare parametri su larga scala nella segmentazione dell'immagine per ottenere oggetti di grandi dimensioni, la cui dimensione è vicina alle scene [39, 40] e un'altra è unire piccoli oggetti per formare scene di grandi dimensioni [ 41]. Il software eCognition, SPAING e MAGIC forniscono anche operazioni di segmentazione e classificazione delle immagini [41], ma il risultato della segmentazione è facilmente influenzato da oggetti lineari come strade e fiumi, quindi anche se la copertura è la stessa, una scena desiderata sarà separata in due o più scene.

Inoltre, un'immagine può anche essere classificata in scene utilizzando la luminosità della trama o NDVI [42, 43], ma questo metodo è una semplice operazione di classificazione. Ad esempio, dividerà l'immagine in scene vegetali e non vegetali, scene di illuminazione e ombreggiate o scene rock e non rock. Questo metodo potrebbe richiedere campioni di addestramento, quindi fornisce buoni risultati solo da immagini specifiche e manca di universalità, il che ne limita l'applicazione.

In sintesi, in questi metodi descritti si possono riscontrare molti problemi: alcuni metodi sono meno efficienti, adatti solo ad alcuni tipi di immagini, influenzati da fattori soggettivi, oppure il risultato non soddisfa i requisiti. Pertanto, viene proposto un nuovo metodo che incorpora la semantica centrale (entropia, omogeneità e media) per dividere l'immagine del telerilevamento in diverse scene. Questo metodo non è influenzato da fattori soggettivi ed è adatto per la maggior parte dei tipi di immagini perché il valore della tonalità e la sua trama possono essere calcolati in quasi tutti i tipi di immagine. Il risultato mostra che questo metodo può migliorare in modo efficiente l'accuratezza della classificazione se combinato con metodi di ottimizzazione dei parametri di segmentazione, come un algoritmo di ricerca della griglia migliorato.

2. Metodi

2.1. Struttura della scena e dipendenza dalla scala nell'immagine telerilevata

La combinazione dell'effetto scala del telerilevamento con il concetto geografico di struttura della scena può trovare una svolta per risolvere il problema della scala [44]. La struttura della scena è la composizione e la struttura di diverse scale di unità geografiche in una determinata area geografica. Un'entità geografica o il modello spaziale di un fenomeno spesso mostra un certo grado di dipendenza dalla scala, quindi l'uso di intervalli di tempo e intervalli spaziali diversi per osservare gli stessi oggetti può fornire risultati o conclusioni diversi [44]. La struttura della scena diversa ha una complessità visiva diversa e più oggetti in una scena porteranno a una scena più complessa. La scala di interesse in questo studio è la scala di segmentazione. Per ottenere risultati di segmentazione di alta precisione, la scala di segmentazione deve essere simile alle scale spaziali intrinseche delle unità geografiche.

2.2. Il principio della segmentazione stratificata

Una scena è delimitata dalla pianificazione del territorio o raggruppata dall'influenza economica e il tipo e il modello di distribuzione di un tipo di oggetto in una scena sono simili, ma la struttura della scena tra le diverse scene può essere diversa. Pertanto, scene diverse hanno parametri di segmentazione adeguati e individuali. La maggior parte dei metodi di segmentazione e degli algoritmi di ottimizzazione dei parametri mirano a determinare il miglior risultato per un'immagine complessiva, ma questo è un compromesso di oggetti diversi e non è adatto a diversi tipi di oggetti. In questo studio, viene proposta un'analisi dell'immagine orientata agli oggetti stratificata basata sulla divisione della scena dell'immagine di telerilevamento. Questo metodo può scomporre l'intera immagine complessa in diverse scene semplici della struttura spaziale (Figura 1). Gli oggetti con colori simili avranno un valore di tonalità simile, quindi alcune funzioni come il valore di tonalità possono essere utilizzate per dividere l'immagine in scene. Inoltre, la complessità visiva e la struttura delle diverse scene possono anche differire, quindi la trama della tonalità può essere utilizzata per rifletterla. Mentre la media può riflettere la tonalità principale (oggetto principale) di una scena, l'entropia e l'omogeneità possono riflettere la struttura della scena. In base all'entropia e all'omogeneità, l'immagine può essere suddivisa in scene di tipo a copertura singola e scene di tipo a copertura complessa. E in base al valore medio, la scena del tipo di copertura singola può essere suddivisa in più scene con caratteristiche dominanti. Utilizzando metodi di ottimizzazione dei parametri per segmentare singolarmente scene diverse, la scala segmentata finale di ogni scena si avvicinerà il più possibile alla scala spaziale intrinseca delle unità geografiche.

2.3. Ottimizzazione dei parametri di segmentazione basata su un algoritmo di ricerca della griglia migliorato

È stato utilizzato un algoritmo di ricerca della griglia migliorato per ottimizzare i parametri di segmentazione. L'algoritmo di ricerca della griglia (GSA) utilizza la griglia, che è divisa in due parametri per l'ottimizzazione all'interno di un determinato intervallo di spazio, per trovare un set di parametri ottimizzati attraversando tutti gli incroci nella griglia. In questo processo vengono attraversate tutte le combinazioni di parametri. Dato un intervallo di selezione dei parametri sufficientemente ampio e una dimensione del passo sufficientemente breve, il metodo può trovare la soluzione ottimale globale e ottenere contemporaneamente la combinazione ottimale di parametri. Tuttavia, questo richiede molto tempo. Per migliorare l'efficienza di GSA per l'ottimizzazione dei parametri, viene proposto un GSA migliorato (IGSA). Innanzitutto, ottiene una soluzione ottimale approssimativa utilizzando una scala e un passo di grandi dimensioni. Quindi, uno dei parametri viene fissato e viene utilizzata una piccola dimensione del passo per cercare un altro valore di parametro in un intervallo di ricerca ristretto vicino al parametro fisso. Di solito, questo metodo migliorato si concentra su una combinazione ottimale approssimativa e si espande con le direzioni di incrocio [45]. Pertanto, la prima selezione della dimensione del passo è particolarmente importante per la ricerca della griglia con direzioni di attraversamento in espansione.

3. Esperimenti e analisi

3.1. Dati sperimentali

Per testare la robustezza del metodo, sono state selezionate due aree di studio. La prima è un'immagine QuickBird pansharpened (Immagine A) della città di Hualien, Taiwan, Cina (Figura 2). La dimensione è di 12000 × 12000 pixel, con una risoluzione di 0,7 m per pixel. I principali tipi di copertura del suolo in questa immagine sono edifici, piante, terra nuda, strade e acqua. La seconda è un'immagine multispettrale QuickBird (Immagine B) dell'area di Alma Cray (miniera di rame), Uzbekistan (Figura 2), e ha una dimensione di 3400 × 3400 pixel e la risoluzione è di 2,4 m per pixel. I tipi di copertura sono edifici, piante, terra nuda, miniere e acqua.

3.2. Divisione della scena: il primo passo della segmentazione stratificata

Come mostrano le fasi del processo nella Figura 1, dopo la preelaborazione, le bande del vicino infrarosso, rosso e verde sono state selezionate per la sintesi del colore RGB in entrambi gli studi. Quindi, l'immagine è stata trasformata dallo spazio colore RGB allo spazio colore HSV. I valori del livello di tonalità possono rappresentare i colori di copertura e anche i valori di tonalità di colori simili sono approssimazioni numeriche. Le finestre di calcolo dovrebbero essere più piccole delle dimensioni dell'oggetto ma abbastanza grandi da distinguere le caratteristiche dell'oggetto, e in base a ciò, sono stati ottenuti otto livelli di trama, che rappresentano le caratteristiche del livello di tonalità. I valori di tonalità riflettono le differenze di colore della scena. Poiché l'obiettivo è la divisione della scena, le trame per i diversi valori della scena sono rappresentate con diverse scale di grigi (valori). La maggior parte delle misure di tessitura all'interno di un dato gruppo sono fortemente correlate. Omogeneità, dissomiglianza, varianza e contrasto sono fortemente correlati e l'entropia è fortemente correlata con il secondo momento [46]. Per la divisione delle scene, le differenze di scena devono essere ingrandite. Quindi, nei livelli di trama, le differenze di valori nelle diverse scene devono essere distribuite in intervalli diversi. Pertanto, sono stati scelti entropia, strati medi omogenei e strati HSV per cooperare con l'immagine originale per produrre un'immagine integrata per la divisione della scena. I colori principali delle diverse scene erano diversi e i confini in quelle immagini sono più pronunciati rispetto all'immagine originale.

La segmentazione multiscala eCognition ha dimostrato di essere il metodo superiore attualmente [21], quindi questo metodo è stato utilizzato per la divisione della scena e la successiva segmentazione dell'immagine della scena. Ci sono tre parametri in questo metodo: scala, forma e compattezza. I parametri dell'esperimento dell'immagine A erano scala: 1000, forma: 0,1 e compattezza: 0,5 e i parametri impostati per l'immagine B erano scala: 1500, forma: 0,1 e compattezza: 0,5. Le bande scelte per la divisione della scena dell'immagine A erano vicino all'infrarosso, strato di tonalità, strato medio, strato di omogeneità e strato di entropia con una ponderazione di 1 : 1 : 1 : 1 : 1. Le bande scelte per la divisione della scena dell'immagine B erano blu , verde, rosso, vicino infrarosso, strato di tonalità, strato medio, strato di omogeneità e strato di entropia con una ponderazione di 1 : 1 : 1 : 1 : 2 : 2 : 2 : 2, che ha pesato gli strati di trama più dell'altro parametri. La Figura 3 mostra i risultati della divisione della scena dopo aver segmentato l'immagine utilizzando i parametri descritti e aver unito le scene di frantumazione. L'immagine complessiva A è stata suddivisa in sei scene e, in base ai loro diversi caratteri dominanti, sono state denominate come segue: edificio basso coperto, edificio alto coperto, piante basse coperte, piante alte coperte e scena oceanica (Figura 3). Le nuvole sono state rimosse dall'immagine quindi, l'immagine complessiva sotto non include una scena di nuvole. L'immagine complessiva B è stata suddivisa in scene di città, minerali e due piante basse coperte (Figura 4).

3.3. Segmentazione e classificazione delle immagini

Il risultato della segmentazione ha una grande influenza sulla successiva classificazione, quindi l'accuratezza della classificazione, in una certa misura, può riflettere i meriti della segmentazione [47]. Pertanto, il risultato della classificazione può essere utilizzato per valutare il risultato della segmentazione in questo studio. Questo articolo imposta esperimenti comparativi per verificare l'efficacia del metodo di analisi delle immagini orientato agli oggetti basato sulla divisione della scena. Tranne la divisione della scena, altri processi di questi due insiemi di esperimenti sono gli stessi, sia l'immagine complessiva che le immagini della scena utilizzano la stessa classificazione e campioni di prova.

Le tabelle 1-4 mostrano il numero di campioni di classificazione e di prova. Un numero maggiore di caratteristiche utilizzate nella classificazione richiede un tempo di calcolo più lungo [48], quindi come caratteristiche di classificazione sono stati utilizzati solo luminosità, NDVI, NDWI e indice di forma. GSA è stato utilizzato per ottenere risultati di segmentazione ottimali per diverse scene.


Il mais è un'importante coltura alimentare nel mondo, ampiamente distribuita in molti paesi grazie alla sua eccellente adattabilità ambientale. Inoltre, il mais è un'importante fonte di alimentazione per la produzione animale ed è una materia prima indispensabile per molte industrie diverse. Con l'aumento della popolazione umana e la diminuzione della terra coltivabile, c'è una maggiore attenzione all'aumento della resa di mais.

L'analisi della rete neurale convoluzionale (CNN) può essere utilizzata per la previsione non distruttiva della resa ed è adatta per la classificazione e l'estrazione di caratteristiche. L'obiettivo generale di questo esperimento era utilizzare immagini iperspettrali per addestrare un modello di classificazione della CNN per stimare la resa del grano di mais. Le immagini iperspettrali ad alta risoluzione sono state catturate in cinque fasi di crescita del mais: V5 (cinque foglie con colletto fogliare visibile), V8 (otto foglie con colletto foglia visibile), V10 (dieci foglie con colletto foglia visibile), V12 (12 foglie con colletto foglia visibile ) e R2 (stadio blister). Le immagini iperspettrali sono state denoizzate utilizzando il metodo di analisi wavelet, quindi sono state utilizzate per addestrare e convalidare il modello CNN. Le informazioni spettrali che riflettono le caratteristiche interne e le informazioni spaziali fornite dall'immagine a colori (bande rosse, verdi e blu estratte dall'immagine iperspettrale) che riflettono le caratteristiche esterne della crescita del mais vengono estratte per la modellazione e la verifica. I risultati mostrano che il modello CNN integrato basato su immagini spettrali e a colori ha una precisione di classificazione del 75,50%. Al contrario, l'accuratezza di un modello CNN unidimensionale basato solo su informazioni spettrali o di un modello CNN bidimensionale basato solo su informazioni sull'immagine a colori era rispettivamente del 60,39% e del 32,17%. Il modello CNN integrato (informazioni spettrali più informazioni sull'immagine a colori) è migliore dei risultati dei singoli modelli CNN unidimensionali o bidimensionali. Inoltre. Il coefficiente Kappa del modello CNN integrato è 0,69, che indica un'elevata coerenza di classificazione. L'uso completo delle informazioni spettrali e delle informazioni sull'immagine a colori, che rappresentano le informazioni sulla chioma interna ed esterna del mais, può fornire una previsione della resa del mais più accurata rispetto ai modelli CNN unidimensionali o bidimensionali.


Classificazione di foto aeree ad altissima risoluzione utilizzando reti neurali convoluzionali spettrale-spaziale

1 School of Systems, Management and Leadership, Facoltà di ingegneria e tecnologia dell'informazione, University of Technology Sydney, Building 11, Level 06, 81 Broadway, P.O. Box 123, Ultimo, NSW 2007, Australia

Astratto

La classificazione delle fotografie aeree basate esclusivamente sul contenuto spettrale è un argomento impegnativo nel telerilevamento. È stata sviluppata una rete neurale convoluzionale (CNN) per classificare le fotografie aeree in sette classi di copertura del suolo come edifici, praterie, fitta vegetazione, corsi d'acqua, terreni aridi, strade e ombra. Il classificatore ha utilizzato i contenuti spettrali e spaziali dei dati per massimizzare l'accuratezza del processo di classificazione. La CNN è stata addestrata da zero con campioni di verità a terra creati manualmente. L'architettura della rete comprendeva un singolo livello di convoluzione di 32 filtri e una dimensione del kernel di 3 × 3, dimensione del pool di 2 × 2, normalizzazione batch, abbandono e uno strato denso con attivazione Softmax. Il design dell'architettura e dei suoi iperparametri sono stati selezionati tramite l'analisi della sensibilità e l'accuratezza della convalida. I risultati hanno mostrato che il modello proposto potrebbe essere efficace per classificare le fotografie aeree. L'accuratezza complessiva e il coefficiente Kappa del modello migliore erano rispettivamente 0,973 e 0,967. Inoltre, l'analisi di sensibilità ha suggerito che l'uso della tecnica di dropout e di normalizzazione batch nella CNN è essenziale per migliorare le prestazioni di generalizzazione del modello. Il modello CNN senza le tecniche di cui sopra ha ottenuto le prestazioni peggiori, con una precisione complessiva e un valore Kappa rispettivamente di 0,932 e 0,922. Questa ricerca mostra che i modelli basati sulla CNN sono robusti per la classificazione della copertura del suolo utilizzando fotografie aeree. Tuttavia, l'architettura e gli iperparametri di questi modelli dovrebbero essere accuratamente selezionati e ottimizzati.

1. Introduzione

Classificare i dati del telerilevamento (soprattutto ortofoto di tre bande - rosso, verde, blu (RGB)) con i metodi tradizionali è una sfida anche se alcuni metodi in letteratura hanno prodotto ottimi risultati [1, 2]. Il motivo principale è che i set di dati di telerilevamento hanno un'elevata variabilità intra e interclasse e la quantità di dati etichettati è molto più piccola rispetto alla dimensione totale del set di dati [3]. D'altra parte, i recenti progressi nei metodi di apprendimento profondo come le reti neurali convoluzionali (CNN) hanno mostrato risultati promettenti nella classificazione delle immagini di telerilevamento, in particolare nella classificazione delle immagini iperspettrali [4-6]. I vantaggi dei metodi di deep learning includono l'apprendimento di funzionalità di alto livello dai dati che sono spesso utili rispetto ai pixel grezzi per classificare l'immagine in alcune etichette predefinite. Altri vantaggi di questi metodi sono l'apprendimento spaziale di informazioni contestuali dai dati tramite il raggruppamento di caratteristiche da un vicinato spaziale locale [3].

Esistono diversi metodi e algoritmi che sono stati adottati da molti ricercatori per classificare in modo efficiente una foto aerea ad altissima risoluzione e produrre mappe accurate della copertura del suolo. Metodi come l'analisi delle immagini basata sugli oggetti (o OBIA) sono stati studiati principalmente per il loro vantaggio nell'elaborazione di immagini ad altissima risoluzione tramite caratteristiche spettrali e spaziali. In un recente articolo, Hsieh et al. [7] ha applicato la classificazione delle foto aeree combinando OBIA con l'albero decisionale utilizzando struttura, forma e caratteristica spettrale. I loro risultati hanno raggiunto una precisione del 78,20% e un coefficiente Kappa di 0,7597. Vogel et al. [8] ha combinato OBIA con la classificazione casuale delle foreste con informazioni su tessitura, pendenza, forma, vicinato e spettrale per produrre mappe di classificazione per le aree agricole. Hanno testato il loro algoritmo su due set di dati e i risultati hanno mostrato che la metodologia utilizzata è efficace con un'accuratezza del 90% e del 96% rispettivamente per le due aree di studio. D'altra parte, un nuovo modello è stato presentato da Meng et al. [9], dove hanno applicato OBIA per migliorare la classificazione della vegetazione basata su foto aeree e sistemi di posizionamento globale. I risultati hanno mostrato un miglioramento significativo nell'accuratezza della classificazione che è aumentata dall'83,98% al 96,12% nell'accuratezza complessiva e da 0,7806 a 0,947 nel valore Kappa. Inoltre, Juel et al. [10] ha mostrato che la foresta casuale con l'uso di un modello digitale di elevazione potrebbe raggiungere prestazioni relativamente elevate per la mappatura della vegetazione. In a most recent paper, Wu et al. [2] developed a model based on a comparison between pixel-based decision tree and object-based SVM to classify aerial photos. The object-based support vector machine (SVM) had higher accuracy than that of the pixel-based decision tree. Albert et al. [11] developed classifiers based on conditional random fields and pixel-based analysis to classify aerial photos. Their results showed that such techniques are beneficial for land cover classes covering large, homogeneous areas.

2. Related Works

The success of CNN in the fields like computer vision, language modeling, and speech recognition has motivated the remote sensing scientists to apply it in image classification. There are several works that have been done on CNN for remote sensing image classification [12–15]. This section briefly explains some of these works highlighting their findings and their limitations.

Sun et al. [16] proposed an automated model for feature extraction and classification with classification refinement by combining random forest and CNN. Their combined model could perform well (86.9%) and obtained higher accuracy than the single models. Akar [1] developed a model based on rotation forest and OBIA to classify aerial photos. Results were compared to gentle AdaBoost, and their experiments suggested that their method performed better than the other method with 92.52% and 91.29% accuracies, respectively. Bergado et al. [17] developed deep learning algorithms based on CNN for aerial photo classification in high-resolution urban areas. They used data from optical bands, digital surface models, and ground truth maps. The results showed that CNN is very effective in learning discriminative contextual features leading to accurate classified maps and outperforming traditional classification methods based on the extraction of textural features. Scott et al. [13] applied CNN to produce land cover maps from high-resolution images. Other researchers such as Cheng et al. [12] used CNN as a classification algorithm for scene understanding from aerial imagery. Furthermore, Sherrah [14] and Yao et al. [15] used CNN for semantic classification of aerial images.

This research investigates the development of a CNN model with regularization techniques such as dropout and batch normalization for classifying aerial orthophotos into general land cover classes (e.g., road, building, waterbody, grassland, barren land, shadow, and dense vegetation). The main objective of the research is to run several experiments exploring the impacts of CNN architectures and hyperparameters on the accuracy of land cover classification using aerial photos. The aim is to understand the behaviours of the CNN model concerning its architecture design and hyperparameters to produce models with high generalization capacity.

3. Methodology

This section presents the dataset, preprocessing, and the methodology of the proposed CNN model including the network architecture and training procedure.

3.1. Dataset and Preprocessing
3.1.1. Set di dati

To implement the current research, a pilot area was identified based on the diversity of the land cover of the area. The study area is located in Selangor, Malaysia (Figure 1).


Training and Testing:

The computational intensive part of ML is the optimization of the parameters of the classifier. Neural networks commonly have millions of parameters and can only be optimized using special hardware, software libraries, and starting values for the parameters.

Hardware options for deep learning include:

· Specially designed, energy efficient ASICs

· Highly parallelized GPUs and

· Large memory supported CPUs.

We used high-end consumer hardware to train algorithms for image classification and object detection our computational server is the NVIDIA DevBox with four Maxwell GeForce Titan X GPUs. Advantages for different hardware choices depend on the application, available budget, and the desired training time.

There are several software frameworks for performing deep learning most support parallelization on NVIDIA GPUs. Initially, we chose to work with the deep learning framework Caffe because of the Python support and the access to pre-trained networks. For programmers comfortable with Python or C++, Tensorflow is a well-documented framework with a growing developer base. We generally design new network architectures in Tensorflow, but use Caffe to fine-tune pre-trained networks. NVIDIA Digits is a polished frontend to labeled data management and Caffe-based model training.