Methode zur Erkennung von Fremdkörpern im Bergbaugürtel basierend auf YOLOv4
HeimHeim > Blog > Methode zur Erkennung von Fremdkörpern im Bergbaugürtel basierend auf YOLOv4

Methode zur Erkennung von Fremdkörpern im Bergbaugürtel basierend auf YOLOv4

Apr 13, 2023

Wissenschaftliche Berichte Band 13, Artikelnummer: 8881 (2023) Diesen Artikel zitieren

92 Zugriffe

1 Altmetrisch

Details zu den Metriken

Beim Transport des Bergbaubandes können verschiedene Fremdkörper auftreten, die große Auswirkungen auf den Brecher und das Band haben, den Produktionsfortschritt beeinträchtigen und schwere Sicherheitsunfälle verursachen. Daher ist es wichtig, Fremdkörper im Frühstadium des Eindringens in Förderbandsysteme im Bergbau zu erkennen. Um dieses Problem zu lösen, wird in diesem Artikel die Methode YOLOv4_GECA vorgeschlagen. Zunächst wird das GECA-Aufmerksamkeitsmodul hinzugefügt, um das YOLOv4_GECA-Fremdobjekterkennungsmodell im Mineralgürtel zu etablieren und die Fähigkeit zur Extraktion von Fremdkörpermerkmalen zu verbessern. Zweitens wird basierend auf diesem Modell der Lernratenabfall des Neustart-Cosinus-Glühens verwendet, um die Leistung des Modells bei der Erkennung von Fremdkörperbildern zu verbessern. Schließlich sammelten wir Bildinformationen zum Bandtransport vom Standort der Goldmine Pai Shan Lou in Shenyang und erstellten einen Datensatz zur Erkennung von Gürtelfremdkörpern. Die experimentellen Ergebnisse zeigen, dass die durchschnittliche Erkennungsgenauigkeit der in diesem Artikel vorgeschlagenen YOLOv4_GECA-Methode 90,1 % beträgt, die Rückrufrate 90,7 % beträgt und die durchschnittliche Erkennungszeit 30 ms beträgt, was den Anforderungen an Erkennungsgenauigkeit und Echtzeitleistung entspricht die Transportstelle im Minengürtel.

Die Erkennung von Fremdkörpern spielt in der Erzverarbeitungs- und Produktqualitätskontrollindustrie eine wichtige Rolle. Erzförderbänder können beim Erztransport mit allen Arten von Fremdkörpern beladen sein, wie z. B. Stahlstangen, Eisenkabel, Eisen, Holz, Kunststoffrohre usw., die große Auswirkungen auf Brecher, Kugelmühlen und Bänder haben können. Die traditionellen Methoden zur Fremdkörpererkennung sind die manuelle Erkennungsmethode, die Strahlenmethode und die spektrale Erkennungsmethode. Die manuelle Erkennungsmethode wird stark vom Geisteszustand der Arbeitnehmer beeinflusst und ist ineffizient. Die Strahlenmethode ist stabiler, aber teurer und schädlich für den menschlichen Körper1. Die spektrale Erkennungsmethode weist eine relativ geringe Falscherkennungsrate auf. Der Nachteil besteht darin, dass sie anfällig für Störungen ist, die Wartung der Ausrüstung schwierig ist und es schwierig ist, Fremdkörper im Eisenerz zum Nachweis von Eisen zu erkennen. Aufgrund des Einflusses menschlicher Faktoren und externer Eingriffe sind die oben genannten Techniken zur Erkennung von Fremdkörpern langsam, kostspielig und schwierig zu warten, wobei die Leckraten hoch sind, was ihre allgemeine Verbreitung in Bergbauunternehmen erschwert.

Mit der Entwicklung des Deep Learning wurden Objekterkennungsmethoden, die auf Faltungs-Neuronalen Netzen basieren, weit verbreitet verwendet, und Fremdkörpererkennungsmethoden, die auf Deep Learning basieren, sind zu einem Forschungsschwerpunkt geworden. Die vorhandenen Objekterkennungsmethoden sind hauptsächlich ankerbasiert und ankerfrei. Darunter sind ankerbasiert hauptsächlich zweistufige schnellere R-CNN- und einstufige YOLO-Serien, SSDs usw. Im Jahr 2015 haben Ren2 et al. schlug das Faster R-CNN vor, das die Geschwindigkeit des selektiven Suchalgorithmus zum Extrahieren von Kandidatenbox-Regionen verbesserte und zum ersten durchgängigen Deep-Learning-Zieldetektor nahezu in Echtzeit wurde. YOLO (man schaut nur einmal hin)3 wurde von Redmon et al. vorgeschlagen. im Jahr 2015 als erster einstufiger Detektor im Bereich Deep Learning. Der Hauptverbesserungspunkt von YOLOv24 im Vergleich zur Vorgängerversion ist der vorgeschlagene gemeinsame Trainingsalgorithmus, der eine genauere Lokalisierung ermöglicht und gleichzeitig die Verarbeitungsgeschwindigkeit von YOLO beibehält. YOLOv35 bietet die Einführung von FPN für Multiskalenvorhersagen und verwendet auch ein besseres zugrunde liegendes Netzwerk Darknet-53 und binäre Kreuzentropieverlustfunktion können durch Ändern der Netzwerkstruktur des Modells ein Gleichgewicht zwischen Geschwindigkeit und Genauigkeit erreichen.YOLOv46 ist ein wichtiger Meilenstein in der YOLO-Serie, mit der Einführung von CSPDarknet-53 zum Extrahieren von Funktionen. Durch das Hinzufügen von SPP-Netzwerken zur Verbesserung der Bildextraktion und die Verwendung der Mish-Aktivierungsfunktion machen diese Verbesserungen YOLOv4 auch zu einem äußerst effizienten und leistungsstarken Objektdetektor. Liu7 et al. schlug 2015 den SSD-Algorithmus vor, der Erkennungstechniken mit mehreren Referenzen und mehreren Auflösungen einführt. Das Netzwerk verschiedener Schichten erkennt Objekte mit unterschiedlichen Maßstäben und der Erkennungseffekt für kleine Ziele wird erheblich verbessert. YOLOv58 nutzt die adaptive Ankerrahmenberechnung und einen multisemantischen Fusionserkennungsmechanismus, der die schnelle und effektive Fusion umfangreicher semantischer Informationen auf hoher Ebene mit Standortinformationen auf niedriger Ebene ermöglicht, um eine schnelle Erkennung von Objekten zu erreichen. YOLOv69 enthält Ideen aus dem jüngsten Netzwerkdesign. Trainingsstrategien, Testtechniken, Quantifizierungs- und Optimierungsmethoden zum Aufbau einer Reihe einsetzbarer Netzwerke unterschiedlicher Größe für unterschiedliche Anwendungsfälle. YOLOv710 entwickelt mehrere trainierbare Bag-of-Freebies-Methoden, die eine Zielerkennung in Echtzeit ermöglichen, um die Erkennungsgenauigkeit ohne großen Aufwand erheblich zu verbessern Dies erhöht die Inferenzkosten und reduziert gleichzeitig effektiv etwa 40 % der Parameter und 50 % des Rechenaufwands bestehender Echtzeit-Zieldetektoren.

In den letzten Jahren haben viele Wissenschaftler Deep-Learning-Methoden zur Fremdkörpererkennung verwendet, darunter Fremdkörpererkennung auf Basis von Faltungs-Neuronalen Netzwerken (CNN), Fremdkörpererkennung auf Basis von Wiederkehrenden Neuralen Netzwerken (RNN) und Fremdkörper auf Autoencoder-Basis Erkennung.Diese Methoden haben gute Ergebnisse bei der Erkennung von Fremdkörpern erzielt und weisen im Vergleich zu herkömmlichen Algorithmen für maschinelles Lernen eine bessere Generalisierung und Robustheit auf.Im Jahr 2018 haben Cao11 et al. schlug einen neuartigen Algorithmus auf Basis eines Faltungs-Neuronalen Netzwerks (CNN) zur Erkennung von Fremdkörpertrümmern (FOD) auf der Grundlage optischer Bildsensoren vor. Im Vergleich zu schnellerem R-CNN und SSD liefert ihr vorgeschlagener Algorithmus bessere Ergebnisse bei der Erkennung von Fremdkörpertrümmern auf Flughafengehwegen. Im Jahr 2018 haben Xu12 et al. schlug eine neuartige Methode zur Erkennung von Fremdkörperfragmentmaterial vor, die auf Migrationslernen und gängigen D-CNN-Modellen (Deep Convolutional Neural Network) basiert. Im Jahr 2019 haben Rong13 et al. wendeten zwei verschiedene Faltungs-Neuronale-Netzwerk-Strukturen auf Walnussbilder an, um die Bilder automatisch zu segmentieren und natürliche und künstliche Fremdobjekte unterschiedlicher Größe zu erkennen, wodurch eine manuelle Merkmalsextraktion vermieden und das Klumpenphänomen zwischen Walnüssen und Fremdkörpern in realen Bildern überwunden wurde. Im Jahr 2020 haben He14 et al . hat ein Deep-Learning-basiertes Netzwerk zur Erkennung von Plastiktüten unter Zügen mithilfe des SSD-Netzwerks und der Kombination verschiedener Merkmalsextraktoren aufgebaut. Unter den Ergebnissen wurde die schnellste Erkennungsgeschwindigkeit mit der Kombination von SSD und MobileNet erzielt. Im Jahr 2020 stellten Pang15 et al. schlug eine Echtzeit-Erkennungsmethode vor, die auf dem YOLOv3-Algorithmus basiert, um versteckte Metallwaffen am menschlichen Körper zu erkennen, die auf passive Millimeterwellenbilder (PMMW) angewendet wurde. Es verfügt nicht nur über eine hohe Genauigkeit, sondern auch über eine sehr schnelle Erkennungsgeschwindigkeit im Hinblick auf die Erkennung kleiner Ziele. Im Jahr 2022 haben Chen16 et al. kombinierte den YOLOv4-Algorithmus mit einer optimierten Ankerbox, um eine effiziente Erkennung von Fremdkörpern in Förderbändern zu erreichen und das Auftreten dieses Problems von Längsrissen des Förderbands zu reduzieren. Im Jahr 2022 haben Qiu17 et al. Eine auf Deep Learning basierende Echtzeit-Erkennungstechnik für Bodenradar mit zusätzlichem Aufmerksamkeitsmechanismus und Datenerweiterung zur Verbesserung falscher und verpasster Erkennungsprobleme bei der Erkennung. Im Jahr 2022 haben Jing18 et al. schlug ein Random-Forest-Framework vor, das auf optimalen Pixel-Vision-Funktionen und entworfenen Pixel-Vision-Funktionen (PVF) basiert, um die Komplexität der Bildinformationen des Flughafenpflasters und die Variabilität von Fremdkörperfragmenten zu überwinden, was hinsichtlich der Genauigkeit und des Rückrufs von Fremdkörpern vorteilhafter ist Objektfragmenterkennung. Im Jahr 2022 haben Abramson19 et al. hat einen vollautomatischen Algorithmus zur Fremdkörperverfolgung entwickelt, der mithilfe eines benutzerdefinierten neuronalen Faltungsnetzwerks eine Genauigkeit von 99 % erreicht und damit andere vergleichbare Algorithmen übertrifft.

Die aktuelle Forschung zur Fremdkörpererkennung in Bergbaugürteln konzentriert sich auf herkömmliche Objekterkennungsmethoden mit geringer Erkennungsgenauigkeit, langsamer Erkennungsgeschwindigkeit und leicht auftretenden Situationen von Leckagen und Fehleinschätzungen. Gleichzeitig gibt es kleine Fremdkörper, teilweise verdeckte Fremdkörper und schwer zu identifizierende Fremdkörper aufgrund von Staubeinwirkungen beim Mineralbandtransport. Um die oben genannten Probleme zu lösen, schlägt dieser Artikel eine YOLOv4_GECA-basierte Methode zur Erkennung von Fremdkörpern auf dem Erzübertragungsriemen vor. Unser Beitrag lässt sich wie folgt zusammenfassen.

Als Reaktion auf das Fehlen einer standardisierten und offenen Bilddatenbank im Bereich der Erkennung von Fremdkörpern im Bergbaugürtel haben wir Bildinformationen zum Bandtransport vom Standort der Goldmine Pai Shan Lou in Shenyang gesammelt, einen Datensatz zur Erkennung von Fremdkörpern im Bergbaugürtel erstellt und erweitert Dabei handelt es sich um die wichtigsten Fremdkörperarten, darunter Stahlstangen, Stahlkabel, Eisen-, Holz- und Kunststoffrohre.

Der GECA-Aufmerksamkeitsmechanismus wird vorgeschlagen und das YOLOv4_GECA-Modell für die Merkmale der teilweisen Okklusion von Fremdkörpern und Staubstörungen in Bildern im tatsächlichen Produktionsprozess erstellt.

Die Lernratenabfallmethode im Modelltrainingsprozess wurde verbessert, um den Trainingsprozess mit der Lernratenabfallmethode „Restart Cosine Annealing“ zu optimieren. Basierend auf dem YOLOv4_GECA-Modell wird das YOLOv4_GECA_SGDR-Netzwerk aufgebaut, um die Leistung weiter zu verbessern, ohne die Modelllast zu erhöhen.

Das YOLOv4-Modell wurde basierend auf dem YOLOv3-Modell20 verbessert und umfasst einige hervorragende Erkennungstechniken, die in den letzten Jahren im Bereich Deep Learning entstanden sind, wodurch die Erkennungsleistung des Modells für kleine Objekte verbessert wurde. Das schematische Diagramm der Modellstruktur ist in dargestellt Abb. 1. In Bezug auf die gesamte Netzwerkstruktur kann das YOLOv4-Modell in vier Teile unterteilt werden: Eingabe, Backbone-Netzwerk, Hals und Kopf. Das YOLOv4-Modell verwendet während des Trainings die Mosaik-Datenerweiterung auf der Eingabeseite, indem es einige Vorgänge zum separaten Spiegeln und Skalieren der vier Bilder durchführt und dann die vier Bilder zusammenfügt, um ein neues Bild zu erhalten21. Das YOLOv4-Modell-Backbone umfasst die Verwendung des CSPDarknet53-Netzwerks und der Mish-Aktivierungsfunktion. Das Objekterkennungsnetzwerk verwendet eine räumliche Pyramiden-Pooling-Struktur und eine PANet-Struktur in der Mitte der CSPDarknet53- und Ausgabeschichten. PAN übergibt die tiefen semantischen Informationen an die flache Schicht, um die flachen semantischen Informationen zu ergänzen und so hochauflösende und starke semantische Merkmale zu erhalten, die in Bereichen wie der Erkennung kleiner Objekte und der Instanzsegmentierung eine sehr beeindruckende Leistung aufweisen. Bei der Vorhersage ist der Ankerrahmenmechanismus der Ausgabeschicht derselbe wie bei YOLOv3. Die wichtigsten Verbesserungen sind die Verlustfunktion CIOU_Loss während des Trainings und die nicht maximale Unterdrückung des Vorhersagerahmen-Screenings in DIOU_nms.

Die Struktur des YOLOV4-Modells.

Die CSPDarknet53-Backbone-Netzwerkarchitektur von YOLOv4 verwendet viele CSPX-Module zum Stapeln. Das CSPX-Modul übernimmt die Struktur des stufenübergreifenden Teilnetzwerks22 (CSPNet) mit Tensor-Stitching durch Faltungsschichten und X-Res-Einheitsmodulen, siehe Abb. 2. Bei Objekterkennungsproblemen kann die Verwendung von CSPNet als Backbone-Netzwerk einige Vorteile bringen Leistungsverbesserung des Netzwerkmodells, Verbesserung der Fähigkeit von Faltungs-Neuronalen Netzwerken, Merkmale aus Bildern zu extrahieren, und Verbesserung der Recheneffizienz. Abbildung 3 zeigt die Struktur des Restmoduls (Res-Einheit), das in einen Direktabbildungsteil und einen Restteil unterteilt ist, wobei der Restteil zwei Faltungsoperationen enthält. Der Restteil wird zunächst gefaltet und dann mit dem direkten Mapping-Teil tensorsummiert. Abbildung 4 zeigt das CBL-Faltungsmodul, das aus einer Faltungsschicht, einer Batch-Normalisierungsschicht und einer Leaky-Relu-Aktivierungsschicht besteht.

Strukturdiagramm des CSPX-Moduls.

Strukturdiagramm des Res-Einheitsmoduls.

Strukturdiagramm des CBL-Faltungsmoduls.

Das ECA-Aufmerksamkeitsmechanismusmodul verbessert das SE-Modul23, indem es den Dimensionsreduktionsvorgang eliminiert und zwei vollständig verbundene Schichten derselben Dimension verwendet, die für das Erlernen effektiver Kanalaufmerksamkeit hilfreicher sind. Die Verwendung von zwei vollständig verbundenen Schichten derselben Dimension führt jedoch zu einer übermäßigen Anzahl von Parametern, sodass der Ansatz, k benachbarte Merkmale zu verwenden, um Informationen zur lokalen kanalübergreifenden Interaktion zu erhalten, nur eine Anzahl von k Parametern aufweist und die gleiche Leistung erzielen kann effizienter. Das ECA-Aufmerksamkeitsmechanismusmodul wird wie folgt berechnet:

wobei \(C1D\) die eindimensionale Faltungsoperation darstellt, die an den Eingabemerkmalen durchgeführt wird, und die Sigmoidfunktion darstellt. Das ECA-Modul nutzt nicht die vollständige Verbindungsschicht im SE-Modul. Es lernt die Merkmale direkt nach dem globalen Durchschnittspooling durch eine eindimensionale Faltung, die Gewichte teilen kann, wie in Abb. 5 dargestellt. Die lokalen kanalübergreifenden Interaktionsinformationen werden von jedem Kanal und seinen k benachbarten Merkmalen erhalten, dh die Informationen Die Interaktion zwischen Kanälen wird durch eindimensionale Faltung mit einem Faltungskern der Größe k erreicht. Die nichtlineare Beziehung zwischen den einzelnen Kanälen wird gelernt und es werden auch die Gewichte der verschiedenen Kanäle ermittelt. Die eindimensionale Faltung umfasst den Hyperparameter k, die Größe des Faltungskerns, der die Abdeckung lokaler kanalübergreifender Wechselwirkungen angibt, dh wie viele benachbarte Merkmale in der Nähe dieses Kanalmerkmals gemeinsam an der Aufmerksamkeitsvorhersage beteiligt sind.

Strukturdiagramm des ECA-Moduls.

Während der Optimierung des stochastischen Gradientenabstiegsalgorithmus ist die aktuelle Lernrate für die aktuelle Gewichtung und Verlustfunktion groß, wenn sich der Verlustwert dem globalen Minimum nähert, und an diesem Punkt kann das Modell näher gebracht werden, wenn die Lernrate verringert wird auf das globale Minimum. Cosinus-Annealing reduziert die Lernrate um die Cosinus-Funktion, wie in Abb. 6 dargestellt, wobei die horizontale Koordinate die Anzahl der Trainingsrunden und die vertikale Koordinate die Lernrate ist. Der Abfall der Lernrate von 0,01 auf 0,005 mit zunehmenden Trainingsrunden ist in Abb. 6 dargestellt, wo ihr Kosinuswert mit zunehmenden Runden zunächst langsam abnimmt, dann beschleunigt und wieder langsam abnimmt. Dies wird im Trainingsprozess des YOLOv4-Modells verwendet, bei dem die Lernrate mit fortschreitendem Training allmählich abnimmt, wobei die Verlustfunktion zu Beginn des Trainings zunächst deutlich abnimmt und später in einem kleinen Bereich um das lokale Optimum oder das globale Optimum schwankt.

Absinken der Cosinus-Annealing-Lernrate.

Die Cosine-Annealing-Learning-Rate-Decay-Methode verwendet die Cosinus-Funktion, sodass der Decay-Prozess der Form der Cosinus-Funktion entspricht, deren Formel in Gleichung (1) dargestellt ist. (2).

wobei \({\eta }_{max}\) und \({\eta }_{min}\) die Maximal- bzw. Minimalwerte der Lernrate sind, \({T}_{\text{cur }}\) ist die Anzahl der bisher trainierten Runden und \(T\) ist die Gesamtzahl der Trainingsrunden.

Bei stochastischen Gradientenabstiegsoptimierungsalgorithmen besteht häufig das Problem, dass sie während des Trainingsprozesses in lokale Minima fallen. Der Ansatz des Cosine-Annealing-Lernratenabfalls weist in späteren Phasen des Trainings eine geringere Lernrate auf und fällt möglicherweise in lokale Minima, aus denen man nur schwer herausspringen kann, was zu einem Abstiegsalgorithmus führt, der nicht auf ein globales Minimum optimiert werden kann. Wenn die Lernrate zu einem Zeitpunkt erhöht wird, zu dem die Lernrate später im Training des stochastischen Abstiegsalgorithmus gering ist, ist es möglich, den Optimierungsprozess aus den lokalen Minima herausspringen zu lassen und den Weg zum globalen Minimum zu finden, genannt Neustart der Cosinus-Annealing-Lernratenmethode. Die Formel für die Neustart-Cosinus-Annealing-Lernrate ist in Gleichung (1) angegeben. (3).

In der Formel bezeichnet \(i\) die ersten paar Male der Neustart-Lernrate. \({\eta }_{max}^{i}\) und \({\eta }_{min}^{i}\) bezeichnen den Maximal- bzw. Minimalwert der Lernrate beim i-ten Neustart . \({T}_{i}\) bezeichnet die Gesamtzahl der Runden des Trainingsprozesses beim i-ten Neustart und \({T}_{\text{cur}}\) bezeichnet, wie viele Runden derzeit ausgeführt werden und werden bei jedem Neustart aktualisiert werden. Die Maximal- und Minimalwerte der Neustart-Lernrate werden festgelegt, und jede Neustart-Lernrate durchläuft einen Cosinus-Annealing-Abfall, wobei die Lernrate vom Maximalwert zum Minimalwert abfällt. Abbildung 7 zeigt eine Simulation der Lernrate für das Cosinus-Glühen mit drei Neustarts, wobei die Lernrate in der 50., 100. und 150. Runde des Trainingsprozesses neu gestartet wird und der maximale und minimale Wert der Lernrate für jeden Neustart siebzig beträgt Prozent des vorherigen Wertes.

Starten Sie den Abfall der Cosinus-Annealing-Lernrate erneut.

Um die globalen Kontextinformationen voll auszunutzen und weitreichende Abhängigkeiten für den tatsächlichen Produktionsstandort zu erfassen, an dem kleine Objekte vorhanden sind, einige Fremdkörper zu verdecken sind und Staub entstehen kann, schlägt dieses Papier den GECA-Aufmerksamkeitsmechanismus vor, um die ECA-Aufmerksamkeit zu verbessern Mechanismus. Der globale Durchschnitts-Pooling-Vorgang im ECA-Aufmerksamkeitsmechanismus erfolgt nur durch separate Mittelung jeder Kanal-Feature-Map und verwendet diesen Durchschnitt zur Darstellung der Kanal-Feature-Map-Informationen, ohne die globalen Informationen vollständig zu nutzen. In diesem Artikel wird die globale Durchschnittsbildungs-Pooling-Operation in ECA verbessert, indem nicht globales Durchschnittsbildungs-Pooling verwendet wird, sondern eine eindimensionale Faltungsoperation verwendet wird, um die Abhängigkeiten von den Pixelpositionen jeder Kanal-Feature-Map zu erhalten und so den Ausgabevektor zu erhalten Anschließend wird die Softmax-Funktion verwendet, um den Wahrscheinlichkeitswertvektor zu erhalten, der mit der ursprünglichen Eingabe-Feature-Map multipliziert wird. Diese Verbesserung kann die Volltextinformationen der Feature-Map vollständig nutzen, um die Verbindung zwischen den Pixelpunkten jedes Kanals zu erhalten, und der erhaltene Wahrscheinlichkeitswertvektor macht die Schlüsselinformationen auf der Feature-Map deutlicher, was praktischer ist das anschließende Erlernen des Aufmerksamkeitsmechanismus des Kanals und verbessert die Fähigkeit zur Merkmalsextraktion von teilweise verdeckten Fremdobjekten und Fremdobjekten auch auf staubigen Bildern. Das aufgebaute GECA-Modul ist in Abb. 8 dargestellt.

Strukturdiagramm des GECA-Moduls.

Das CSPX-Modul im CSPDarknet53-Backbone-Netzwerk enthält mehrere Res-Einheiten mit Restblöcken, die das Problem des Verschwindens und der Explosion von Gradienten mildern und es ermöglichen, die Netzwerkstruktur tiefer aufzubauen und Merkmale besser aus Bildern zu extrahieren. In diesem Artikel schlagen wir vor, das Res_GECA-Einheitsmodul zu konstruieren, indem wir das Aufmerksamkeitsmechanismusmodul GECA hinter der Faltungsschicht des Restteils im Restblock der Res-Einheit platzieren, in der Erwartung, die Kanalaufmerksamkeit des Faltungsblocks effektiver zu lernen und zu verbessern die Fähigkeit des Backbone-Netzwerks zur Merkmalsextraktion durch die Einführung sehr kleiner Modellparameter. Das konstruierte Res_GECA-Einheitsmodul ist in Abb. 9 dargestellt.

Strukturdiagramm des Res _GECA-Einheitenmoduls.

Es gibt 23 Restverbindungsmodule in den fünf CSPX-Modulen des YOLOv4-Backbone-Netzwerks, und das ursprüngliche Restverbindungsmodul wird durch das Res_GECA-Restmodul mit dem in diesem Artikel vorgeschlagenen GECA-Aufmerksamkeitsmechanismus ersetzt, siehe Abb. 10. Dadurch wird das YOLOv4_GECA-Modell erstellt , das ein Backbone-Netzwerk mit einem Aufmerksamkeitsmechanismus aufbaut, um die Lernfähigkeit des Modells hinsichtlich der Bedeutung der Feature-Map-Kanalebene auf Kosten einer Erhöhung weniger Modellparameter zu erhöhen, die Feature-Map-Informationen vollständig auszunutzen und die nützlichen Feature-Map-Informationen zu verbessern, und ermöglicht eine verbesserte Erkennung schwer identifizierbarer Fremdkörper.

Das Backbone-Netzwerkstrukturdiagramm des YOLOV4_GECA-Modells.

Derzeit gibt es keine standardisierte und offene Bilddatenbank im Bereich der Erkennung von Fremdkörpern im Bergbaugürtel. Wir haben Bildinformationen zum Bandtransport vom Standort der Goldmine Pai Shan Lou in Shenyang gesammelt, einen Datensatz erstellt und den Datensatz mithilfe der Datenverbesserung erweitert. Die Bildinformationen im Datensatz sind in den Zusatzinformationen ersichtlich. Datenverbesserung ist eine künstliche Erweiterung eines begrenzten Datensatzes, um gleichwertigere Daten zu erzeugen. Zu den häufig verwendeten Methoden zur Verbesserung von Bilddaten gehören Bildfarbdithering, Flip- und Rotationstransformationen, zufälliges Trimmen, Schwenk- und Kontrasttransformationen, Mosaikdatenverbesserung usw. In diesem Artikel werden Bildrotation und Fliptransformationen sowie Bildfarbdithering verwendet, um das Mögliche zu simulieren Posen und Feldbedingungen von Fremdkörpern auf dem Erzförderband auf zufällige Weise.

In diesem Artikel wird LabelImg verwendet, eine Beschriftungssoftware für Zielerkennungsaufgaben, mit der das Ziel mithilfe eines rechteckigen Felds ausgewählt und als XML-Datei gespeichert werden kann. Um einen Beispielsatz von Fremdkörperbildern des Bergbaugürtels zu erstellen, wurde die Datensatz-Kennzeichnungssoftware LabelImg verwendet, um die Fremdkörperziele auf dem Förderband manuell zu kartieren. Um einen einzelnen Fremdkörper zu markieren, klicken Sie auf die rechteckige Box-Schaltfläche in der Software und halten Sie sie gedrückt Halten Sie die linke Maustaste in der oberen linken Ecke des Fremdobjekts gedrückt, schieben Sie die Maus nach unten zur unteren rechten Ecke des Fremdobjekts, lassen Sie das rechteckige Kästchen es vollständig umschließen, füllen Sie dann die Kategorie „Fremdobjekt“ aus und speichern Sie es. Wenn das Diagramm mehrere Fremdobjekte enthält, markieren Sie jedes Fremdobjekt einzeln und geben Sie die Kategorie ein, zu der es gehört. Die Kennzeichnung wird im VOC-Format gespeichert. Insgesamt wurden 1291 Bilder mit Fremdkörpern für den endgültigen Gesamtdatensatz ausgewählt, der in fünf Fremdkörperkategorien unterteilt wurde, darunter Stahl, Kunststoffrohre, Holz, Stahlkabel und Eisen, mit einer ausgewogenen Anzahl von Bildern in jeder Kategorie. Der Trainingssatz und der Testsatz werden im Verhältnis 8:2 übernommen. Die Erweiterung der Mosaikdaten wird während des Trainings verwendet, um den Datensatz anzureichern und das Netzwerk robuster zu machen.

Der Computer, der für das Training des Fremdkörpererkennungsmodells im Bergbaugürtel in diesem Artikel verwendet wird, verwendet einen Intel Core i5-9400F 2,90 GHz-Prozessor, eine NVIDIA GTX 1660-Grafikkarte, 16 GB RAM und eine 500 GB Western Digital-Festplatte. Was die Software angeht, ist das Betriebssystem des Computers Windows 10 64-Bit. Das Modell zur Erkennung von Fremdkörpern im Bergbaugürtel basiert auf dem Deep-Learning-Framework PyTorch, einem weit verbreiteten, einfachen und effizienten Open-Source-Framework. Opencv- und PIL-Bildverarbeitungsbibliotheken werden zum Verarbeiten der Bilder verwendet, und Bibliotheken wie Matplotlib werden zum Zeichnen der Bilder verwendet. Verwenden Sie für die GPU Cudnn 7.6.5 und Cuda 10.2, um die Grafikkarte zu konfigurieren.

Das YOLOv4-Modell verwendet CSPDarknet53 als Backbone-Architektur und wird auf dem ImageNet-Datensatz vorab trainiert, um einige der Faltungsschichten zu initialisieren. Im Experiment lauten die Standard-Hyperparameter wie folgt: Die Gesamtzahl der Trainingsrunden für das Fremdkörpererkennungsmodell im Bergbaugürtel beträgt 1000 Runden; die Größe jedes Batch-Trainingsbildes ist auf 4 eingestellt; Der Anfangswert der Lernrate ist auf 0,01 eingestellt und nimmt während des Trainingsprozesses langsam ab. Die endgültige Lernrate beträgt 0,0005. der Impuls- und Gewichtsabfall sind auf 0,937 bzw. 0,005 eingestellt; Die Größe des Eingabebildes beträgt 3843'84. Dabei wird die eindimensionale Faltungskerngröße im YOLOv4_GECA-Modell für Experimente auf 3, 5 und 7 eingestellt, um die Leistungsauswirkungen dieses Parameters auf die Modellverbesserung zu testen. Bei der Auswahl der Aktivierungsfunktion verwenden wir die Leaky Relu-Aktivierungsfunktion, da die für die Mish-Aktivierung erforderliche Grafikkartenkapazität zu groß ist. Das Fremdkörpererkennungsmodell des Bergbaugürtels verwendet einen stochastischen Gradientenabstiegsoptimierungsalgorithmus, der zunächst eine Planungsstrategie für die Lernrate des Cosinus-Annealing-Abfalls verwendet, um ein geeignetes, verbessertes Modell zu finden, und das Modell dann mithilfe einer Strategie für den Abfall der Cosinus-Annealing-Lernrate beim Neustart trainiert, um zu testen, ob Verschiedene Strategien zum Verfall der Lernrate wirken sich auf das Modell aus. Zum Testen haben wir anhand der Scores Konfidenzvektoren auf Regionsebene erhalten. Die Ergebnisse werden durch Bounding-Box-Voting und Non-Maximum Suppression (NMS) unter Verwendung eines Schwellenwerts von 0,5 IOU nachbearbeitet.

Bei der Erkennung von Fremdkörpern auf Förderbandtransporten an der Erzstelle hat das Auftreten falscher und übersehener Fremdkörpererkennung und die Erkennungsgeschwindigkeit, die nicht dem Standard entspricht, große Auswirkungen auf die Inspektionsarbeit, daher sind die Überprüfungsindikatoren dieser Situationen die wichtigsten Leistungsindikatoren des Erkennungssystems dieser Studie. Daher werden in dieser Studie die mittlere durchschnittliche Präzision (mAP), der Rückruf und die Fps (Bilder pro Sekunde) als Modellbewertungsmetriken verwendet. Dabei ist die mittlere durchschnittliche Präzision (mAP) der Durchschnitt der AP-Werte aller Kategorien. mAP ist die durchschnittliche Genauigkeit, also der Durchschnitt aller Genauigkeiten, die über alle möglichen Recall-Werte erzielt wurden. Der Rückruf wird verwendet, um den Erfassungsbereich des Detektors für alle zu erkennenden Ziele zu bewerten. Fps bezieht sich auf die Anzahl der Bilder, die pro Sekunde verarbeitet werden können. Sie werden wie folgt berechnet.

In der Formel ist TP die Anzahl der positiven Proben, von denen vorhergesagt wird, dass sie positive Klassen sind; FP ist die Anzahl der negativen Proben, von denen vorhergesagt wird, dass sie positive Klassen sind; FN ist die Anzahl der positiven Proben, von denen vorhergesagt wird, dass sie negative Klassen sind; TN ist die Anzahl der negativen Proben, von denen vorhergesagt wird, dass sie negative Klassen darstellen.

In diesem Artikel werden die Erkennungseffekte verschiedener fortschrittlicher Objekterkennungsmodelle auf den Fremdkörpererkennungsdatensatz im Bergbaugürtel verglichen, einschließlich der fünf Netzwerkmodelle YOLOv3, YOLOv3-spp, Faster RCNN, YOLOv4 und YOLOv5. Als Basis wird das Objekterkennungsmodell YOLOv4 ausgewählt Netzwerkmodell für umfassende Standortbedingungen für den Erztransport. Die Leistung der verbesserten Modelle YOLOv4_ECA, YOLOv4_GECA und YOLOv4 wird ebenfalls miteinander verglichen sowie die Auswirkung der eindimensionalen Faltungskerngröße im YOLOv4_GECA-Modell auf die Modellleistung. In diesem Artikel verbessern wir die Lernratenabfallstrategie beim Training des Fremdkörpererkennungsmodells im Bergbaugürtel und ändern die Lernratenabfallstrategie von YOLOv4, um den Lernratenabfall durch Cosinus-Annealing neu zu starten und experimentelle Vergleiche und Analysen durchzuführen.

Um die Leistung unserer vorgeschlagenen Methode zu demonstrieren und zu bewerten, wird die Leistung mit anderen fortschrittlichen Detektoren verglichen. Die fünf Netzwerkmodelle YOLOv3, YOLOv3-spp, Faster RCNN, YOLOv4 und YOLOv5 wurden für 1000 Runden auf dem Fremdkörperdatensatz des Bergbaugürtels trainiert und auf dem Testsatz getestet. Abbildung 11 zeigt die Trends der mAP-Metriken des YOLOv4-Modells und des YOLOv5-Modells während des Trainingsprozesses. Nach 300 Trainingsrunden pendelten sich die Messwerte ein und schwankten um die optimalen Werte herum. Unter anderem ist der Trainingseffekt des YOLOv5-Modells besser als der des YOLOv4-Modells. Abbildung 12 zeigt den Trend der Recall-Metriken während des Trainings des YOLOv4-Modells und des YOLOv5-Modells. Nach 300 Trainingsrunden pendelten sich die Metriken ein und schwankten um die optimalen Werte herum. Unter diesen ist der Trainingseffekt des YOLOv4-Modells besser als der Trainingseffekt des YOLOv5-Modells.

Der [email protected] ändert sich während des YOLOv4- und YOLOv5-Modelltrainings.

Erinnern Sie sich an Indikatoränderungen während des YOLOv4- und YOLOv5-Modelltrainings.

In dieser Studie wurde das Modell anhand eines hausgemachten Fremdkörperdatensatzes aus dem Bergbaugürtel trainiert. Zunächst wurden die fünf Netzwerkmodelle YOLOv3, YOLOv3-spp, Faster RCNN, YOLOv4 und YOLOv5 trainiert, die häufiger für Erkennungsaufgaben verwendet werden auf dem geteilten Trainingssatz-Datensatz für jeweils 1000 Runden und dann auf dem Testsatz-Datensatz getestet. wie in Tabelle 1 gezeigt.

Wie in Tabelle 1 zu sehen ist, weist das YOLOv5-Modell mit einem mAP von 0,907 für die Fremdkörpererkennungsaufgabe im Bergbaugürtel die höchste Erkennungsgenauigkeit auf, während die anderen Modelle einen näheren mAP-Wert von etwa 0,885 aufweisen. Das YOLOv5-Modell hat jedoch einen niedrigeren Recall von 0,867 und das YOLOv4-Modell hat den höchsten Recall von 0,888, was 2,1 % höher ist als das YOLOv5-Modell. Für diese Testaufgabe sind verpasste Erkennungen schwerwiegender als falsch positive Ergebnisse, daher ist der Rückruf wichtiger. Zusammenfassend lässt sich sagen, dass das YOLOv4-Modell in Bezug auf Genauigkeit und Recall mit einem mAP von 0,885 und einem Recall von 0,888 eine bessere Leistung als die Modelle YOLOv3, YOLOv3-spp und YOLOv5 aufweist und seine Fps den tatsächlichen Anforderungen von Produktionsstandorten gerecht werden können Als Basismodell für die Verbesserung wird das YOLOv4-Modell ausgewählt.

Ein Vergleich der Teilvorhersageergebnisse der vier Modelle YOLOv3, YOLOv3-spp, YOLOv4 und YOLOv5 ist in Abb. 13 dargestellt. Von links nach rechts drei Bilder mit Fremdkörpern, darunter Holz, Bewehrungsstahl, Kunststoffrohre und Stahl Kabel, werden in der Reihenfolge von oben nach unten angezeigt und zeigen die Erkennungseffekte der vier Objekterkennungsmodelle auf den Fremdkörperbildern.

Vergleich der Erkennungswirkung der vier Modelle.

Bei der Erkennung von Image1-Bildern haben das YOLOv4-Modell und das YOLOv5-Modell die Kategorien mit höherer Zuverlässigkeit vorhergesagt. Bei der Erkennung von Image2-Bildern identifiziert das YOLOv5-Modell das Erz im Vergleich zu den anderen drei Modellen im Falle einer Fehlklassifizierung fälschlicherweise als Holzfremdkörper. Bei der Erkennung der Image3-Bilder verfehlten alle drei Modelle mit Ausnahme des YOLOv4-Modells die Erkennung, das YOLOv3-Modell übersah einen Holzfremdkörper und einen Stahlkabel-Fremdkörper und das YOLOv3-spp-Modell und das YOLOv5-Modell übersahen einen Stahlkabel-Fremdkörper . Am tatsächlichen Produktionsstandort können sowohl Fehleinschätzungen als auch die fehlende Erkennung von Fremdkörpern zu Problemen beim Verarbeitungsprozess des Erztransfers führen. Eine versäumte Erkennung führt zum Eindringen von Fremdkörpern in die Einfüllöffnung, den Brecher und die Kugelmühle sowie andere Geräte, was zu Geräteschäden führt, und Fehleinschätzungen können die Arbeitsintensität der Arbeiter erhöhen. Aufgrund der umfassenden Wirkung der Modellvorhersage eignet sich das YOLOv4-Modell hinsichtlich der Leistung besser für die Aufgabe der Erkennung von Fremdkörpern im Bergbaugürtel. Daher wird YOLOv4 als Basismodell für dieses Papier zur Modellverbesserung ausgewählt.

Das verbesserte Modell YOLOv4_GECA wird auf dem Fremdkörperdatensatz des Bergbaugürtels trainiert, und die an der eindimensionalen Faltung im Restmodul Res_GECA beteiligten Hyperparameter k werden angepasst und auf 3, 5 bzw. 7 eingestellt und dann jeweils für 1000 Runden trainiert ,Mehrere Modelle im Trainingsprozess [email protected] Siehe Abb. 14 für einen Vergleich des Indikatoränderungstrends. Vier Kurven, YOLOv4, YOLOv4_GECA_3, YOLOv4_GECA_5 und YOLOv4_GECA_7, sind in Abb. 14 dargestellt, wobei YOLOv4_GECA_3 angibt, dass der eindimensionale Faltungskern-Hyperparameter k des GECA-Aufmerksamkeitsmechanismus im YOLOv4_GECA-Modell 3 ist, und so weiter. Aus der Abbildung ist ersichtlich, dass der [email protected] des YOLOv4_GECA-Modells mit drei verschiedenen k-Parametern während des Trainingsprozesses des Modells bei etwa 400 Runden seinen höchsten Punkt erreichte und danach um den optimalen Wert schwankte. Im Vergleich dazu ist der [email protected] des YOLOv4_GECA-Modells während des Trainingsprozesses höher als der des YOLOv4-Modells.

Der [email protected] ändert sich während des YOLOv4_GECA-Modelltrainings.

Das Modell wurde nach dem Training am Testsatz getestet, und die Testergebnisse sind in Tabelle 2 dargestellt. Die Erkennungsleistungsergebnisse des YOLOv4-Modells und des verbesserten Modells YOLOv4_GECA mit unterschiedlichen Hyperparametern k sind in Tabelle 2 dargestellt. Es ist ersichtlich, dass der mAP @0,5 von YOLOv4_GECA verbessert sich im Vergleich zu YOLOv4 erheblich für die Aufgabe der Erkennung von Fremdkörpern im Bergbaugürtel, und der Rückruf von YOLOv4_GECA_3 und YOLOv4_GECA_5 verbessert sich ebenfalls im Vergleich zu YOLOv4, und die Anzahl der Parameter des verbesserten Modells erhöht sich nur sehr wenig. Das YOLOv4_GECA_7-Modell schneidet im [email protected] besser ab, sein Recall nimmt jedoch ab. Das YOLOv4_GECA-Modell verringert den Fps-Index im Vergleich zum YOLOv4-Modell und erkennt 5 Bilder weniger pro Sekunde. Das YOLOv4_GECA_3-Modell funktioniert in Bezug auf alle Indizes am besten und verbessert den [email protected] und den Recall der Fremdkörpererkennungsaufgabe im Bergbaugürtel um 1 % bzw. 0,6 % sowie die zusätzliche Anzahl von Parametern, die sich aus der Hinzufügung von ergibt Der GECA-Aufmerksamkeitsmechanismus ist sehr klein. Den experimentellen Ergebnissen zufolge kann die Kombination des in diesem Artikel vorgeschlagenen GECA-Aufmerksamkeitsmechanismus mit CSPDarknet53, dem Backbone-Netzwerk des YOLOv4-Modells, die Leistung der Fremdkörpererkennung verbessern. Obwohl das YOLOv4_GECA_3-Modell seinen Fps-Index reduziert hat und 30 Fremdkörperbilder pro Sekunde erkennt, kann es dennoch die Anforderungen der Fremdkörpererkennungsaufgabe des Bergbaugürtels aus der Praxis erfüllen und im tatsächlichen Produktionsprozess angewendet werden.

Im Trainingsprozess des verbesserten Fremdkörpererkennungsmodells YOLOv4_GECA_3 für den Fremdkörperdatensatz des Bergbaugürtels wird ein Neustart-Cosinus-Annealing-Lernratenmechanismus verwendet. Das YOLOv4-Modell wird mit dem Cosine-Annealing-Lernratenmechanismus trainiert, und sein Lernratenabfallprozess ist in Abb. 15 dargestellt. Der anfängliche Lernratenwert beträgt 0,01, der zu Beginn der Trainingsphase langsam abfällt und mit dem Training schnell abnimmt schreitet voran und nimmt in der Endphase des Modelltrainings ab, mit einer endgültigen Lernrate von 0,0005.

Der Abklingprozess der Lernrate des YOLOV4-Modells.

Da der Lernratenabfall des Cosinus-Annealings in der späten Phase des Modelltrainings gering ist und in lokale Minima fallen kann, verwendet dieser Artikel einen Neustart-Cosinus-Annealing-Lernratenmechanismus, um die Lernrate zu erhöhen, wenn die Lernrate in der späten Phase klein ist Training des stochastischen Gradientenabstiegsalgorithmus, sodass der Optimierungsprozess aus lokalen Minima herausspringt und den Weg zum globalen Minimum findet. In diesem Artikel wurden die Lernrate eines Neustarts, die Lernrate zweier Neustarts, die Lernrate dreier Neustarts und die Lernrate vier Neustarts getestet, wie in Abb. 16 dargestellt. In Abb. 16 sind die Diagramme von Die Lernrate des Kosinusglühens für eine unterschiedliche Anzahl von Neustarts wird angezeigt, von links nach rechts, von oben nach unten, primärer Neustart, sekundärer Neustart, tertiärer Neustart und vierfacher Neustart, mit einer anfänglichen Lernrate von 0,01 und einer endgültigen Lernrate von 0,0005. Die Neustartpunkte befinden sich an den Punkten, an denen die Trainingsrunden gleichmäßig aufgeteilt sind, beispielsweise bei vier Neustartlernraten, deren Neustartpunkte sich befinden, wenn das Modell jeweils auf die 200., 400., 600. und 800. Runde trainiert wird. Der Startwert jedes Neustarts der Lernrate ist der Maximalwert der vorherigen Lernrate multipliziert mit einem Skalierungsfaktor, der in diesem Artikel als 0,7 verwendet wird.

Legen Sie unterschiedliche Neustart-Cosinus-Annealing-Lernraten fest.

Der Modelltrainingsprozess verwendet eine Neustart-Cosinus-Annealing-Lernraten-Rezessionsmethode, die dazu führt, dass sich die Verlustfunktion aufgrund der Erhöhung der Lernrate während des Lernraten-Neustarts ändert. In diesem Artikel gibt YOLOv4_GECA_3_SGDR_4 an, dass während des Trainings des YOLOv4_GECA_3-Modells vier Neustart-Lernratenoperationen durchgeführt wurden, und so weiter. Der Trainingsprozess des YOLOv4_GECA_3_SGDR_4-Modells ist in Abb. 17 mit einer großen Schwankung der Klassifizierungsverlustfunktion während des Neustarts der Lernrate dargestellt, gefolgt von einer kontinuierlichen Abnahme der Verlustfunktion.

Änderungen des Klassifizierungsverlusts während des Modelltrainings YOLOv4_GECA_3_SGDR_4.

Das YOLOv4_GECA_3-Modell mit der während des Trainingsprozesses eingeführten Neustart-Cosinus-Annealing-Lernratenabfallmethode wurde nach Abschluss des Trainings am Testsatz getestet. Die Testergebnisse sind in Tabelle 3 aufgeführt. Tabelle 3 enthält die Testergebnisse des YOLOv4-Modells mit Parameter für das verbesserte Modell YOLOv4_GECA mit einer anderen Anzahl von Neustart-Lernraten und das YOLOv4_GECA_3_Decay-Netzwerk mit exponentiellem Abfall der Lernraten. Die Ergebnisse zeigen, dass ein Neustart-Cosinus-Annealing-Lernratenabfall-Ansatz dem exponentiellen Abfall-Ansatz im YOLOv4_GECA-Modell überlegen ist. Aus der Tabelle können wir ersehen, dass das Modell YOLOv4_GECA_3_SGDR_1 den höchsten [email protected] und Recall-Index aufweist, wobei die durchschnittliche Präzision von 0,901 0,6 % höher ist als die von YOLOv4_GECA_3 und der Recall von 0,907 1,3 % höher ist als die von YOLOv4_GECA_3. Die dreifache Neustart-Lernrate bringt auch eine große Verbesserung der Modellleistung mit einem mAP@0,5 von 0,898 im Vergleich zu YOLOv4_GECA_3 und einem Recall von 0,899 im Vergleich zu YOLOv4_GECA_3, was einer Verbesserung von 0,5 % entspricht. Zusammenfassend lässt sich sagen, dass die Einführung eines Neustart-Cosinus-Annealing-Lernratenabfallansatzes während des Trainings effektiv ist, keine Belastung für die Modellparameter darstellt und keinen Einfluss auf die Erkennungsgeschwindigkeit des Modells hat.

Das Fremdkörpererkennungsmodell in dieser Studie wird auf dem selbst erstellten Fremdkörperbilddatensatz des Bergbaugürtels trainiert, und der experimentelle Vergleich zeigt, dass das YOLOv4-Modell in Bezug auf Genauigkeit und Rückruf im Vergleich zu YOLOv3, YOLOv3-spp und YOLOv5 eine bessere Leistung erbringt Modelle mit einem mAP von 0,885 und einem Recall von 0,888, sodass das YOLOv4-Modell als Basismodell für die Fremdkörpererkennung ausgewählt wird und die Struktur des YOLOv4-Modells bzw. die Art und Weise der abnehmenden Lernrate während des Trainings verbessert wird. Erstens wird die YOLOv4-Modellstruktur verbessert und das YOLOv4_GECA-Modell im Backbone-Netzwerk CSPDarknet53 erstellt, indem der in diesem Artikel vorgeschlagene GECA-Aufmerksamkeitsmechanismus kombiniert wird. Durch separates Training und Testen des YOLOv4_GECA-Modells mit verschiedenen Hyperparametern k wird die beste Leistung des YOLOv4_GECA_3-Modells erzielt. Als nächstes wird die Lernraten-Abnahmemethode während des Trainings des YOLOv4_GECA_3-Modells verbessert und die Neustart-Cosinus-Annealing-Lernraten-Abnahmemethode vorgeschlagen, um die Leistung des Modells weiter zu verbessern. YOLOv4_GECA_3_SGDR_1 hat die beste Leistung mit einem mAP von 0,901 und einem Recall von 0,907. Abbildung 18 zeigt den Leistungsvergleich der Modelle YOLOv4, YOLOv4_GECA_3 und YOLOv4_GECA_3_SGDR_1. Wir können sehen, dass mAP und Recall des YOLOv4-Modells nach der Kombination des in diesem Artikel vorgeschlagenen GECA-Aufmerksamkeitsmechanismus verbessert werden. Die Modellleistung wird durch die Zerfallsmethode weiter verbessert. Der Modellverbesserungsansatz in dieser Studie verbessert die Fremdkörperleistung des Modells, verringert die Rate von Fehlerkennungen und Fehlerkennungen und kann weiterhin im tatsächlichen Produktionsprozess angewendet werden, obwohl die Erkennungsgeschwindigkeit abnimmt.

Vergleich der Modellleistung.

Für unterschiedliche Fremdkörpererkennungen zeigen die Tabellen 4 und 5 die Ergebnisse der Modelle YOLOv4, YOLOv4_GECA_3 und YOLOv4_GECA_3_SGDR_1 für jeden Typ der Fremdkörpererkennung. Aus Tabelle 4 ist ersichtlich, dass die beiden in diesem Artikel vorgeschlagenen verbesserten Modelle YOLOv4_GECA und YOLOv4_GECA_SGDR_1 die Erkennungsgenauigkeit jeder Kategorie von Fremdkörpern im Vergleich zum YOLOv4-Basismodell verbessern, beispielsweise dem mAP@0,5 des YOLOv4-Modells in Stahlkabeln Die Fremdkörpererkennung beträgt nur 0,638, während YOLOv4_GECA_3 diesen Index auf 0,664 verbessert. Aus Tabelle 5 ist außerdem ersichtlich, dass das verbesserte Modell in diesem Artikel den Recall für jede Kategorie der Fremdkörpererkennung verbessert. YOLOv4 hat einen Recall von 0,957 für die Fremdkörpererkennung in Kunststoffrohren, während YOLOv4_GECA_3 den Index auf 0,975 verbessert. Die Ergebnisse dieser beiden Tabellen zeigen, dass der in diesem Artikel vorgeschlagene GECA-Aufmerksamkeitsmechanismus die Erkennung schwieriger Fremdkörper verbessert hat, die durch kleine Objekte, teilweise Okklusion von Fremdkörpern und Staubstörungen verursacht werden, was die Wirksamkeit des GECA-Aufmerksamkeitsmechanismus beweist.

Ein Vergleich der Vorhersageergebnisse der Modelle YOLOv4, YOLOv4_GECA und YOLOv4_GECA_SGDR für einige Bilder ist in Abb. 19 dargestellt. Drei Bilder mit Fremdkörpern sind von links nach rechts dargestellt, und die Erkennungsergebnisse von drei Objekterkennungsmodellen für Fremdkörperbilder sind dargestellt in der Reihenfolge von oben nach unten angezeigt. Im Image4-Bild ist zu erkennen, dass der Stahlkabel-Fremdkörper teilweise verdeckt ist und das YOLOv4-Modell bei der Vorhersage der Fremdkörperposition im Vergleich zu den beiden anderen verbesserten Modellen abweicht. Die verbesserten Modelle YOLOv4_GECA und YOLOv4_GECA_SGDR in diesem Artikel sind genauer beim Erkennen des Fremdkörpers. Im Image5-Bild, das durch Licht und Okklusion beeinflusst wurde, ergab das YOLOv4-Modell ein falsch positives Ergebnis und sagte einen einzelnen Stahlkabel-Fremdkörper als zwei voraus, und die Vorhersagesicherheit für Kunststoffrohre war geringer als bei den beiden anderen verbesserten Modellen. Im Image6-Bild kam es beim YOLOv4-Modell aufgrund der vergrabenen und relativ kleinen Bewehrung, die durch Staub, Licht und die Verdunkelung vieler Faktoren gestört wurde, zu einer fehlenden Bewehrungsfremdkörpererkennung, was sich auf die spätere Produktionssicherheit auswirken würde. Der Vergleich der Bilderkennungsergebnisse zeigt, dass die beiden in diesem Artikel vorgeschlagenen verbesserten Modelle YOLOv4_GECA und YOLOv4_GECA_SGDR bei der Erkennung kleiner Objekte, teilweise verdeckter Fremdkörper und aufgrund von Staubstörungen schwer zu identifizierender Fremdkörper effektiver sind als das YOLOv4-Basismodell. Zusammenfassend wird das vorgeschlagene verbesserte YOLOv4_GECA-Modell mit GECA-basiertem Aufmerksamkeitsmechanismus und das vorgeschlagene YOLOv4_GECA_SGDR-Modell mit abnehmender Neustart-Cosinus-Annealing-Lernrate mithilfe von Vergleichsexperimenten validiert, um die Erkennungsgenauigkeit und den Erkennungsrückruf bei der Erkennung schwer zu identifizierender Fremdkörper zu verbessern verursacht durch kleine Gegenstände, teilweise verdeckte Fremdkörper und Staubeinwirkung, und kann auf den tatsächlichen Ort des Erztransports angewendet werden.

Vergleich der Erkennungswirkung der drei Modelle.

In diesem Artikel wird YOLOv4 als grundlegendes Fremdobjekterkennungsmodell ausgewählt und der GECA-Aufmerksamkeitsmechanismus zum Aufbau des YOLOv4_GECA-Modells vorgeschlagen, mit dem die globalen Kontextinformationen der Feature-Map vollständig ausgenutzt, die Abhängigkeitsbeziehung zwischen den einzelnen Kanälen ermittelt und die Fähigkeit zur Merkmalsextraktion verbessert werden können des Modells für kleine Zielfremdkörper, teilweise verdeckte Fremdkörper und Staubinterferenzbilder. Es wird auch vorgeschlagen, die ursprüngliche Lernratenabfallmethode von YOLOv4 zu verbessern, indem eine Neustart-Cosinus-Annealing-Lernratenabfallmethode basierend auf dem YOLOv4_GECA-Modell mit dem YOLOv4_GECA_SGDR-Netzwerk erstellt wird. Dieses Netzwerk erhöht die Vielseitigkeit des Schulungs- und Optimierungsprozesses des Fremdkörpererkennungsnetzwerks und verbessert die Leistung des Modells bei der Erkennung von Fremdkörperbildern, ohne die Belastung des Modells zu erhöhen, was sich besser für das Training von Fremdkörpererkennungsmodellen für Bergbaugürtel eignet . Es wurden Experimente mit dem erstellten Datensatz zur Erkennung von Fremdkörpern im Bergbaugürtel durchgeführt, und die Ergebnisse der experimentellen Analyse zeigten, dass die Genauigkeit und der Rückruf der in diesem Artikel vorgeschlagenen YOLOv4_GECA-Methode erheblich verbessert wurden und ein Gleichgewicht zwischen Genauigkeit und Geschwindigkeit erreicht wurden, wo die Genauigkeit erreicht wurde 0,901, der Rückruf 0,907 und die Fps 30,31 ms, wodurch der Zweck erreicht wird, die Erkennung von Fremdkörpern in Mineralgürteln zu verbessern.

Die während der aktuellen Studie verwendeten und/oder analysierten Datensätze sind auf begründete Anfrage beim entsprechenden Autor erhältlich.

Janssens, E., De Beenhouwer, J. & Van Dael, M. Neuronales Netzwerk Hilbert-transformationsbasierte gefilterte Rückprojektion für schnelle Inline-Röntgeninspektion. Mess. Wissenschaft. Technol. 29(3), 034012 (2018).

Artikel ADS Google Scholar

Ren S, He K, Girshick R, et al. Schnelleres r-CNN: Auf dem Weg zur Echtzeit-Objekterkennung mit Regionsvorschlagsnetzwerken. Adv. Neuronale Inf. Verfahren. Syst. 28 (2015).

Redmon, J., Divvala, S., Girshick, R., et al. Sie schauen nur einmal hin: Einheitliche Objekterkennung in Echtzeit. im Jahr 2016 IEEE-Konferenz zu Computer Vision und Mustererkennung, Las Vegas, USA, 2016: 779–788. doi: https://doi.org/10.1109/CVPR.2016. 91.

Redmon, J. und Farhadi, A. YOLO9000: Besser, schneller, stärker. im Jahr 2017 IEEE-Konferenz zu Computer Vision und Mustererkennung, Honolulu, USA, 2017: 6517–6525. doi: https://doi.org/10.1109/CVPR.2017.690.

Redmon, J. und Farhadi, A. YOLOv3: Eine inkrementelle Verbesserung. arXiv-Vorabdruck arXiv:1804.02767, (2018).

Bochkovskiy A, Wang CY, Liao HYM. YOLOv4: Optimale Geschwindigkeit und Genauigkeit der Objekterkennung. arXiv: 2004.10934, (2020).

Liu W, Anguelov D, Erhan D, et al. SSD: Single Shot MultiBox-Detektor. in Proceedings of the 14th European Conference on Computer Vision. Amsterdam: Springer, 2016. 21–37.

Jocher, G., Stoken, A., Borovec, J., et al. Ultralytics/YOLOv5: V3.1 – Fehlerbehebungen und Leistungsverbesserungen[EB/OL]. https://doi.org/10.5281/zenodo.4154370 (2020).

Li, C., Li, L., Jiang, H., et al. YOLOv6: Ein einstufiges Objekterkennungs-Framework für industrielle Anwendungen. arXiv-Vorabdruck arXiv:2209.02976, (2022).

Wang, CY, Bochkovskiy, A., Liao, HYM YOLOv7: Trainable Bag of Freebies setzt neue Maßstäbe für Echtzeit-Objektdetektoren. arXiv-Vorabdruck arXiv:2207.02696, (2022).

Cao, X. et al. Regionsbasiertes CNN zur Erkennung von Fremdkörpern auf Flugplatzbelägen. Sensoren 18(3), 737 (2018).

Artikel ADS PubMed PubMed Central Google Scholar

Xu, H. et al. Erkennung von Fremdkörpertrümmern basierend auf Faltungs-Neuronalen Netzen. J. Image Video Proc. 2018, 21. https://doi.org/10.1186/s13640-018-0261-2 (2018).

Artikel Google Scholar

Rong, D., Xie, L. & Ying, Y. Computer-Vision-Erkennung von Fremdkörpern in Walnüssen mithilfe von Deep Learning. Berechnen. Elektron. Landwirtschaft. 162, 1001–1010 (2019).

Artikel Google Scholar

He, Q. et al. Erkennung von Fremdkörpern am Unterboden von Hochgeschwindigkeitszügen basierend auf Deep Learning. IEEE Access 7, 183838–183846. https://doi.org/10.1109/ACCESS.2019.2960439 (2019).

Artikel Google Scholar

Pang, L. et al. Echtzeiterkennung verdeckter Objekte aus passiven Millimeterwellenbildern basierend auf dem YOLOv3-Algorithmus. Sensoren 20(6), 1678 (2020).

Artikel ADS PubMed PubMed Central Google Scholar

Chen, Y. et al. Anwendung des YOLOv4-Algorithmus zur Fremdkörpererkennung auf einem Förderband in einer Umgebung mit geringer Beleuchtung. Sensoren 22(18), 6851 (2022).

Artikel ADS PubMed PubMed Central Google Scholar

Qiu, Z. et al. Anwendung eines verbesserten YOLOv5-Algorithmus zur Echtzeiterkennung von Fremdkörpern durch Bodenradar. Fernerkundung 14(8), 1895 (2022).

Artikel ADS Google Scholar

Jing, Y. et al. Erkennung von Fremdkörpern für optische Bildsensoren basierend auf zufälligen Wäldern. Sensoren 22(7), 2463 (2022).

Artikel ADS PubMed PubMed Central Google Scholar

Abramson, HG et al. Automatische Erkennung von Fremdkörperobjekten in der Neurochirurgie mithilfe eines Deep-Learning-Ansatzes auf intraoperativen Ultraschallbildern: Von Tiermodellen bis zu ersten Tests am Menschen. Vorderseite. Surg. 30(9), 1040066. https://doi.org/10.3389/fsurg.2022.1040066 (2022).

Artikel Google Scholar

Sowmya V, Radha R. Erkennung schwerer Fahrzeuge basierend auf YOLOv4 mit Datenerweiterung und Transfer-Learning-Techniken. im Journal of Physics: Konferenzreihe. Bd. 1911, 1, 012029 (IOP Publishing, 2021).

Hou Z, Liu Bd. 720, Nr.: 1, 012062 (IOP Publishing, 2020).

Wang CY, Liao HYM, Wu YH, et al. CSPNet: Ein neues Rückgrat, das die Lernfähigkeit von CNN verbessern kann. in Tagungsband der IEEE/CVF-Konferenz zu Workshops zu Computer Vision und Mustererkennung. 390–391 (2020).

Ge, R. et al. Faltungs-Squeeze-and-Excitation-Netzwerk zur Erkennung von EKG-Arrhythmien. Artif. Intel. Med. 121, 102181 (2021).

Artikel PubMed Google Scholar

Referenzen herunterladen

Diese Arbeit wurde teilweise vom National Key Research and Development Program of China im Rahmen des Grant 2020AAA0109200 unterstützt; teilweise durch das Liaoning Revitalization Talents Program im Rahmen des Grant XLYC2008020; teilweise von der National Natural Science Foundation of China unter Grant 52074064; teilweise durch die Fundamental Research Funds for the Central Universities of China unter Grant N2304006, Grant N2204006 und Grant N2104026.

Fakultät für Informationswissenschaft und Ingenieurwesen, Northeastern University, Shenyang, 110004, China

Dong Xiao, Panpan Liu und Hang Yu

Liaoning Key Laboratory of Intelligent Diagnosis and Safety for Metallurgical Industry, Northeastern University, Shenyang, 110819, China

Dong Xiao & Panpan Liu

Shenyang Institute of Computing Technology Co. Ltd., CAS, Shenyang, 110168, Liaoning, China

Jichun Wang

College of Science, Shenyang Jianzhu University, Shenyang, 110168, Liaoning, China

Jichun Wang

Das erste Krankenhaus der China Medical University, Shenyang, China

Zhengmin Gu

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

DX entwarf die Studie und verfasste den Haupttext des Manuskripts. PL hat Daten gesammelt. JW analysierte und interpretierte Daten. ZG hat Abbildungen und Tabellen erstellt. HY hat das Manuskript überarbeitet. Alle Autoren haben das Manuskript überprüft.

Korrespondenz mit Dong Xiao.

Die Autoren geben an, dass keine Interessenkonflikte bestehen.

Springer Nature bleibt neutral hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die Originalautor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht gesetzlich zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Xiao, D., Liu, P., Wang, J. et al. Methode zur Erkennung von Fremdkörpern im Bergbaugürtel basierend auf dem YOLOv4_GECA-Modell. Sci Rep 13, 8881 (2023). https://doi.org/10.1038/s41598-023-35962-3

Zitat herunterladen

Eingegangen: 10. Februar 2023

Angenommen: 26. Mai 2023

Veröffentlicht: 01. Juni 2023

DOI: https://doi.org/10.1038/s41598-023-35962-3

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein Link zum Teilen verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt

Durch das Absenden eines Kommentars erklären Sie sich damit einverstanden, unsere Nutzungsbedingungen und Community-Richtlinien einzuhalten. Wenn Sie etwas als missbräuchlich empfinden oder etwas nicht unseren Bedingungen oder Richtlinien entspricht, kennzeichnen Sie es bitte als unangemessen.