Champion - Weifang Servomotor Group Co., Ltd

Nature Band 620, Seiten 982–987 (2023)Diesen Artikel zitieren

889 Altmetrisch

Details zu den Metriken

First-Person-View-Drohnenrennen (FPV) sind eine im Fernsehen übertragene Sportart, bei der professionelle Teilnehmer Hochgeschwindigkeitsflugzeuge durch eine 3D-Strecke steuern. Jeder Pilot sieht die Umgebung aus der Perspektive seiner Drohne mittels Videostreaming von einer Bordkamera. Mit einer autonomen Drohne das Niveau professioneller Piloten zu erreichen, ist eine Herausforderung, da der Roboter an seinen physikalischen Grenzen fliegen und dabei seine Geschwindigkeit und Position in der Rennstrecke ausschließlich anhand von Sensoren an Bord abschätzen muss1. Hier stellen wir Swift vor, ein autonomes System, das physische Fahrzeuge auf dem Niveau menschlicher Weltmeister fahren kann. Das System kombiniert Deep Reinforcement Learning (RL) in der Simulation mit in der physischen Welt gesammelten Daten. Swift trat in realen Kopf-an-Kopf-Rennen gegen drei menschliche Champions an, darunter die Weltmeister zweier internationaler Ligen. Swift gewann mehrere Rennen gegen jeden der menschlichen Champions und zeigte die schnellste aufgezeichnete Rennzeit. Diese Arbeit stellt einen Meilenstein für mobile Robotik und maschinelle Intelligenz2 dar, der den Einsatz hybrider lernbasierter Lösungen in anderen physischen Systemen inspirieren könnte.

Deep RL3 hat einige aktuelle Fortschritte in der künstlichen Intelligenz ermöglicht. Mit Deep RL trainierte Richtlinien haben Menschen in komplexen Wettbewerbsspielen übertroffen, darunter Atari4,5,6, Go5,7,8,9, Schach5,9, StarCraft10, Dota 2 (Ref. 11) und Gran Turismo12,13. Diese beeindruckenden Demonstrationen der Fähigkeiten maschineller Intelligenz beschränkten sich in erster Linie auf Simulations- und Brettspielumgebungen, die die Richtliniensuche in einer exakten Nachbildung der Testbedingungen unterstützen. Diese Einschränkung zu überwinden und in physischen Wettbewerben Leistungen auf Champion-Niveau zu demonstrieren, ist ein seit langem bestehendes Problem in der autonomen mobilen Robotik und künstlichen Intelligenz14,15,16.

FPV-Drohnenrennen ist eine im Fernsehen übertragene Sportart, bei der hochqualifizierte menschliche Piloten Luftfahrzeuge in agilen Hochgeschwindigkeitsmanövern an ihre physischen Grenzen bringen (Abb. 1a). Bei den im FPV-Rennsport eingesetzten Fahrzeugen handelt es sich um Quadrocopter, die zu den wendigsten Maschinen zählen, die jemals gebaut wurden (Abb. 1b). Während eines Rennens üben die Fahrzeuge Kräfte aus, die ihr Eigengewicht um das Fünffache oder mehr übertreffen, und erreichen selbst auf engstem Raum Geschwindigkeiten von mehr als 100 km/h und Beschleunigungen, die um ein Vielfaches höher sind als die Erdbeschleunigung. Jedes Fahrzeug wird von einem menschlichen Piloten ferngesteuert, der ein Headset trägt, das einen Videostream von einer Bordkamera zeigt, wodurch ein immersives „First-Person-View“-Erlebnis entsteht (Abb. 1c).

a: Swift (blau) tritt gegen Alex Vanover an, den Weltmeister der Drone Racing League 2019 (rot). Die Strecke besteht aus sieben quadratischen Toren, die in jeder Runde der Reihe nach passiert werden müssen. Um ein Rennen zu gewinnen, muss ein Teilnehmer drei aufeinanderfolgende Runden vor seinem Gegner absolvieren. b, Eine Nahaufnahme von Swift, beleuchtet mit blauen LEDs, und einer von Menschen gesteuerten Drohne, beleuchtet mit roten LEDs. Die in dieser Arbeit verwendeten autonomen Drohnen stützen sich ausschließlich auf sensorische Messungen an Bord, ohne Unterstützung durch externe Infrastruktur, wie etwa Motion-Capture-Systeme. c, Von links nach rechts: Thomas Bitmatta, Marvin Schaepper und Alex Vanover rasen mit ihren Drohnen über die Strecke. Jeder Pilot trägt ein Headset, das einen Videostream zeigt, der in Echtzeit von einer Kamera an Bord seines Flugzeugs übertragen wird. Die Headsets bieten ein immersives „First-Person-View“-Erlebnis. c, Foto von Regina Sablotny.

Versuche, autonome Systeme zu schaffen, die die Leistung menschlicher Piloten erreichen, gehen auf den ersten autonomen Drohnen-Rennwettbewerb im Jahr 2016 zurück (Lit. 17). Es folgten eine Reihe von Innovationen, darunter die Nutzung tiefer Netzwerke zur Identifizierung des nächsten Gate-Standorts18,19,20, die Übertragung von Rennrichtlinien von der Simulation in die Realität21,22 und die Berücksichtigung von Unsicherheiten in der Wahrnehmung23,24. Der autonome Drohnen-Rennwettbewerb AlphaPilot 2019 präsentierte einige der besten Forschungsergebnisse auf diesem Gebiet25. Allerdings brauchten die ersten beiden Teams immer noch fast doppelt so lange wie ein professioneller menschlicher Pilot, um die Strecke zu absolvieren26,27. In jüngerer Zeit haben autonome Systeme begonnen, die menschliche Leistungsfähigkeit zu erreichen28,29,30. Diese Arbeiten basieren jedoch auf einer nahezu perfekten Zustandsschätzung durch ein externes Motion-Capture-System. Dies macht den Vergleich mit menschlichen Piloten unfair, da Menschen nur Zugriff auf die Beobachtungen an Bord der Drohne haben.

In diesem Artikel beschreiben wir Swift, ein autonomes System, das nur mit integrierten Sensoren und Berechnungen einen Quadrocopter auf dem Niveau menschlicher Weltmeister fahren kann. Swift besteht aus zwei Schlüsselmodulen: (1) einem Wahrnehmungssystem, das hochdimensionale visuelle und Trägheitsinformationen in eine niedrigdimensionale Darstellung übersetzt, und (2) einer Kontrollrichtlinie, die die vom Wahrnehmungssystem erzeugte niedrigdimensionale Darstellung aufnimmt und Kontrolle erzeugt Befehle.

Die Kontrollrichtlinie wird durch ein Feedforward-Neuronales Netzwerk dargestellt und in der Simulation mithilfe des modellfreien On-Policy Deep RL31 trainiert. Um Diskrepanzen in der Wahrnehmung und Dynamik zwischen Simulation und der physikalischen Welt zu überbrücken, nutzen wir nichtparametrische empirische Rauschmodelle, die aus Daten des physikalischen Systems geschätzt werden. Diese empirischen Lärmmodelle haben sich als entscheidend für die erfolgreiche Übertragung der Kontrollpolitik von der Simulation in die Realität erwiesen.

Wir bewerten Swift auf einer physischen Strecke, die von einem professionellen Drohnen-Rennpiloten entworfen wurde (Abb. 1a). Die Strecke besteht aus sieben quadratischen Toren, die in einem Volumen von 30 × 30 × 8 m angeordnet sind und eine Runde von 75 m Länge bilden. Swift fuhr auf dieser Strecke gegen drei menschliche Champions: Alex Vanover, den Weltmeister der Drone Racing League 2019, Thomas Bitmatta, zweimaligen MultiGP International Open World Cup-Champion, und Marvin Schaepper, dreimaligen Schweizer Nationalmeister. Die von Swift und den menschlichen Piloten verwendeten Quadrocopter haben das gleiche Gewicht, die gleiche Form und den gleichen Antrieb. Sie ähneln Drohnen, die bei internationalen Wettbewerben eingesetzt werden.

Die menschlichen Piloten erhielten eine Woche Training auf der Rennstrecke. Nach dieser Trainingswoche trat jeder Pilot in mehreren Kopf-an-Kopf-Rennen gegen Swift an (Abb. 1a,b). Bei jedem Kopf-an-Kopf-Rennen starten zwei Drohnen (eine von einem menschlichen Piloten und eine von Swift gesteuert) von einem Podium. Das Rennen wird durch ein akustisches Signal eingeleitet. Das erste Fahrzeug, das drei volle Runden auf der Strecke absolviert und dabei in jeder Runde alle Tore in der richtigen Reihenfolge passiert, gewinnt das Rennen.

Swift gewann mehrere Rennen gegen jeden der menschlichen Piloten und erreichte die schnellste während der Veranstaltungen aufgezeichnete Rennzeit. Unsere Arbeit ist unseres Wissens nach das erste Mal, dass ein autonomer mobiler Roboter in einem realen Wettkampfsport Leistungen auf Weltmeisterniveau erbracht hat.

Swift nutzt eine Kombination aus lernbasierten und traditionellen Algorithmen, um integrierte sensorische Messwerte auf Steuerbefehle abzubilden. Diese Zuordnung besteht aus zwei Teilen: (1) einer Beobachtungsrichtlinie, die hochdimensionale visuelle und Trägheitsinformationen in eine aufgabenspezifische niedrigdimensionale Kodierung umwandelt, und (2) einer Kontrollrichtlinie, die die Kodierung in Befehle für die Drohne umwandelt. Eine schematische Übersicht des Systems ist in Abb. 2 dargestellt.

Swift besteht aus zwei Schlüsselmodulen: einem Wahrnehmungssystem, das visuelle und Trägheitsinformationen in eine niedrigdimensionale Zustandsbeobachtung übersetzt, und einer Kontrollrichtlinie, die diese Zustandsbeobachtung auf Kontrollbefehle abbildet. Steuerbefehle geben den gewünschten kollektiven Schub und die gewünschten Körpergeschwindigkeiten an, die gleiche Steuermodalität, die die menschlichen Piloten verwenden. a: Das Wahrnehmungssystem besteht aus einem VIO-Modul, das aus Kamerabildern und Hochfrequenzmessungen, die von einer Trägheitsmesseinheit (IMU) erhalten wurden, eine metrische Schätzung des Drohnenzustands berechnet. Die VIO-Schätzung ist mit einem neuronalen Netzwerk gekoppelt, das die Ecken von Renntoren im Bildstrom erkennt. Die Eckenerkennungen werden auf eine 3D-Pose abgebildet und mithilfe eines Kalman-Filters mit der VIO-Schätzung verschmolzen. b) Wir verwenden modellfreies On-Policy Deep RL, um die Kontrollpolitik in der Simulation zu trainieren. Während des Trainings maximiert die Richtlinie eine Belohnung, die den Fortschritt in Richtung der Mitte des nächsten Renntors mit dem Wahrnehmungsziel kombiniert, das nächste Tor im Sichtfeld der Kamera zu halten. Um die Rennpolitik von der Simulation in die physische Welt zu übertragen, ergänzen wir die Simulation mit datengesteuerten Restmodellen der Fahrzeugwahrnehmung und -dynamik. Diese Restmodelle werden aus realen Erfahrungen auf der Rennstrecke identifiziert. MLP, mehrschichtiges Perzeptron.

Die Beobachtungsrichtlinie besteht aus einem visuellen Trägheitsschätzer32,33, der mit einem Gate-Detektor26 zusammenarbeitet, einem Faltungs-Neuronalen Netzwerk, das die Racing-Gates in den Bordbildern erkennt. Erkannte Tore werden dann verwendet, um die globale Position und Ausrichtung der Drohne entlang der Rennstrecke abzuschätzen. Dies geschieht durch einen Kamera-Resektionsalgorithmus34 in Kombination mit einer Karte der Strecke. Die vom Gate-Detektor erhaltene Schätzung der globalen Pose wird dann mithilfe eines Kalman-Filters mit der Schätzung des visuell-inertialen Schätzers kombiniert, was zu einer genaueren Darstellung des Roboterzustands führt. Die Steuerrichtlinie, dargestellt durch ein zweischichtiges Perzeptron, ordnet die Ausgabe des Kalman-Filters Steuerbefehlen für das Flugzeug zu. Die Richtlinie wird mithilfe des richtlinienkonformen, modellfreien Deep RL31 in der Simulation trainiert. Während des Trainings maximiert die Richtlinie eine Belohnung, die den Fortschritt auf dem Weg zum nächsten Renntor35 mit einem Wahrnehmungsziel kombiniert, das das Halten des nächsten Tors im Sichtfeld der Kamera belohnt. Das Erkennen des nächsten Tors wird belohnt, da es die Genauigkeit der Posenschätzung erhöht.

Die reine Simulation einer Richtlinie führt zu einer schlechten Leistung auf physischer Hardware, wenn die Diskrepanzen zwischen Simulation und Realität nicht gemindert werden. Die Diskrepanzen werden hauptsächlich durch zwei Faktoren verursacht: (1) den Unterschied zwischen simulierter und realer Dynamik und (2) die verrauschte Schätzung des Roboterzustands durch die Beobachtungsrichtlinie bei Bereitstellung realer sensorischer Daten. Wir mildern diese Diskrepanzen, indem wir eine kleine Datenmenge in der realen Welt sammeln und diese Daten verwenden, um den Realismus des Simulators zu erhöhen.

Konkret zeichnen wir sensorische Beobachtungen des Roboters an Bord zusammen mit hochpräzisen Posenschätzungen eines Motion-Capture-Systems auf, während die Drohne über die Strecke rast. Während dieser Datenerfassungsphase wird der Roboter durch eine in Simulation geschulte Richtlinie gesteuert, die auf den Posenschätzungen des Bewegungserfassungssystems basiert. Die aufgezeichneten Daten ermöglichen es, die charakteristischen Fehlermodi der Wahrnehmung und Dynamik zu identifizieren, die entlang der Rennstrecke beobachtet werden. Diese Feinheiten fehlerhafter Wahrnehmung und nicht modellierter Dynamik hängen von der Umgebung, der Plattform, der Strecke und den Sensoren ab. Die Wahrnehmungs- und Dynamik-Residuen werden mithilfe von Gaußschen Prozessen36 bzw. k-Nearest-Neighbour-Regression modelliert. Die Motivation hinter dieser Wahl ist, dass wir empirisch festgestellt haben, dass Wahrnehmungsresiduen stochastisch und Dynamikresiduen weitgehend deterministisch sind (Extended Data Abb. 1). Diese Restmodelle werden in die Simulation integriert und die Rennpolitik wird in dieser erweiterten Simulation verfeinert. Dieser Ansatz steht im Zusammenhang mit den empirischen Aktuatormodellen, die für den Transfer von der Simulation in die Realität in Lit. verwendet werden. 37, bezieht aber darüber hinaus die empirische Modellierung des Wahrnehmungssystems ein und berücksichtigt auch die Stochastik bei der Schätzung des Plattformzustands.

Wir entfernen jede Komponente von Swift in kontrollierten Experimenten, über die in den erweiterten Daten berichtet wird. Außerdem vergleichen wir mit neueren Arbeiten, die sich mit der Aufgabe des autonomen Drohnenrennens mit traditionellen Methoden befassen, einschließlich Flugbahnplanung und modellprädiktiver Steuerung (MPC). Obwohl solche Ansätze unter idealisierten Bedingungen, wie vereinfachter Dynamik und perfekter Kenntnis des Roboterzustands, eine mit unserem Ansatz vergleichbare oder sogar bessere Leistung erzielen, bricht ihre Leistung ein, wenn ihre Annahmen verletzt werden. Wir stellen fest, dass Ansätze, die auf vorberechneten Pfaden28,29 basieren, besonders empfindlich auf verrauschte Wahrnehmung und Dynamik reagieren. Keine traditionelle Methode hat im Vergleich zu Swift oder menschlichen Weltmeistern konkurrenzfähige Rundenzeiten erreicht, selbst wenn sie mit einer hochpräzisen Zustandsschätzung durch ein Motion-Capture-System ausgestattet ist. Eine detaillierte Analyse finden Sie in den erweiterten Daten.

Die Drohnenrennen finden auf einer Strecke statt, die von einem externen Weltklasse-FPV-Piloten entworfen wurde. Auf der Strecke gibt es charakteristische und anspruchsvolle Manöver, wie z. B. einen Split-S (Abb. 1a (oben rechts) und 4d). Piloten dürfen auch nach einem Unfall weiter Rennen fahren, sofern ihr Fahrzeug noch flugfähig ist. Wenn beide Drohnen abstürzen und die Strecke nicht zu Ende fahren können, gewinnt die Drohne, die weiter auf der Strecke vorangekommen ist.

Wie in Abb. 3b dargestellt, gewinnt Swift 5 von 9 Rennen gegen A. Vanover, 4 von 7 Rennen gegen T. Bitmatta und 6 von 9 Rennen gegen M. Schaepper. Von den 10 für Swift verzeichneten Verlusten waren 40 % auf eine Kollision mit dem Gegner, 40 % auf eine Kollision mit einem Tor und 20 % darauf zurückzuführen, dass die Drohne langsamer war als der menschliche Pilot. Insgesamt gewinnt Swift die meisten Rennen gegen jeden menschlichen Piloten. Swift erreicht auch die schnellste aufgezeichnete Rennzeit, mit einem Vorsprung von einer halben Sekunde vor der besten Zeit eines menschlichen Piloten (A. Vanover).

a, Rundenzeitergebnisse. Wir vergleichen Swift mit den menschlichen Piloten bei Zeitfahrrennen. Rundenzeiten geben die besten Einzelrundenzeiten und die besten Durchschnittszeiten an, die in einem Lauf von drei aufeinanderfolgenden Runden erzielt wurden. Die gemeldeten Statistiken werden anhand eines Datensatzes berechnet, der während einer Woche auf der Rennstrecke aufgezeichnet wurde, was 483 (115) Datenpunkten für Swift, 331 (221) für A. Vanover, 469 (338) für T. Bitmatta und 345 (202) entspricht ) für M. Schaepper. Die erste Zahl ist die Anzahl der einzelnen Runden und die zweite die Anzahl von drei aufeinanderfolgenden Runden. Die dunklen Punkte in jeder Verteilung entsprechen den unter Rennbedingungen geflogenen Runden. b, Head-to-Head-Ergebnisse. Wir berichten über die Anzahl der von jedem Piloten geflogenen Kopf-an-Kopf-Rennen, die Anzahl der Siege und Niederlagen sowie die Siegquote.

Abbildung 4 und die erweiterte Datentabelle 1d bieten eine Analyse der schnellsten Runde, die Swift und jeder menschliche Pilot geflogen sind. Obwohl Swift insgesamt schneller ist als alle menschlichen Piloten, ist er nicht auf allen einzelnen Streckenabschnitten schneller (Erweiterte Datentabelle 1). Swift ist beim Start und in engen Kurven wie dem Split S durchweg schneller. Beim Start hat Swift eine kürzere Reaktionszeit und hebt im Durchschnitt 120 ms vor menschlichen Piloten vom Podium ab. Außerdem beschleunigt es schneller und erreicht höhere Geschwindigkeiten beim Eintritt in das erste Tor (Erweiterte Datentabelle 1d, Segment 1). In scharfen Kurven, wie in Abb. 4c,d dargestellt, findet Swift engere Manöver. Eine Hypothese ist, dass Swift Flugbahnen über einen längeren Zeitraum optimiert als menschliche Piloten. Es ist bekannt, dass modellfreies RL langfristige Belohnungen durch eine Wertfunktion optimieren kann38. Umgekehrt planen menschliche Piloten ihre Bewegung auf einer kürzeren Zeitskala, bis zu einem Tor in die Zukunft39. Dies zeigt sich beispielsweise im Split S (Abb. 4b,d), bei dem menschliche Piloten zu Beginn und am Ende des Manövers schneller, insgesamt aber langsamer sind (Extended Data Table 1d, Segment 3). Außerdem richten menschliche Piloten das Flugzeug früher als Swift so aus, dass es dem nächsten Gate zugewandt ist (Abb. 4c, d). Wir schlagen vor, dass menschliche Piloten daran gewöhnt sind, das kommende Gate im Blick zu behalten, während Swift gelernt hat, einige Manöver auszuführen und sich dabei auf andere Hinweise zu verlassen, wie zum Beispiel Trägheitsdaten und visuelle Odometrie anhand von Merkmalen in der Umgebung. Insgesamt erreicht die autonome Drohne im Durchschnitt über die gesamte Strecke die höchste Durchschnittsgeschwindigkeit, findet die kürzeste Ideallinie und schafft es, das Flugzeug während des gesamten Rennens näher an seinen Betätigungsgrenzen zu halten, wie aus dem durchschnittlichen Schub und der aufgenommenen Leistung hervorgeht (erweiterte Datentabelle). 1d).

a, Vergleich des schnellsten Rennens jedes Piloten, veranschaulicht durch die Zeit hinter Swift. Der Zeitunterschied zur autonomen Drohne wird als die Zeit berechnet, seit sie dieselbe Position auf der Strecke passiert hat. Obwohl Swift insgesamt schneller ist als alle menschlichen Piloten, ist er nicht unbedingt auf allen einzelnen Streckenabschnitten schneller. b, Visualisierung, wo die menschlichen Piloten im Vergleich zur autonomen Drohne schneller (rot) und langsamer (blau) sind. Swift ist am Start und in engen Kurven, wie dem Split S, konstant schneller. c, Analyse des Manövers nach Tor 2. Swift in Blau, Vanover in Rot. Swift gewinnt in diesem Segment Zeit gegenüber menschlichen Piloten, da es eine engere Kurve ausführt und dabei eine vergleichbare Geschwindigkeit beibehält. d, Analyse des Split-S-Manövers. Swift in Blau, Vanover in Rot. Der Split S ist der anspruchsvollste Abschnitt der Rennstrecke und erfordert eine sorgfältig koordinierte Roll- und Nickbewegung, die einen absteigenden Halblooping durch die beiden Tore ergibt. Swift gewinnt in diesem Segment Zeit gegenüber menschlichen Piloten, da es eine engere Kurve mit weniger Überschwingen ausführt. e, Darstellung der zur Analyse verwendeten Gleissegmente. Segment 1 wird einmal am Start durchquert, während die Segmente 2–4 in jeder Runde (dreimal im Laufe eines Rennens) durchquert werden.

Wir vergleichen auch die Leistung von Swift und den menschlichen Champions im Zeitfahren (Abb. 3a). Bei einem Zeitfahren fährt ein einzelner Pilot die Strecke ab, wobei die Anzahl der Runden dem Ermessen des Piloten überlassen bleibt. Wir sammeln Zeitfahrdaten aus der Trainingswoche und den Rennen, einschließlich Trainingsläufen (Abb. 3a, farbig) und unter Rennbedingungen geflogenen Runden (Abb. 3a, schwarz). Für die Berechnung der Statistiken nutzen wir für jeden Teilnehmer mehr als 300 Runden. Die autonome Drohne strebt konsequenter nach schnellen Rundenzeiten und weist einen geringeren Mittelwert und eine geringere Varianz auf. Umgekehrt entscheiden menschliche Piloten Runde für Runde, ob sie die Geschwindigkeit steigern wollen, was zu einem höheren Mittelwert und einer höheren Varianz der Rundenzeiten sowohl im Training als auch in den Rennen führt. Die Möglichkeit, die Flugstrategie anzupassen, ermöglicht es menschlichen Piloten, ein langsameres Tempo beizubehalten, wenn sie erkennen, dass sie einen klaren Vorsprung haben, um so das Risiko eines Absturzes zu verringern. Die autonome Drohne ist sich ihres Gegners nicht bewusst und strebt auf jeden Fall die schnellste erwartete Fertigstellungszeit an, wobei sie möglicherweise zu viel riskiert, wenn sie in Führung liegt, und zu wenig, wenn sie zurückliegt40.

FPV-Drohnenrennen erfordern eine Entscheidungsfindung in Echtzeit auf der Grundlage verrauschter und unvollständiger sensorischer Eingaben aus der physischen Umgebung. Wir haben ein autonomes physisches System vorgestellt, das in diesem Sport Leistungen auf Champion-Niveau erbringt und die Leistung menschlicher Weltmeister erreicht und teilweise sogar übertrifft. Unser System hat gewisse strukturelle Vorteile gegenüber den menschlichen Piloten. Erstens nutzt es Trägheitsdaten einer integrierten Trägheitsmesseinheit32. Dies ähnelt dem menschlichen Vestibularsystem41, das von den menschlichen Piloten nicht genutzt wird, da sie sich nicht physisch im Flugzeug befinden und die auf sie einwirkenden Beschleunigungen nicht spüren. Zweitens profitiert unser System von einer geringeren sensomotorischen Latenz (40 ms für Swift gegenüber durchschnittlich 220 ms für erfahrene menschliche Piloten39). Andererseits kann die begrenzte Bildwiederholfrequenz der von Swift verwendeten Kamera (30 Hz) als struktureller Vorteil für menschliche Piloten angesehen werden, da die Bildwiederholfrequenz der Kameras viermal so schnell ist (120 Hz), was ihre Reaktionszeit verbessert42.

Menschliche Piloten sind beeindruckend robust: Sie können mit voller Geschwindigkeit abstürzen und – wenn die Hardware noch funktioniert – weiterfliegen und die Strecke absolvieren. Swift war nicht darauf trainiert, sich nach einem Unfall zu erholen. Menschliche Piloten sind außerdem robust gegenüber Veränderungen der Umgebungsbedingungen, etwa der Beleuchtung, die das Erscheinungsbild der Strecke deutlich verändern können. Im Gegensatz dazu geht Swifts Wahrnehmungssystem davon aus, dass das Erscheinungsbild der Umgebung mit dem übereinstimmt, was während des Trainings beobachtet wurde. Wenn diese Annahme fehlschlägt, kann das System scheitern. Robustheit gegenüber Erscheinungsänderungen kann durch das Training des Gate-Detektors und des Restbeobachtungsmodells unter verschiedenen Bedingungen gewährleistet werden. Die Beseitigung dieser Einschränkungen könnte die Anwendung des vorgestellten Ansatzes bei autonomen Drohnen-Rennwettbewerben ermöglichen, bei denen der Zugang zur Umgebung und zur Drohne begrenzt ist25.

Ungeachtet der verbleibenden Einschränkungen und der vor uns liegenden Arbeit ist die Leistung eines autonomen mobilen Roboters auf Weltmeisterniveau in einem beliebten Sport ein Meilenstein für Robotik und maschinelle Intelligenz. Diese Arbeit könnte den Einsatz hybrider lernbasierter Lösungen in anderen physischen Systemen wie autonomen Bodenfahrzeugen, Flugzeugen und persönlichen Robotern in einem breiten Anwendungsspektrum inspirieren.

Um ein groß angelegtes Training zu ermöglichen, verwenden wir eine hochauflösende Simulation der Quadrocopter-Dynamik. In diesem Abschnitt wird die Simulation kurz erläutert. Die Dynamik des Fahrzeugs kann geschrieben werden als:

wobei ⊙ die Quaternionrotation darstellt, \({{\bf{p}}}_{{\mathcal{W}}{\mathcal{B}}},{{\bf{q}}}_{{\mathcal {W}}{\mathcal{B}}},{{\bf{v}}}_{{\mathcal{W}}}\) und \({{\boldsymbol{\omega }}}_{{ \mathcal{B}}}\) bezeichnen die Position, die Lagequaternion, die Trägheitsgeschwindigkeit bzw. die Körperraten des Quadrocopters. Die Motorzeitkonstante ist kmot und die Motorgeschwindigkeiten Ω und Ωss sind die tatsächlichen bzw. stationären Motorgeschwindigkeiten. Die Matrix J ist die Trägheit des Quadrocopters und \({{\bf{g}}}_{{\mathcal{W}}}\) bezeichnet den Schwerkraftvektor. Auf den Quadrocopter wirken zwei Kräfte: die von den Propellern erzeugte Auftriebskraft fprop und eine aerodynamische Kraft faero, die alle anderen Kräfte wie Luftwiderstand, dynamischen Auftrieb und induzierten Widerstand zusammenfasst. Das Drehmoment wird als Summe aus vier Komponenten modelliert: dem durch die einzelnen Propellerschübe erzeugten Drehmoment τprop, dem Gierdrehmoment τmot, das durch eine Änderung der Motordrehzahl erzeugt wird, einem aerodynamischen Drehmoment τaero, das verschiedene aerodynamische Effekte wie Blattschlagen und eine Trägheit berücksichtigt Begriff τiner. Die einzelnen Komponenten sind angegeben als

Dabei ist rP,i die Position des Propellers i, ausgedrückt im Körperrahmen, und fi und τi sind die Kräfte bzw. Drehmomente, die vom i-ten Propeller erzeugt werden. Die Drehachse des i-ten Motors wird mit ζi bezeichnet, die kombinierte Trägheit von Motor und Propeller ist Jm+p und die Ableitung der i-ten Motordrehzahl ist \({\dot{\Omega }}_{i}\) . Die einzelnen Propeller werden mithilfe eines häufig verwendeten quadratischen Modells modelliert, das davon ausgeht, dass die Auftriebskraft und das Widerstandsmoment proportional zum Quadrat der Propellergeschwindigkeit Ωi sind:

Dabei bezeichnen cl und cd den Propellerauftrieb bzw. den Luftwiderstandsbeiwert.

Die aerodynamischen Kräfte und Drehmomente lassen sich mit einem Ab-initio-Prinzip-Ansatz nur schwer modellieren. Wir verwenden daher ein datengesteuertes Modell43. Um die für groß angelegte RL-Trainings erforderliche geringe Rechenkomplexität beizubehalten, wird anstelle eines neuronalen Netzwerks ein Grey-Box-Polynommodell verwendet. Es wird angenommen, dass die aerodynamischen Effekte hauptsächlich von der Geschwindigkeit \({{\bf{v}}}_{{\mathcal{B}}}\) (im Körperrahmen) und der durchschnittlichen quadratischen Motorgeschwindigkeit \(\overline) abhängen {{\Omega }^{2}}\). Im Karosserierahmen werden die aerodynamischen Kräfte fx, fy und fz sowie die Drehmomente τx, τy und τz abgeschätzt. Die Größen vx, vy und vz bezeichnen die drei axialen Geschwindigkeitskomponenten (im Körperrahmen) und vxy bezeichnet die Geschwindigkeit in der (x, y)-Ebene des Quadrocopters. Basierend auf Erkenntnissen aus den zugrunde liegenden physikalischen Prozessen werden lineare und quadratische Kombinationen der einzelnen Begriffe ausgewählt. Zur besseren Lesbarkeit wurden die Koeffizienten zur Multiplikation jedes Summanden weggelassen:

Die jeweiligen Koeffizienten werden dann aus realen Flugdaten identifiziert, wobei Bewegungserfassung verwendet wird, um bodennahe Kräfte- und Drehmomentmessungen zu liefern. Wir nutzen Daten von der Rennstrecke und ermöglichen so eine Anpassung des Dynamikmodells an die Strecke. Dies ähnelt dem tage- oder wochenlangen Training menschlicher Piloten vor dem Rennen auf der spezifischen Strecke, auf der sie fahren werden. In unserem Fall erhalten die menschlichen Piloten vor dem Wettbewerb eine Woche Training auf derselben Strecke.

Zur Steuerung des Quadrocopters gibt das neuronale Netzwerk kollektive Schub- und Körperraten aus. Es ist bekannt, dass dieses Steuersignal eine hohe Agilität mit einer guten Robustheit bei der Übertragung von der Simulation in die Realität verbindet44. Der vorhergesagte kollektive Schub und die Körpergeschwindigkeiten werden dann von einem integrierten Low-Level-Controller verarbeitet, der individuelle Motorbefehle berechnet, die anschließend über einen elektronischen Geschwindigkeitsregler (ESC), der die Motoren steuert, in analoge Spannungssignale umgewandelt werden. Im physischen Fahrzeug werden dieser Low-Level-Proportional-Integral-Differential-Regler (PID) und der ESC mithilfe der Open-Source-Firmware Betaflight und BLHeli3245 implementiert. Bei der Simulation verwenden wir ein genaues Modell sowohl des Low-Level-Controllers als auch des Motordrehzahlreglers.

Da der Betaflight-PID-Regler für den von Menschen gesteuerten Flug optimiert wurde, weist er einige Besonderheiten auf, die die Simulation korrekt erfasst: Die Referenz für den D-Term ist konstant Null (reine Dämpfung), der I-Term wird zurückgesetzt, wenn der Gashebel eingeschaltet ist Schnitt und bei Sättigung des Motorschubs wird der Körperfrequenzsteuerung Priorität zugewiesen (proportionales Herunterskalieren aller Motorsignale, um eine Sättigung zu vermeiden). Die Vorteile des für die Simulation verwendeten Controllers wurden anhand der detaillierten Protokolle der internen Zustände des Betaflight-Controllers ermittelt. Die Simulation kann die einzelnen Motorbefehle mit einem Fehler von weniger als 1 % vorhersagen.

Der Low-Level-Controller wandelt die einzelnen Motorbefehle in ein Pulsweitenmodulationssignal (PWM) um und sendet es an den ESC, der die Motoren steuert. Da der ESC keine Regelung der Motorgeschwindigkeiten durchführt, ist die stationäre Motorgeschwindigkeit Ωi,ss für einen bestimmten PWM-Motorbefehl cmdi eine Funktion der Batteriespannung. Unsere Simulation modelliert daher die Batteriespannung mithilfe eines Grey-Box-Batteriemodells46, das die Spannung basierend auf dem momentanen Stromverbrauch Pmot simuliert:

Das Batteriemodell46 simuliert dann die Batteriespannung basierend auf diesem Leistungsbedarf. Angesichts der Batteriespannung Ubat und des individuellen Motorbefehls ucmd,i verwenden wir die Zuordnung (wobei wir wiederum die Koeffizienten weglassen, mit denen jeder Summand multipliziert wird).

um die entsprechende stationäre Motordrehzahl Ωi,ss zu berechnen, die für die Dynamiksimulation in Gleichung (1) erforderlich ist. Die Koeffizienten wurden aus Betaflight-Protokollen ermittelt, die Messungen aller beteiligten Größen enthalten. Zusammen mit dem Modell des Low-Level-Controllers ermöglicht dies dem Simulator, eine Aktion in Form von kollektiven Schub- und Körpergeschwindigkeiten korrekt in gewünschte Motorgeschwindigkeiten Ωss in Gleichung (1) umzusetzen.

Wir trainieren tiefgreifende neuronale Kontrollstrategien, die Beobachtungen in Form von Plattformzustand und Next-Gate-Beobachtung direkt abbilden, um Aktionen in Form von massennormalisierten kollektiven Schub- und Körperraten zu steuern44. Die Kontrollrichtlinien werden mithilfe modellfreier RL in der Simulation trainiert.

Das Training wird mithilfe der proximalen Richtlinienoptimierung31 durchgeführt. Dieser akteur-kritische Ansatz erfordert die gemeinsame Optimierung zweier neuronaler Netze während des Trainings: das Richtliniennetzwerk, das Beobachtungen auf Aktionen abbildet, und das Wertenetzwerk, das als „Kritiker“ fungiert und die von der Richtlinie ergriffenen Maßnahmen bewertet. Nach dem Training wird nur das Richtliniennetzwerk auf dem Roboter bereitgestellt.

Eine aus der Umgebung zum Zeitpunkt t erhaltene Beobachtung \({{\bf{o}}}_{t}\in {{\mathbb{R}}}^{31}\) besteht aus: (1) einer Schätzung von der aktuelle Roboterstatus; (2) die relative Lage des nächsten zu passierenden Tors auf der Gleisanlage; und (3) die im vorherigen Schritt angewendete Aktion. Konkret enthält die Schätzung des Roboterzustands die Position der Plattform, ihre Geschwindigkeit und ihre Lage, dargestellt durch eine Rotationsmatrix, was zu einem Vektor in \({{\mathbb{R}}}^{15}\) führt. Obwohl die Simulation intern Quaternionen verwendet, verwenden wir eine Rotationsmatrix zur Darstellung der Haltung, um Mehrdeutigkeiten zu vermeiden47. Die relative Position des nächsten Tors wird durch die Angabe der relativen Position der vier Torecken in Bezug auf das Fahrzeug kodiert, was zu einem Vektor in \({{\mathbb{R}}}^{12}\) führt. Alle Beobachtungen werden normalisiert, bevor sie an das Netzwerk weitergeleitet werden. Da das Wertnetzwerk nur während der Trainingszeit genutzt wird, kann es auf privilegierte Informationen über die Umgebung zugreifen, auf die die Richtlinie keinen Zugriff hat48. Diese privilegierten Informationen werden mit anderen Eingaben in das Richtliniennetzwerk verknüpft und enthalten die genaue Position, Ausrichtung und Geschwindigkeit des Roboters.

Für jede Beobachtung ot erzeugt das Richtliniennetzwerk eine Aktion \({{\bf{a}}}_{t}\in {{\mathbb{R}}}^{4}\) in Form einer gewünschten Massen- normalisierte kollektive Schub- und Körperraten.

Wir verwenden eine dicht geformte Belohnungsformulierung, um die Aufgabe des wahrnehmungsbewussten autonomen Drohnenrennens zu erlernen. Die Belohnung rt zum Zeitpunkt t ist gegeben durch

Dabei belohnt rprog den Fortschritt in Richtung des nächsten Tors35, rperc kodiert das Wahrnehmungsbewusstsein, indem es die Haltung des Fahrzeugs so anpasst, dass die optische Achse der Kamera auf die Mitte des nächsten Tors zeigt, rcmd belohnt reibungslose Aktionen und rcrash ist eine binäre Strafe nur aktiv bei Kollision mit einem Tor oder wenn die Plattform einen vordefinierten Begrenzungsrahmen verlässt. Wenn ein Absturz ausgelöst wird, endet die Trainingsepisode.

Im Einzelnen sind es die Belohnungsbedingungen

wobei \({d}_{t}^{{\rm{Gate}}}\) den Abstand vom Schwerpunkt des Fahrzeugs zum Mittelpunkt des nächsten Gates im Zeitschritt t bezeichnet, δcam den Winkel darstellt zwischen der optischen Achse der Kamera und der Mitte des nächsten Tors und \({{\bf{a}}}_{t}^{\omega }\) sind die befohlenen Körpergeschwindigkeiten. Die Hyperparameter λ1,…, λ5 gleichen unterschiedliche Terme aus (Extended Data Table 1a).

Die Datenerfassung erfolgt durch die parallele Simulation von 100 Agenten, die in Episoden von 1.500 Schritten mit der Umgebung interagieren. Bei jedem Zurücksetzen der Umgebung wird jeder Agent an einem zufälligen Tor auf der Strecke initialisiert, mit begrenzter Störung um einen Zustand, der zuvor beim Passieren dieses Tors beobachtet wurde. Im Gegensatz zu früheren Arbeiten44,49,50 führen wir keine Randomisierung der Plattformdynamik zur Trainingszeit durch. Stattdessen führen wir eine Feinabstimmung auf Basis realer Daten durch. Die Trainingsumgebung wird mithilfe von TensorFlow Agents51 implementiert. Das Richtliniennetzwerk und das Wertenetzwerk werden beide durch zweischichtige Perzeptrone mit 128 Knoten in jeder Schicht und LeakyReLU-Aktivierungen mit einer negativen Steigung von 0,2 dargestellt. Netzwerkparameter werden mit dem Adam-Optimierer mit einer Lernrate von 3 × 10−4 sowohl für das Richtliniennetzwerk als auch für das Wertnetzwerk optimiert.

Richtlinien werden für insgesamt 1 × 108 Umgebungsinteraktionen trainiert, was auf einer Workstation (i9 12900K, RTX 3090, 32 GB RAM DDR5) 50 Minuten dauert. Die Feinabstimmung wird für 2 × 107 Umgebungsinteraktionen durchgeführt.

Wir führen eine Feinabstimmung der ursprünglichen Richtlinie auf der Grundlage einer kleinen Menge an in der realen Welt gesammelten Daten durch. Konkret erfassen wir drei vollständige Rollouts in der realen Welt, was einer Flugzeit von etwa 50 Sekunden entspricht. Wir optimieren die Richtlinie, indem wir Restbeobachtungen und Restdynamiken identifizieren, die dann für das Training in der Simulation verwendet werden. Während dieser Feinabstimmungsphase werden nur die Gewichtungen der Kontrollrichtlinie aktualisiert, während die Gewichtungen des Gate-Erkennungsnetzwerks konstant gehalten werden.

Das Navigieren mit hohen Geschwindigkeiten führt zu erheblicher Bewegungsunschärfe, was zu einem Verlust der verfolgten visuellen Merkmale und einer starken Abweichung der Schätzungen der linearen Odometrie führen kann. Wir optimieren Richtlinien mit einem Odometriemodell, das nur aus einer Handvoll in der realen Welt aufgezeichneter Versuche ermittelt wird. Um die Drift in der Odometrie zu modellieren, verwenden wir Gaußsche Prozesse36, da sie die Anpassung einer Posteriorverteilung von Odometriestörungen ermöglichen, aus der wir zeitlich konsistente Erkenntnisse ableiten können.

Insbesondere passt das Gaußsche Prozessmodell die Restposition, -geschwindigkeit und -lage als Funktion des Ground-Truth-Roboterzustands an. Die Beobachtungsreste werden identifiziert, indem die beobachteten Schätzungen der visuell-inertialen Odometrie (VIO) während eines realen Rollouts mit den Ground-Truth-Plattformzuständen verglichen werden, die von einem externen Bewegungsverfolgungssystem erhalten werden.

Wir behandeln jede Dimension der Beobachtung separat und passen effektiv einen Satz von neun 1D-Gauß-Prozessen an die Beobachtungsresiduen an. Wir verwenden eine Mischung aus radialen Basisfunktionskernen

wobei L die diagonale Längenskalenmatrix ist und σf und σn die Daten bzw. die Varianz des vorherigen Rauschens darstellen und zi und zj Datenmerkmale darstellen. Die Kernel-Hyperparameter werden durch Maximierung der logarithmischen Randwahrscheinlichkeit optimiert. Nach der Kernel-Hyperparameter-Optimierung probieren wir neue Erkenntnisse aus der Posterior-Verteilung aus, die dann bei der Feinabstimmung der Richtlinie verwendet werden. Erweiterte Daten Abb. 1 zeigt die verbleibenden Beobachtungen in Bezug auf Position, Geschwindigkeit und Lage bei Rollouts in der realen Welt sowie 100 abgetastete Erkenntnisse aus dem Gaußschen Prozessmodell.

Wir verwenden ein Restmodell, um die simulierte Roboterdynamik zu ergänzen52. Konkret identifizieren wir Restbeschleunigungen als Funktion des Plattformzustands s und des befohlenen massennormalisierten kollektiven Schubs c:

Wir verwenden die k-Nearest-Neighbor-Regression mit k = 5. Die Größe des Datensatzes, der für die Identifizierung des Restdynamikmodells verwendet wird, hängt vom Gleislayout ab und liegt zwischen 800 und 1.000 Stichproben für das in dieser Arbeit verwendete Gleislayout.

Um die durch die VIO-Pipeline akkumulierte Drift zu korrigieren, werden die Gates als deutliche Orientierungspunkte für die relative Lokalisierung verwendet. Konkret werden Tore in der Sicht der Bordkamera durch Segmentierung der Torecken erkannt26. Die von der Intel RealSense Tracking Camera T265 bereitgestellten Graustufenbilder werden als Eingangsbilder für den Tordetektor verwendet. Die Architektur des Segmentierungsnetzwerks ist ein sechsstufiges U-Net53 mit (8, 16, 16, 16, 16, 16) Faltungsfiltern der Größe (3, 3, 3, 5, 7, 7) pro Ebene und einem Abschluss Zusätzliche Schicht, die auf dem Ausgang des U-Net arbeitet und 12 Filter enthält. Als Aktivierungsfunktion wird LeakyReLU mit α = 0,01 verwendet. Für die Bereitstellung auf dem NVIDIA Jetson TX2 wird das Netzwerk auf TensorRT portiert. Um den Speicherbedarf und die Rechenzeit zu optimieren, wird die Inferenz im Halbgenauigkeitsmodus (FP16) durchgeführt und die Bilder werden auf die Größe 384 × 384 heruntergerechnet, bevor sie dem Netzwerk zugeführt werden. Ein Vorwärtsdurchlauf durch das Netzwerk dauert beim NVIDIA Jetson TX2 40 ms.

Die Odometrieschätzungen der VIO-Pipeline54 zeigen eine erhebliche Drift während des Hochgeschwindigkeitsflugs. Wir verwenden die Gate-Erkennung, um die von VIO erstellten Posenschätzungen zu stabilisieren. Der Tordetektor gibt die Koordinaten der Ecken aller sichtbaren Tore aus. Eine relative Pose wird zunächst für alle vorhergesagten Gates mithilfe der auf der Ebene basierenden Infinitesimal-Pose-Schätzung (IPPE)34 geschätzt. Aufgrund dieser relativen Lageschätzung wird jede Torbeobachtung dem nächstgelegenen Tor im bekannten Gleislayout zugeordnet, wodurch sich eine Lageschätzung für die Drohne ergibt.

Aufgrund der geringen Häufigkeit der Gate-Erkennungen und der hohen Qualität der VIO-Orientierungsschätzung verfeinern wir nur die Translationskomponenten der VIO-Messungen. Wir schätzen und korrigieren die Drift der VIO-Pipeline mithilfe eines Kalman-Filters, der die translatorische Drift pd (Positionsoffset) und ihre Ableitung, die Driftgeschwindigkeit vd, schätzt. Die Driftkorrektur erfolgt durch Subtrahieren der geschätzten Driftzustände pd und vd von den entsprechenden VIO-Schätzungen. Der Kalman-Filterzustand x ist gegeben durch \({\bf{x}}={[{{\bf{p}}}_{{\rm{d}}}^{\top },{{\bf{ v}}}_{{\rm{d}}}^{\top }]}^{\top }\in {{\mathbb{R}}}^{6}\).

Die Zustands-x- und Kovarianz-P-Aktualisierungen sind gegeben durch:

Aufgrund der Messungen wird das Prozessgeräusch auf σpos = 0,05 und σvel = 0,1 festgelegt. Der Filterzustand und die Kovarianz werden auf Null initialisiert. Für jede Messung zk (Posenschätzung aus einer Torerkennung) wird die vorhergesagte VIO-Drift \({{\bf{x}}}_{k}^{-}\) auf die Schätzung \({{\bf{ x}}}_{k}^{+}\) gemäß den Kalman-Filtergleichungen:

Dabei ist Kk die Kalman-Verstärkung, R die Messkovarianz und Hk die Messmatrix. Wenn mehrere Gates in einem einzelnen Kamerabild erkannt wurden, werden alle relativen Posenschätzungen gestapelt und im selben Kalman-Filter-Aktualisierungsschritt verarbeitet. Die Hauptquelle für Messfehler ist die Unsicherheit bei der Gate-Eckenerkennung des Netzwerks. Dieser Fehler in der Bildebene führt bei der Anwendung von IPPE zu einem Posenfehler. Wir haben uns für einen stichprobenbasierten Ansatz entschieden, um den Posenfehler aus der bekannten durchschnittlichen Unsicherheit der Gate-Eckenerkennung abzuschätzen. Für jedes Gate wird der IPPE-Algorithmus auf die nominale Gate-Beobachtung sowie auf 20 gestörte Gate-Eckenschätzungen angewendet. Die resultierende Verteilung der Posenschätzungen wird dann verwendet, um die Messkovarianz R der Gate-Beobachtung anzunähern.

Um im autonomen Drohnenrennen Spitzenleistungen zu erzielen, müssen zwei Herausforderungen bewältigt werden: eine unvollständige Wahrnehmung und unvollständige Modelle der Systemdynamik. In kontrollierten Simulationsexperimenten bewerten wir die Robustheit unseres Ansatzes für diese beiden Herausforderungen. Zu diesem Zweck bewerten wir die Leistung in einer Rennaufgabe, wenn sie in vier verschiedenen Umgebungen eingesetzt wird. In Einstellung (1) simulieren wir ein vereinfachtes Quadrotormodell mit Zugriff auf Ground-Truth-Zustandsbeobachtungen. In Einstellung (2) ersetzen wir die Ground-Truth-State-Beobachtungen durch verrauschte Beobachtungen, die aus realen Flügen stammen. Diese verrauschten Beobachtungen werden durch Abtasten einer Erkenntnis aus dem Restbeobachtungsmodell generiert und sind unabhängig von der Wahrnehmungswahrnehmung des eingesetzten Controllers. Die Einstellungen (3) und (4) teilen die Beobachtungsmodelle jeweils mit den beiden vorherigen Einstellungen, ersetzen jedoch das vereinfachte Dynamikmodell durch eine genauere aerodynamische Simulation43. Diese vier Einstellungen ermöglichen eine kontrollierte Beurteilung der Empfindlichkeit des Ansatzes gegenüber Änderungen in der Dynamik und der Beobachtungstreue.

In allen vier Einstellungen vergleichen wir unseren Ansatz mit den folgenden Grundlinien: Zero-Shot, Domänen-Randomisierung und Zeitoptimal. Die Zero-Shot-Basislinie stellt eine lernbasierte Rennrichtlinie35 dar, die mit modellfreiem RL trainiert wurde und von der Trainingsdomäne in die Testdomäne Zero-Shot eingesetzt wird. Der Trainingsbereich der Richtlinie entspricht der experimentellen Umgebung (1), d. h. idealisierter Dynamik und Beobachtungen der Grundwahrheit. Die Domänenrandomisierung erweitert die Lernstrategie ausgehend von der Zero-Shot-Basislinie durch die Randomisierung von Beobachtungen und Dynamikeigenschaften, um die Robustheit zu erhöhen. Die zeitoptimale Basislinie verwendet eine vorberechnete zeitoptimale Trajektorie28, die mithilfe eines MPC-Controllers verfolgt wird. Dieser Ansatz hat im Vergleich zu anderen modellbasierten Methoden für einen zeitoptimalen Flug die beste Leistung gezeigt55,56. Das von der Trajektoriengenerierung und dem MPC-Regler verwendete Dynamikmodell entspricht der simulierten Dynamik der Versuchsumgebung (1).

Die Leistung wird anhand der schnellsten Rundenzeit, des durchschnittlichen und minimalen beobachteten Torabstands erfolgreich passierter Tore und des Prozentsatzes der erfolgreich absolvierten Strecke beurteilt. Die Gate-Margin-Metrik misst den Abstand zwischen der Drohne und dem nächstgelegenen Punkt am Gate beim Überqueren der Gate-Ebene. Ein hoher Torrand weist darauf hin, dass der Quadrocopter nahe an der Tormitte vorbeigefahren ist. Das Verlassen eines kleineren Torabstands kann die Geschwindigkeit erhöhen, aber auch das Risiko einer Kollision oder des Verfehlens des Tors erhöhen. Jede Runde, die zu einem Unfall führt, gilt nicht als gültig.

Die Ergebnisse sind in der erweiterten Datentabelle 1c zusammengefasst. Alle Ansätze schaffen es, die Aufgabe erfolgreich abzuschließen, wenn sie in idealisierter Dynamik und bodennahen Beobachtungen eingesetzt werden, wobei die zeitoptimale Basislinie die niedrigste Rundenzeit ergibt. Beim Einsatz in Umgebungen mit Domänenverschiebungen, sei es in der Dynamik oder in den Beobachtungen, bricht die Leistung aller Basislinien ein und keine der drei Basislinien ist in der Lage, auch nur eine einzige Runde zu absolvieren. Dieser Leistungsabfall zeigt sich sowohl bei lernbasierten als auch bei traditionellen Ansätzen. Im Gegensatz dazu ist unser Ansatz, der auf empirischen Modellen der Dynamik und des Beobachtungsgeräuschs basiert, in allen Einsatzsituationen erfolgreich, mit geringfügigen Steigerungen der Rundenzeit.

Das Schlüsselmerkmal, das es unserem Ansatz ermöglicht, über alle Einsatzregime hinweg erfolgreich zu sein, ist die Verwendung eines empirischen Modells der Dynamik und des Beobachtungsrauschens, das anhand realer Daten geschätzt wird. Ein Vergleich zwischen einem Ansatz, der Zugriff auf solche Daten hat, und Ansätzen, die keinen Zugriff haben, ist nicht ganz fair. Aus diesem Grund vergleichen wir auch die Leistung aller Basisansätze, wenn wir Zugriff auf dieselben realen Daten haben, die auch unser Ansatz verwendet. Insbesondere vergleichen wir die Leistung in der experimentellen Umgebung (2), die das idealisierte Dynamikmodell, aber eine verrauschte Wahrnehmung aufweist. Alle Basisansätze werden mit den Vorhersagen desselben Gaußschen Prozessmodells bereitgestellt, das wir zur Charakterisierung des Beobachtungsrauschens verwenden. Die Ergebnisse sind in der erweiterten Datentabelle 1b zusammengefasst. Alle Basislinien profitieren von den realistischeren Beobachtungen und führen zu höheren Abschlussquoten. Dennoch ist unser Ansatz der einzige, der die gesamte Strecke zuverlässig abschließt. Neben den Vorhersagen des Beobachtungsrauschmodells berücksichtigt unser Ansatz auch die Unsicherheit des Modells. Für einen ausführlichen Vergleich der Leistung von RL im Vergleich zur optimalen Kontrolle in kontrollierten Experimenten verweisen wir den Leser auf Lit. 57.

Wir untersuchen das Ausmaß der Verhaltensschwankungen über Iterationen hinweg. Die Ergebnisse unserer Analyse zeigen, dass nachfolgende Feinabstimmungsvorgänge zu vernachlässigbaren Leistungssteigerungen und Verhaltensänderungen führen (Extended Data Abb. 2).

Im Folgenden geben wir weitere Einzelheiten zu dieser Untersuchung bekannt. Wir beginnen mit der Aufzählung der Feinabstimmungsschritte, um die erforderliche Notation bereitzustellen:

Trainieren Sie Policy-0 in der Simulation.

Setzen Sie Policy-0 in der realen Welt ein. Die Richtlinie basiert auf Ground-Truth-Daten aus einem Motion-Capture-System.

Identifizieren Sie die von Policy-0 in der realen Welt beobachteten Residuen.

Trainieren Sie Richtlinie 1, indem Sie Richtlinie 0 auf die identifizierten Residuen abstimmen.

Setzen Sie Richtlinie 1 in der realen Welt ein. Die Richtlinie gilt nur für sensorische Messungen an Bord.

Identifizieren Sie die von Richtlinie 1 in der realen Welt beobachteten Residuen.

Trainieren Sie Richtlinie 2, indem Sie Richtlinie 1 auf die identifizierten Residuen abstimmen.

Wir vergleichen die Leistung von Richtlinie 1 und Richtlinie 2 in der Simulation nach einer Feinabstimmung ihrer jeweiligen Residuen. Die Ergebnisse sind in Abb. 2 der erweiterten Daten dargestellt. Wir stellen fest, dass der Unterschied im Abstand von den Tormitten, der ein Maß für die Sicherheit der Richtlinie ist, 0,09 ± 0,08 m beträgt. Darüber hinaus beträgt der Zeitunterschied für eine einzelne Runde 0,02 ± 0,02 s. Beachten Sie, dass dieser Rundenzeitunterschied wesentlich kleiner ist als der Unterschied zwischen den Einzelrundenzeiten von Swift und den menschlichen Piloten (0,16 s).

Die von den menschlichen Piloten und Swift verwendeten Quadrocopter haben das gleiche Gewicht, die gleiche Form und den gleichen Antrieb. Das Plattformdesign basiert auf dem Agilicious-Framework58. Jedes Fahrzeug hat ein Gewicht von 870 g und kann einen maximalen statischen Schub von etwa 35 N erzeugen, was zu einem statischen Schub-Gewichts-Verhältnis von 4,1 führt. Die Basis jeder Plattform besteht aus einem 6-Zoll-Hauptrahmen von Armattan Chameleon, der mit T-Motor Velox 2306-Motoren und 5-Zoll-Dreiblattpropellern ausgestattet ist. Ein NVIDIA Jetson TX2 zusammen mit einem Connect Tech Quasar-Trägerboard stellt die Hauptrechenressource für die autonomen Drohnen dar und verfügt über eine Sechs-Kern-CPU mit 2 GHz und eine dedizierte GPU mit 256 CUDA-Kernen mit 1,3 GHz. Obwohl Vorwärtsdurchgänge des Gate-Erkennungsnetzwerks auf der GPU durchgeführt werden, wird die Rennrichtlinie auf der CPU ausgewertet, wobei ein Inferenzdurchlauf 8 ms dauert. Die autonomen Drohnen verfügen über eine Intel RealSense Tracking Camera T265, die VIO-Schätzungen59 bei 100 Hz liefert, die über USB an den NVIDIA Jetson TX2 weitergeleitet werden. Die von Menschen gesteuerten Drohnen tragen weder einen Jetson-Computer noch eine RealSense-Kamera und sind stattdessen mit einem entsprechenden Ballastgewicht ausgestattet. Steuerbefehle in Form von kollektiven Schub- und Körpergeschwindigkeiten, die von menschlichen Piloten oder Swift erzeugt werden, werden an einen kommerziellen Flugcontroller gesendet, der auf einem STM32-Prozessor mit 216 MHz läuft. Der Fluglotse läuft mit Betaflight, einer Open-Source-Flugsteuerungssoftware45.

Die folgenden Zitate vermitteln die Eindrücke der drei menschlichen Champions, die gegen Swift antraten.

Alex Vanover:

Diese Rennen werden im Split S entschieden, es ist der anspruchsvollste Teil der Strecke.

Das war das beste Rennen! Ich war so nah an der autonomen Drohne, dass ich die Turbulenzen beim Versuch, mit ihr Schritt zu halten, deutlich spüren konnte.

Thomas Bitmatta:

Die Möglichkeiten sind endlos, dies ist der Beginn von etwas, das die ganze Welt verändern könnte. Andererseits bin ich Rennfahrer und möchte nicht, dass irgendjemand schneller ist als ich.

Wenn Sie schneller fliegen, müssen Sie Präzision gegen Geschwindigkeit eintauschen.

Es ist inspirierend zu sehen, welches Potenzial Drohnen tatsächlich bieten können. Bald könnte die KI-Drohne sogar als Trainingsgerät eingesetzt werden, um zu verstehen, was möglich wäre.

Marvin Schaepper:

Es fühlt sich anders an, gegen eine Maschine zu fahren, weil man weiß, dass die Maschine nicht müde wird.

Die Studie wurde im Einklang mit der Deklaration von Helsinki durchgeführt. Das Studienprotokoll ist nach den Regeln und Vorschriften der Universität Zürich von der Prüfung durch eine Ethikkommission ausgenommen, da keine gesundheitsbezogenen Daten erhoben werden. Die Teilnehmer gaben vor der Teilnahme an der Studie ihre schriftliche Einverständniserklärung ab.

Alle (anderen) Daten, die zur Bewertung der Schlussfolgerungen im Papier erforderlich sind, sind im Papier oder in den erweiterten Daten enthalten. Motion-Capture-Aufzeichnungen der Rennereignisse mit zugehörigem Analysecode finden Sie in der Datei „racing_data.zip“ auf Zenodo unter https://doi.org/10.5281/zenodo.7955278.

Pseudocode für Swift, der den Trainingsprozess und die Algorithmen detailliert beschreibt, finden Sie in der Datei „pseudocode.zip“ auf Zenodo unter https://doi.org/10.5281/zenodo.7955278. Um einen möglichen Missbrauch zu verhindern, wird der vollständige Quellcode dieser Forschung nicht öffentlich zugänglich gemacht.

De Wagter, C., Paredes-Vallés, F., Sheth, N. & de Croon, G. Schnelles Lernen im autonomen Drohnenrennen. Nat. Mach. Intel. Rev. 3, 923 (2021).

Artikel Google Scholar

Hanover, D. et al. Autonomes Drohnenrennen: eine Umfrage. Vorabdruck unter https://arxiv.org/abs/2301.01755 (2023).

Sutton, RS & Barto, AG Reinforcement Learning: Eine Einführung (MIT Press, 2018).

Mnih, V. et al. Kontrolle auf menschlicher Ebene durch tiefgreifendes Verstärkungslernen. Natur 518, 529–533 (2015).