Het juiste visionsysteem voor de juiste drone

unsplash drone

Van kleine sensormodules tot kunstmatige intelligentie - er zijn verschillende technologieën en beeldverwerkingsalgoritmen om drones te laten zien. Elke toepassing stelt andere eisen aan het visionsysteem en is afhankelijk van de beschikbare ruimte binnen de drone en de vereiste beeldkwaliteit. Dr. Frederik Schönebeck van FRAMOS sprak op de VDI-conferentie over ‘Civil Drones in Industrial Use’ en beschreef de criteria voor toepassingen in cartografie, objectherkenning en navigatie, evenals de relevantie van kunstmatige intelligentie voor drones.

vision1

Fig. 1: Sensorformaten.

Een visionsysteem bestaat in de meeste gevallen uit een beeldsensor, een processormodule, een lensvatting en een lens. Voor drones moet een visionsysteem bijzonder klein en licht zijn. Het moet weinig invloed ­hebben op de vluchtprestaties. Daarnaast zijn een hoog rendement en een lage warmteontwikkeling belangrijk, omdat er meestal maar een ­beperkte stroomvoorziening aan boord is, en dus elke onttrekking aan deze stroomvoorziening van invloed is op de afstand die een drone kan vliegen. Uitsluitend beeld- en videostreams, waarbij de drone geen ­verdere acties afleidt op basis van de scène, worden niet-functionele toepassingen genoemd. Functionele toepassingen daarentegen gebruiken deze beelden uit het visionsysteem om te navigeren. Voor het vermijden van botsingen bijvoorbeeld. Of om op basis van de waarneming specifieke trackingacties te starten. Door het gebruik van vision-technologie zijn functionele drones intelligenter en grotendeels autonoom. In beide gevallen moet de beeldkwaliteit een exacte analyse mogelijk maken en voor functionele taken moeten deze beelden in realtime aan boord ­worden verwerkt. Vooral de combinatie van de criteria - denk aan de grootte, het gewicht, de efficiëntie, de beeldkwaliteit en de verwerking - is een grote uitdaging. Zelfs voor embedded vision. Een zorgvuldige ­selectie en combinatie van de afzonderlijke componenten is dan ook ­vereist.

Hoge eisen embedded vision en beeldsensoren

De meest geschikte beeldsensor voor drones en embedded visionsystemen is een CMOS-sensor. Deze nieuwe industriestandaard bereikt hogere snelheden en een betere beeldkwaliteit dan zijn CCD-tegenhangers door zijn architectuur, maar is ook aanzienlijk kleiner in omvang. Ontwikkelaars kunnen kiezen tussen global shutter en rolling shutter uitlezingen, afhankelijk van hun toepassingsbehoeften. Met een Global Shutter (GS) worden alle pixels tegelijkertijd belicht, waardoor de beweging in het beeld virtueel wordt bevroren en de bewegingsonscherpte of -vervorming die in de beelden wordt vastgelegd, wordt verminderd. GS-sensoren zijn daarom geschikt voor het maken van foto’s in hogesnelheidstoepassingen met veel beweging. Het complexe pixelontwerp resulteert echter in grotere pixels, dus grotere sensorafmetingen en duurdere kosten per eenheid. 

vision2

Fig. 2: Field of view voor sensor.

De rijen pixels in een rollende shutter (RS) worden achter elkaar belicht, wat tijdens de beweging artifacten in het beeld kan veroorzaken. Het ontwerp van RS-sensoren is minder complex, wat resulteert in een ­hogere gevoeligheid, terwijl ze kleiner en minder duur zijn in vergelijking met global shutter. Drone-ontwikkelaars moeten zorgvuldig rekening houden met alle voor- en nadelen die deze sensoren bieden bij het kiezen van een sensor voor hun systeem. 

“Een grotere sensor betekent altijd het gebruik van een grotere lens en een groter totaalsysteem. Dit heeft invloed op het gewicht, de prijs en het stroomverbruik, allemaal belangrijke kenmerken bij het ontwerpen van drones. De voordelen en kosten moeten precies worden afgewogen ­tegen de behoeften van de toepassing”, aldus Frederik Schönebeck. 

Opmerking: Bewegingsartefacten veroorzaakt door de sluiter kunnen het SLAM-algoritme en dus de inschatting van de houding van een drone beïnvloeden. Deze interferenties kunnen worden geminimaliseerd door de interactie van de beeldsensor met de gegevens van een IMU-sensor (traagheidsmeeteenheid). Het samenvoegen van beeldgegevens met IMU-gegevens heeft als bijkomend voordeel dat de positionerings­informatie voor de drone in de driedimensionale ruimte beter is, wat ­resulteert in een stabieler en veiliger vlieggedrag.

Breng het in kaart

Kaarttoepassingen maken gebruik van drones om hoge-resolutie kaarten te maken. Ze vliegen meestal over het gebied dat op grote hoogte in kaart moet worden gebracht. Visionsystemen voor het in kaart brengen van drones moeten een zeer hoge resolutie bieden, waarbij de ­beeldkwaliteit het belangrijkste criterium is, soms zelfs tegelijkertijd in meerdere frequentiebanden. 

Grootformaatsensoren met een resolutie van 50 tot 150 megapixels en een dynamisch bereik van >74dB bieden een zeer goede beeldkwaliteit en zijn bijzonder geschikt voor karteringsdoeleinden. 

vision3

Fig. 3: Quad-Bayer pixel structuur in normale en HDR-mode en met verschillende resoluties maar dezelfde beeldkwaliteit.

Een grote sensor met een hoge resolutie biedt het voordeel dat met één opname een groter gebied kan worden opgenomen. Dit maakt een ­snellere overvlucht en een efficiëntere meting mogelijk. 

De drone brengt het aardoppervlak in kaart vanaf grote hoogtes zodat de relatieve snelheid waarmee de drone over de aarde beweegt laag is en de resulterende bewegingsartefacten in het beeld minimaal zijn. Zij kunnen desgewenst volledig worden geëlimineerd middels een mechanische sluiter. In veel gevallen is een zuinigere rolling shutter sensor voldoende voor mapping met drones. Maar voor hoge resolutietoepassingen zijn grote sensoren met grote lensmounts en lenzen nodig. Zij vragen dan ook aanzienlijk meer installatieruimte binnen het droneontwerp, waarbij ook ruimte gehouden wordt voor mechanische beeldstabilisatie, lensstabili­satoren, een gimbal of vergelijkbare compensatiemethoden. Schönebeck: “In principe zijn mapping-toepassingen in drones geavanceerde meet­systemen die gebruikmaken van nauwkeurige beeldverwerking.” 

Om tijd te besparen en een goede basis te bieden voor het in kaart brengen van de grond, worden de gemaakte beelden bij voorkeur aan boord van de drone voorbewerkt via FPGA-processoren. De ontwikkelaars ­moeten zorgen voor een sterke processorarchitectuur en voldoende ­geheugencapaciteit om deze grote hoeveelheid gegevens op te slaan. De uiteindelijke verwerking gebeurt dan offline na de dronevlucht. Het ­visionsysteem heeft dus geen mobiele datatransmissie nodig. Om een hogere nauwkeurigheid en extra meetgegevens te genereren, wordt vaak lidar aan het visionsysteem van drones toegevoegd. Dergelijke ­combinaties en interfaces verhogen de complexiteit van ontwerpen en architecturen die in de tijds- en resourceplanning moeten worden mee­genomen.

Videobewaking

Drones zijn de nieuwe norm in bewaking en beveiliging. Ze maken de observatie en inspectie van moeilijk toegankelijk terrein en uitgestrekte gebieden mogelijk, terwijl ze onopvallend en mobiel zijn. Videostreaming is daarom een van de meest voorkomende toepassingen voor drones. De onbemande vliegende objecten moeten klein zijn en ogen hebben in de ware zin van het woord. 

Belangrijke factoren voor de ontwikkeling van drones met videostreaming in de bewaking zijn de grootte, het gewicht en de kosten. Meestal worden sensoren gekozen met resoluties tussen 1 en 10 megapixels, met een optisch formaat van maximaal 4/3 inch of kleiner. Naast de sensor, de lensvatting (M12 tot 4/3 inch) en de lens, zijn de bewakingsdrones meestal uitgerust met een toepassingsspecifieke ISP. De drone evalueert de bewakingsbeelden in realtime en kan vervolgacties in functionele ­systemen initiëren. 

“Voor hoogwaardige beeldanalyse en -evaluatie, met name onder slechte lichtomstandigheden of in 24-uursbedrijf, vereisen realtime toepassingen in de beveiligings- en bewakingssector sensoren met een hoog dynamisch bereik en hoge beeldsnelheden”, aldus Schönebeck. 

Bovendien zijn bij bewakingsdrones de belangrijkste criteria voor de ­selectie van sensoren grote pixels met een hoge full-well capaciteit, HDR-modi en een lage signaal/ruis-verhouding. Ook kan het dynamisch bereik worden vergroot voor een hoger contrast en scherpere beelden, zonder dat er bewegingsartefacten worden geïntroduceerd. Speciale bewakingssensoren, zoals Sony’s IMX294, met zijn Quad-Bayer structuur, geven in de normale modus 2x2 pixels uit, zodat vier pixels kunnen worden ­gecombineerd om een 'super pixel' te creëren voor een hoger dynamisch bereik. In de HDR-modus zijn twee pixels van deze quad-array geïntegreerd met een korte belichtingstijd, terwijl de andere twee pixels een lange belichtingstijd hebben (Fig. 3). Dit elimineert de temporele scheiding tussen de korte en lange belichtingstijd, waardoor HDR-beelden van bewegende objecten met minimale artefacten kunnen worden gegenereerd (Fig. 4). 

vision4

Fig. 4: Quad-Bayer HDR-beeld toont slechts kleine artifacten.

Voor de nachtbewaking kunnen extra functies, zoals infraroodverlichting die in het visionsysteem is geïntegreerd, de beeldregistratie en -herkenning verbeteren. Als er veel veranderingen in de richting of versnellingskrachten optreden binnen de toepassing, moeten extra opties voor mechanische, optische of elektronische beeldstabilisatie worden overwogen. Als het elimineren van bewegingsartefacten een van de belangrijkste criteria in een toepassing is, moet vanaf het begin een sensor met een global shutter worden geselecteerd. Voor videocodering adviseert ­Schönebeck H.264 / H.265 codering voor drones. De codering comprimeert de beeldgegevens met een minimaal kwaliteitsverlies. Dit vereist minder opslagruimte op het opslagmedium of een lagere bandbreedte voor realtime transmissie via wifi of 3G/4G/5G-netwerken.

Tracking en identificatie

Functionele drones gebruiken vision-based tracking om zichzelf te lokaliseren binnen hun omgeving en om te navigeren rond en door de ruimte, op basis van hun gedefinieerde vluchtpad. Tracking stelt Follow-Me drones in staat een mens te volgen of om allerlei obstakels heen te vliegen. Concreet gebruiken drones de 2D- of 3D-beeldgegevens van een visionsysteem om hun omgeving en objecten te identificeren. Op basis van deze gegevens kan de drone zichzelf besturen, zijn vliegrichting en snelheid aanpassen, landen, vermijden en objecten volgen. De visiedata is gedeeltelijk gefuseerd met gegevens van andere sensoren, zoals IMU’s, voor een nauwkeurigere inschatting van de positie en oriëntatie over alle zes vrijheidsgraden in de driedimensionale ruimte. Bij traceringstoepassingen is de beeldkwaliteit minder belangrijk omdat het beeld direct door de processor wordt geëvalueerd en de camera in wezen als een sensor werkt.

Het camerasysteem van een drone, dat gebaseerd is op tracking, is meestal diep ingebed in het besturingssysteem van de drone en is vrij klein. Sensoren met een 1/3-inch formaat met een resolutie tot 2 megapixels in combinatie met M12-lenzen vertegenwoordigen de maximale afmetingen die nodig zijn. Ze zijn verbonden met complexe SoC-computing­architecturen, bestaande uit CPU, FPGA en ISP, en bevatten veel interfaces met andere systemen aan boord van de drone. Met deze complexiteit moet rekening worden gehouden bij het berekenen van de ontwikkelings- en integratietijd van een nieuw droneontwerp. 

vision5

Fig. 5: Artificial intelligence helpt drones om objecten en personen beter te identificeren.

“Om bewegingsartefacten te minimaliseren en de precisie van de trackinggegevens te maximaliseren, wordt het gebruik van global shutter sensoren aanbevolen”, zegt Schönebeck. Voor het snel en eenvoudig ­genereren van 3D-data kunnen stereovisiecamera’s of -systemen en TOF (Time of Flight) sensoren worden gebruikt. De gegevens die door deze apparaten worden gegenereerd, worden automatisch door de SoC geëvalueerd om autonoom vervolgbeslissingen te nemen. Omdat de tracking drones zich niet richten op de kwaliteit van het opgenomen beeld, stellen ze meestal extreme eisen met betrekking tot zeer kleine afmetingen, licht gewicht en lage kosten.

Kunstmatige Intelligentie en Objectherkenning

Deep learning algoritmen of kunstmatige intelligentie zorgen voor meer veiligheid voor drones door het nauwkeuriger vermijden van botsingen en/of het autonoom volgen van objecten en personen mogelijk te maken. Om botsingen te vermijden moet de drone zelfstandig en in realtime ­obstakels zoals muren, bomen of andere objecten detecteren en precieze ontwijkende manoeuvres uitvoeren. Tijdens het volgen van taken detecteert de drone automatisch het betreffende object en kan deze automatisch volgen. 

Voor deze taken trainen neurale netwerken de software om objecten te herkennen. Er zijn minstens 10.000 beelden, soms wel enkele miljoenen, nodig om betrouwbare testgegevens te leveren voor het machinaal leren op een krachtige computer zoals een GPU. De resultaten van deze berekeningen maken het mogelijk dat objectherkenningsalgoritmen op een kleine, energiezuinige processorarchitectuur, zoals een ASIC-chip, kunnen draaien.

AI en Stereo Matching

Neurale netwerken helpen niet alleen bij de objectherkenning, maar ook bij het daadwerkelijk creëren van diepte-informatie in een 3D-camera en leiden tot preciezere resultaten. Stereovisie maakt gebruik van afstandsbepaling door driehoeksmeting tussen twee camera’s om de 3D-data te genereren. Dit verschil wordt berekend door de stereoweergave van twee respectieve referentiepunten in het linker- en rechterbeeld. De ­resulterende ‘dense disparity map’ bevat de derde dimensie als kleur­codering. Hoe kleiner het verschil en hoe donkerder het betreffende punt wordt weergegeven, hoe verder het van de camera verwijderd is. De training op neurale netwerken maakt gebruik van een beeld, zoals het linker beeld, als een vergelijkende dataset. Het rechterbeeld functioneert als ‘ground truth’. Voor stereomatching is deze trainingsdata geoptimaliseerd voor de specifieke toepassing in termen van afstand, perspectief en ­omgeving. Hierdoor kunnen de randen van objecten robuuster worden gedetecteerd en kunnen zogenaamde ‘vliegende pixels’, dat wil zeggen uitschieters in de dieptekaart, worden geminimaliseerd. Daarnaast wordt een ‘vertrouwenskaart’ gemaakt, die helpt om de kwaliteit van de ­gecreëerde diepte-informatie in te schatten en zo robuustere beslissingen te nemen.

Overwegingen voor droneontwikkelaars

In principe kan het gezegd worden: elke dronetoepassing is anders en vereist een uniek en specifiek geoptimaliseerd camerasysteem. Het is ­belangrijk om het beste compromis te vinden tussen beeldkwaliteit, stroomverbruik, rekenkracht, grootte en gewicht. Met name de gewenste beeldkwaliteit, de gevoeligheid voor bewegingsartefacten en de keuze van de optimale sensor beïnvloeden de grootte van het totale systeem. Dit geldt in het bijzonder voor drones die vertrouwen op embedded vision waarbij hun camera’s diep in het elektronische ontwerp van de drones zijn geïntegreerd. Interfaces met andere dronesystemen verhogen de complexiteit van de architectuur, waardoor het ontwerp en de integratietijd voor nieuwe drone-ontwikkelingen toenemen. Krachtige on-board verwerking is ook nodig om de drone via beeldgegevens in realtime te besturen, wat het stroombudget kan opgebruiken. Kunstmatige intelligentie zoals neurale netwerken verbeteren de precisie van autonome dronebesturing en objectherkenning, waardoor deze algoritmen op ­kleine ASIC’s kunnen werken. Gezien al deze factoren kan een drone-ontwerper prestaties inruilen voor kracht of ruimte. Het op voorhand ­kennen van alle factoren die het ontwerp van een drone kunnen ­beïnvloeden, helpt om betere beslissingen te nemen, om de kosten te minimaliseren en tegelijkertijd de prestaties te maximaliseren.

vision6

Fig. 6: Neurale netwerken helpen bij stereo matching bij het nauwkeurig detecteren van randen.