Les « Google de la CCTV » : la surveillance à l’heure de l’IA

À court terme, la reconnaissance visuelle est un des champs les plus prometteurs de l’intelligence artificielle. Parmi ses multiples applications : la vidéosurveillance, qui se transforme pour prendre les contours de l’analyse intelligente de flux vidéos. Non, pour l’heure, sans quelques faux-positifs…

Caméra de vidéo surveillance

L’idée de placer l’espace urbain sous le “regard” permanent des autorités est née au XVIIIe siècle, mais il a fallu attendre les années 1990 pour que la vidéosurveillance, récemment rebaptisée vidéoprotection, se généralise en ville. Son déploiement a dû attendre les (récentes) technologies de multiplexage, un moyen – rentable –  de faire tourner plusieurs caméras en même temps.

« L’œil du pouvoir » dont parlait le philosophe Michel Foucault poursuit sa sophistication technologique : de manière décisive, depuis quelques mois, il est en voie de se transformer en « cerveau ». Les industriels se bousculent en effet pour appliquer l’intelligence artificielle aux caméras de surveillance – et parvenir ainsi à une reconnaissance automatisée des personnes et événements filmés. Des expériences récentes, à Londres, ont certes produit beaucoup de faux-positifs (des personnes identifiées à tort comme suspectes par le système), mais les technologies s’affinent. Au CES, Somfy a ainsi annoncé le lancement à l’été d’une caméra de surveillance d’extérieur détectant « intelligemment » et « sans fausse alerte » les intrusions, en plus de fonctionnalités favorisant un usage grand public  : vidéo enregistrée consultable en live sur smartphone, envoi d’alertes en temps réel, stockage automatique dans le cloud, etc. Outre l’algorithmique, la vidéoprotection “intelligente” s’appuie sur la combinaison de l’edge computing, qui permet d’embarquer des fonctions d’analyse intelligente des images directement dans la caméra, et d’architectures distribuées mêlant cloud public et clusters privés.

De la détection à l’alerte

XXII, une startup française, a elle récemment présenté une plate-forme qui analyse les images de modèles de caméra déjà en circulation. Grâce au machine learning, elle promet de rendre possible la détection des « dynamiques corporelles » mais aussi des émotions qu’elles trahissent. Une application permettant de reconnaître objets, visages, chutes ou émotions est par exemple déjà proposée à la vente, tandis que XXII planche sur de prochains usages plus élaborés. Il s’agit de détecter l’indétectable, mais aussi d’automatiser la détection à l’alerte – sans besoin de communication intermédiaire avec un QG de surveillance devenu ainsi obsolète. XXII est aussi basée en Chine, où le marché est plus prometteur : le traitement des données biométriques est moins réglementé et la reconnaissance faciale s’y généralise déjà.

Outre-Atlantique, c’est un « Google de la CCTV » qui s’est lancé fin 2017 puis au CES : IC Realtime commercialise un logiciel, baptisé Ella, qui permet la recherche d’informations dans un flux d’images envoyé par un réseau de caméras de surveillance. Avec Ella, ce n’est plus tant la surveillance en temps réel qui compte, que la constitution d’une gigantesque base de données dans le cloud : un index d’images pouvant être interrogé via un moteur de recherche. Après un cambriolage dans un parc industriel, par exemple, on peut donc rechercher dans le flux d’images des termes comme « un homme habillé en rouge » ou « une voiture de marque Jeep » et voir surgir d’éventuelles occurrences. D’autres acteurs, comme Boulder AI, proposent à la fois caméras et plate-forme analytique, permettant même un visionnage des flux vidéos hors connexion.

De nouveaux champs d’application

Ces technologies appellent bien d’autres applications, et certains acteurs du secteur, à l’image de Deepomatic, se repositionnent d’ailleurs sur la « reconnaissance visuelle ». Google, Facebook et IBM, qui ont les capacités de calcul requises et peuvent entraîner leurs algorithmes sur de vastes jeux de données vidéo, sont les acteurs à suivre dans ce marché naissant.
La prochaine frontière consiste en l’analyse  prédictive : des caméras intelligentes pourraient par exemple, dans un lycée ou une prison, émettre une alerte avant que n’éclate une bagarre. Outre le challenge technologique, d’autres défis éthiques et comportementaux attendent ces acteurs. Les stratégies d’obfuscation d’usagers cherchant à se dissimuler de la vidéosurveillance se structurent. Surtout, le traitement des données personnelles biométriques, les biais algorithmiques possibles susceptibles de créer des caméras sexistes ou racistes, et les cas d’utilisations exotiques de ces dispositifs (comme la reconnaissance de l’orientation sexuelle par analyse photo) annoncent des débats de société hautement sensibles.