Computer Vision : les yeux de l’IA arrivent à maturité

>
Le secteur de la computer vision, branche de l’IA dédiée à l’analyse d’image en temps réel, est en plein expansion. Du grand public aux applications industrielles, elles transforment notre manière de traiter et d’interpréter les images du monde réel.

Une histoire de caméras

Voraces, les intelligences artificielles ont besoin de données textuelles, vidéo ou tabulaires pour progresser. Dans le domaine industriel, elle se nourrissent en particulier de données de capteurs, désormais omniprésents. Le plus familier d’entre eux est tout simplement la caméra qui équipe chaque smartphone ou chaque système de vidéo-surveillance. Augmentées par des solutions logicielles, ces dernières portent le développement d’une branche de l’IA consacrée à l’analyse d’image : la computer vision. “La vidéoprotection connaît une phase de croissance très importante. Le capteur qu’est la caméra est de plus en plus présent dans les villes. Selon nous, ce capteur de données est complètement sous-exploité”, explique Arnaud Delorme, responsable du développement commercial chez XXII. L’entreprise, fondée en 2015 et intégrée au programme Catalyst de Leonard, est une pionnière de la vision par ordinateur, dont on effleure encore le potentiel.

Un levier clé pour répondre aux défis industriels 

Les technologies d’analyse d’image en temps réel s’invitent néanmoins aujourd’hui dans une multitude de processus industriels. Sans prétendre à l’exhaustivité, on peut citer l’automatisation du contrôle qualité (Inspekto de Siemens) ou le comptage d’objets dans l’industrie (Cognex Machine vision). Dans les transports, la technologie est centrale dans le développement des véhicules autonomes, ou pour faciliter la gestion des flux urbains (Wintics Cityvision). En médecine, la vision par ordinateur formule des promesses pour le diagnostic (MedGemma de Google se spécialise dans l’interprétation d’images médicales) ou pour l’aide aux malvoyants (Seeing AI de Microsoft). Dans le retail, l’analyse des flux de clients (XXII) ou la gestion des inventaires (Simbe robotics) bénéficie de l’analyse d’image. Dans le domaine environnemental, la computer vision permet déjà de surveiller la vie marine (stream océan), ou de lutter contre le braconnage (SEE Shell de WWF). La liste pourrait s’étendre aux applications agricoles ou aérospatiales, dans un domaine qui invente chaque jour de nouvelles applications.

Pour XXII, l’avenir est à la multiplication des cas d’usage autour d’une seule et même caméra, dont les données pourront être utilisées par plusieurs métiers. “Nos solutions sont déployées au sein de la gare de Monaco. Et dans cet environnement, on va à la fois faire de la mesure de flux, du comptage de trains, du comptage d’humains… Cela permet d’anticiper les pics de fréquentation, d’optimiser les horaires des trains, mais aussi de faciliter l’orientation des voyageurs, d’optimiser l’efficacité des zones commerciales ou d’améliorer l’offre globale”, explique Arnaud Delorme.

Les nouvelles frontières

Le dynamisme du secteur s’accompagne assez naturellement d’un fort potentiel d’innovation. Le développement des modèles vision-langage (VLM) dessine ainsi un futur dans lequel image et texte peuvent être utilisés indifféremment par les solutions d’IA. Le développement de solutions légères, nécessitant des puissances de calcul raisonnables, permet également d’imaginer un déploiement massif des solutions, en particulier dans l’agriculture ou l’industrie. Des chercheurs de l’Université de l’Illinois ont ainsi développé un outil d’apprentissage automatique capable d’analyser l’état des cultures en utilisant un minimum de données annotées. D’autres s’inspirent du fonctionnement du cerveau humain pour réduire les ressources informatiques nécessaires à l’entraînement de modèles dont la gourmandise énergétique fait débat. “Nos technologies sont plus discrètes, plus légères. Les coûts ont été divisés par dix depuis 5 ans, ce qui rend nos solutions facilement industrialisables aujourd’hui”, explique Arnaud Delorme.

Data et vie privée, une technologie sulfureuse ? 

Pour la première fois en 2024, la loi relative aux Jeux olympiques et paralympiques a autorisé l’utilisation de solutions d’intelligence artificielle dans la vidéoprotection. Cette expérimentation, qui devrait se poursuivre, réveille des craintes liées à la généralisation des systèmes de surveillance. “Quand on parle de computer vision, on pense immédiatement à la RGPD, à la réglementation et à la confidentialité des données. Il y a beaucoup de confusion dans l’esprit collectif sur le fonctionnement des technologies et sur la nature du traitement algorithmique sur un flux vidéo. C’est à nous de faire de la pédagogie sur le cadre législatif dans lequel on évolue. Nos technologies respectent les recommandations de la CNIL et de la RGPD. Nous n’enregistrons aucune donnée personnelle, aucune image. Nous convertissons un flux vidéo en données exploitables”, précise Arnaud Delorme.

Portée par une arrivée à maturité technologique, par une structuration (encore lente) du cadre réglementaire, et par une capacité nouvelle à industrialiser les solutions, l’analyse d’image dôte l’intelligence artificielle d’une capacité de vision susceptible de transformer à termes en profondeur les processus de production, de contrôle et de décision dans les environnements urbains.

Partager l'article sur