Pourquoi le Congrès et le DoD devraient se concentrer sur une plateforme de formation sur les données pour rendre l’IA plus précieuse | Réseau fédéral de nouvelles

Pourquoi le Congrès et le DoD devraient se concentrer sur une plateforme de formation sur les données pour rendre l’IA plus précieuse | Réseau fédéral de nouvelles

15 juin 2020 Non Par Chris Gratt


Toute l’intelligence artificielle, que ce soit pour lutter contre les coronavirus ou pour combattre de futurs essaims de drones, dépend actuellement d’une seule chose: des données d’entraînement de qualité. De bonnes données signifient la différence entre manquer une cible en mouvement et la frapper entre les yeux. Et développer de bonnes données nécessite une plate-forme de formation (TDP), un logiciel conçu pour gérer d’énormes quantités de données afin que les systèmes d’IA puissent les lire.

Bien que les scientifiques du gouvernement et du secteur privé en soient bien conscients, il est essentiel que le Congrès et les hauts responsables militaires les comprennent, car la collecte et la préparation de données sur une formation de qualité prennent du temps et de l’argent. Dans l’intervalle, des dirigeants informés sont nécessaires pour allouer du temps et de l’argent.

Le Joint Artificial Intelligence Center (JAIC) du Pentagone crée une plate-forme qui permettra aux scientifiques des données du ministère de la Défense d’accéder à des ensembles de données, à des bibliothèques de codes et à d’autres plates-formes certifiées pour accélérer le développement et la mise en œuvre de systèmes compatibles avec l’IA.

La Commission de la sécurité nationale sur l’IA, quant à elle, a recommandé au Congrès de créer une ressource nationale de recherche sur l’IA qui comprendrait une collection de données consultables pour développer un modèle d’apprentissage automatique pour les solutions de sécurité nationale.


Ces deux initiatives sont essentielles si elles espèrent conserver un avantage sur leurs adversaires, en particulier la Chine, car l’IA est susceptible de déterminer quel pays gagnera dans le domaine de la sécurité économique et nationale.

Il existe trois composants de base de l’IA tels que nous les connaissons aujourd’hui: les algorithmes, les données et la puissance de calcul.

Les algorithmes sont largement publics.

La puissance de calcul est omniprésente grâce aux fournisseurs de services cloud tels qu’Amazon Web Services, qui donnent à toute personne disposant d’une carte de crédit et d’une connexion Internet un accès à d’énormes collections d’ordinateurs à haut débit de partout dans le monde.

Les données, spécialement les données marquées, sont la partie la plus critique et la plus présente des systèmes d’IA.

Il existe de nombreux types d’IA, mais actuellement le plus efficace – dont presque tout le monde parle quand ils disent «AI» – est l’apprentissage supervisé. Dans l’apprentissage de la supervision, les algorithmes de réseau écrits dans des blocs massifs de code informatique sont enseignés selon des modèles qu’ils devraient reconnaître, qu’il s’agisse de camps ennemis dans des images de drones ou de signes qu’un camion est sur le point de s’écraser.

Pour que les algorithmes apprennent à faire attention, les gens reçoivent des dizaines de milliers, voire des millions, de points de données soigneusement étiquetés. Par exemple, après avoir vu des milliers de détenus militaires, ainsi que des milliers d’images qui peuvent ressembler à des détenus militaires mais ne le sont pas, les algorithmes deviennent experts pour détecter des choses réelles plus rapidement et plus précisément que les humains.

La préparation des données pour l’intelligence informatique nécessite un TDP conçu pour stocker des milliers, des dizaines de milliers ou des millions de fichiers de données organisés avec une interface intuitive qui suit de nombreuses conventions de logiciels grand public. L’accès à ces données est coordonné par des centaines ou des milliers de personnes avec le tag.

Mais un bon TDP fait beaucoup plus: il permet aux scientifiques des données de détecter les biais dans les ensembles de données et de les corriger. Par exemple, la surveillance d’un déséquilibre dans un ensemble de données peut alerter les équipes de données scientifiques sur la nécessité de collecter davantage de données sur les cas dits angulaires, situations relativement rares que les algorithmes devraient néanmoins apprendre à reconnaître.

Un bon TDP lui-même apprend ce qu’il faut rechercher dans les données et les données avant l’étiquetage, les marqueurs n’ont donc qu’à vérifier l’exactitude, ce qui accélère le processus. Il permet une formation facile des marqueurs de données et fournit des fonctionnalités de contrôle de qualité qui peuvent identifier les marqueurs qui font des erreurs et nécessitent plus de formation. Et un bon TDP vous permet de surveiller la version d’un ensemble de données et crée une piste d’audit afin que les équipes de science des données puissent extraire la base de données si sa précision diffère ou au moment où des changements problématiques se produisent.

La Chine produira bientôt plus de données chaque année que tout autre pays, selon la firme de recherche internationale International Data Corp. Grâce à sa «fusion militaro-industrielle», une grande partie des données collectées par les services commerciaux omniprésents est à la disposition de la sécurité nationale du pays d’établissement.

Le JAIC Joint Foundation Center est un bon début pour contrer cet avantage. La recommandation du NSCAI de créer une ressource nationale pour la recherche en IA serait une étape encore plus importante.

Mais non seulement l’institution de sécurité nationale a besoin de données, qui peuvent être consultables et disponibles, plutôt que détectées, elle doit les étiqueter de manière appropriée. La JAIC sait faire cela, tout comme d’autres équipes discrètes du ministère de la Défense. Mais la communauté du renseignement est toujours mariée à des protocoles de marquage sophistiqués qui ne sont pas lisibles par machine et ne sont pas utiles pour les modèles d’IA.

Il y a environ 18000 analystes dans la communauté du renseignement américain, dont beaucoup observent de près les données collectées depuis des décennies. Mais 18 000 analystes ne suffisent pas à rassembler les informations issues de toutes les données collectées aujourd’hui.

Les satellites prennent des photos de chaque point de la terre quotidiennement. Des milliers de vols et de drones de surveillance aérienne prennent des séquences vidéo du monde entier, et certaines résolutions peuvent atteindre quelques pouces. Combinées aux journaux de discussion, aux interceptions téléphoniques, au trafic radio et aux e-mails, ces données peuvent fournir aux États-Unis une extraordinaire réalité quasi visible dans le monde réel. Il existe désormais des outils d’IA pour analyser toutes ces données et signaler les anomalies, ce qui réduit l’espace de concentration des analystes humains.

Mais pour que les systèmes d’IA puissent faire le travail, un sous-ensemble de ces données doit être étiqueté de manière appropriée – non pas pour les humains, mais pour les machines. Le ministère de la Défense marque déjà des images de drones pour l’IA. Le projet Maven est l’effort le plus célèbre.

Mais les communautés du renseignement continuent de travailler avec des feuilles de calcul électroniques pour produire des données qui, les systèmes d’IA, sont à bien des égards plus sophistiqués que les données d’IA standard. L’institution de sécurité nationale bénéficierait grandement d’un protocole d’étiquetage lisible par machine qui s’intégrerait parfaitement dans la pratique actuelle de la communauté du renseignement.

La bonne fonctionnalité TDP avant l’étiquetage pourrait être adaptée pour prendre des données marquées par l’homme à partir de feuilles de calcul d’unités légères de la communauté du renseignement et les pré-étiqueter pour les systèmes d’IA, en utilisant des données héritées de dix ans étiquetées par des analystes humains.

Les ensembles de données labellisés sont essentiels à la précision du système d’IA. La National Security Institution a besoin d’un processus d’étiquetage unique pour garantir que les ensembles de données respectent les normes de qualité qui rendront les systèmes d’IA américains aussi précis que possible. Le Congrès devrait adopter les recommandations de la NSCAI pour une ressource nationale pour la recherche sur l’IA dans le National Defense Approval Act 2020 et normaliser l’étiquetage des données au sein du gouvernement américain.

Manu Sharma est le co-fondateur et PDG de Labelbox, une société de développement de plateformes d’IA et ingénieur en aérospatiale.