Intelligence artificielle et vidéo : l’humain au cœur du process

13 décembre 2019 - Auteur : Muriel Le Bellac

L’intelligence artificielle, buzzword du moment, engendre son lot d’excitation mais aussi de craintes. Le remplacement des humains est la problématique la plus souvent évoquée. Et si nous voyions l’IA différemment ? Et si l’humain pouvait justement rendre l’IA plus intelligente et performante, ouvrant la voie à de nouvelles perspectives métiers ?

Je travaille dans le domaine de la vidéo professionnelle depuis une vingtaine d’années, et ce secteur est en profonde mutation. Dans ce domaine d’activité, l’arrivée de l’informatique dans les années 2000, puis du cloud en 2010, a modifié les schémas de fonctionnement traditionnels, tant au niveau technique qu’humain et commercial.
En effet, les infrastructures à mettre en place font désormais appel à des profils techniques différents : les formations réseaux et informatique prédominent, les techniciens et exploitants vidéos « classiques » se sentent délaissés par leur hiérarchie. L’arrivée du cloud amplifie ce ressenti car il ajoute un sentiment de dépossession de ses compétences actuelles. L’usage des services en ligne alimente les conversations et divise les équipes.
Or, nous ne sommes qu’au début de l’histoire : l’Intelligence Artificielle déboule et se cumule à ces deux changements importants. L’utilisation du cloud permet en effet d’envisager l’exploitation de ressources de calculs énormes, avec une capacité de traitement de données colossale, pour en tirer des règles, une logique, un tri. L’IA va à nouveau chambouler le rapport homme/machine et modifier le point d’équilibre.

Voir la vidéo

IA : de quoi parle-t-on exactement ?

Un algorithme seul, ce n’est pas de l’IA, malgré ce que de nombreuses sociétés mettent en avant. L’intelligence artificielle intègre en fait différentes technologies : le Machine Learning et le Deep Learning, entre autres.
Selon Forrester (source : ‘Machine learning, Deep learning, AI, Big Data, Data Science, Data Analytics’ par Dony Ryanto, Janvier 2019), le Machine Learning (ML) est un champ de l’IA qui utilise des techniques statistiques offrant aux systèmes informatiques une capacité d’apprentissage (c’est-à-dire une amélioration progressive des performances sur une tâche précise), basées sur les données, sans programmation explicite préalable.
Le Deep Learning (DL) concerne quant à lui un algorithme autonome basé sur un système neuronal, capable de produire des résultats comparables, voire supérieurs à ceux des humains. Il est particulièrement utilisé dans les domaines de la reconnaissance image et voix, la traduction automatisée, l’analyse d’image médicale, les filtres pour réseaux sociaux…

Lorem Ipsum

L’IA au service de la vidéo

Il y a 18 mois, mon équipe a justement débuté l’intégration de l’IA dans Eolementhe, notre plateforme web collaborative permettant aux médias, services marketing et RH de facilement traiter et livrer des vidéos.

Selon Gartner (source: ‘A Framework for Applying AI in the Entreprise”, Juin 2017): “En général, l’IA est mise à profit dans les activités digitales pour : (1) gérer la complexité, (2) effectuer des prédictions, (3) apprendre, (4) agir de façon autonome, (5) avoir l’air de comprendre (6) refléter un objectif très défini ou ciblé.”

Et dans le domaine de la vidéo, plusieurs cas d’usage peuvent facilement être envisagés dès lors qu’on parle d’apprentissage machine, de prédiction pour gagner du temps dans la détection d’objet, de lieux, de personnes, ou encore de transcription. En voici quelques-uns :

- Indexation : bases de documentation & archives
Les centre d’archives, médiathèques, centre de données multimédia d’organismes de formation ou de grands groupes, d’institutionnels… manipulent et stockent de très nombreuses vidéos, qui ont vocation à être réutilisées pour recréer du contenu sur une thématique donnée. Se pose alors la question de l’indexation de ce contenu sur la base de mots clés ou d’images.
Quelques exemples : identifier et recenser toutes les personnalités (politiques, sportifs, acteurs…) présentes dans une vidéo. Ou encore identifier des environnements (ville, plage, usine, gare, …), des objets (voiture, vélo,..), permettant de faciliter des recherches pour illustrer un sujet précis (une grève de train par exemple…).
L’intelligence artificielle ouvre la voie à l’extraction automatique et pertinente de ces données (avec dans ce cas une reconnaissance faciale), pour faciliter la réutilisation par les utilisateurs. Exit l’indexation manuelle, chronophage, coûteuse et source d’erreurs. L’Humain peut désormais se concentrer sur des tâches à plus forte valeur ajoutée.

- Tri avant la diffusion
Autre cas d’usage : la diffusion de contenu sur les chaînes TV, le web, les réseaux sociaux…, avec un tri préalable par l’IA, selon des critères prédéfinis par les spécificités du diffuseur. On pense par exemple à la détection de scènes, de visages, de mots…, pouvant répondre aux problématiques des chaînes thématiques, jeunesse ou aux particularités de certains pays (nudité, alcool…).

- Transcription et traduction pour sous-titrage
Faire reconnaître certains termes (terminologie métier, mots à proscrire, marques,...) à l'IA, de manière à ce qu'elle les apprenne et les intègre ensuite par elle-même, est un autre champ d’action possible. Le but étant de proposer un service de transcription très pertinent et efficace, pour ensuite générer des sous-titres multilingues de qualité. Les mots issus du sous-titrage peuvent également être utilisés en tant que «tags », pour faciliter l’indexation des medias.

- Le SEO, ou amélioration du référencement web
Dans la même veine, les métadonnées extraites par l’IA peuvent venir enrichir le référencement naturel des vidéos sur les moteurs de recherche (titre, tags, intervenants, transcription…) et permettre une plus grande visibilité.

Lorem Ipsum

Créer une boucle d’apprentissage complémentaire pour bénéficier du meilleur des deux mondes

C’est l’un des paradoxes de l’intelligence artificielle : elle a besoin de nous pour apprendre. Oubliez le mythe de l’intelligence artificielle toute puissante, dotée d’une conscience et capable de remplacer les humains dans toutes leurs facettes. Sans apprentissage, un outil d’intelligence artificielle est limité.

Plusieurs acteurs mondiaux travaillent sur l’intelligence artificielle au service de la vidéo : Google, Microsoft, IBM, mais aussi tous les éditeurs spécialisés sur un sujet spécifique (transcription, etc…).

Sur le marché BtoB, les éditeurs entrainent leurs IA en interne. Il n’y a pas de mutualisation d’apprentissage entre utilisateurs afin de limiter les risques d’erreurs dans les données récupérées. La donnée est fondamentale et doit impérativement être contrôlée (vous connaissez l’expression anglaise « garbage in = garbage out » ?).

En revanche, certains fournissent un logiciel « vide », charge à vous de l’entraîner selon vos propres besoins. D’ailleurs, de nouvelles technologies émergent pour permettre aux entreprises de développer leurs propres modèles d’apprentissage, sans les compétences (rares) d’experts ou de Data Scientists. L’Auto ML est l’une de ses tendances, permettant de créer des modèles de Machine Learning facilement.

Chez Videomenthe, avant même d’intégrer l’IA, nous avons fait le choix de combiner l’automatisation des services cloud et les actions humaines, pour assurer à nos clients un résultat rapide et qualitatif.

Pour aller plus loin, nos équipes travaillent actuellement sur l’intégration de Deep Learning et d’AutoML, mis à la disposition de l’utilisateur, de sorte qu’il puisse améliorer le mode automatique de la plateforme par ses propres données. Pour la transcription par exemple, une boucle d’apprentissage de l’IA est proposée au client, qui va enrichir le dictionnaire de la solution que nous pilotons. Le but ? Que les corrections humaines effectuées par nos utilisateurs viennent enrichir le compte IA de notre plateforme Eolementhe, mettant ainsi en place un cercle vertueux d’amélioration.

Nous nous dirigeons en fait vers une plateforme métier dont les fonctionnalités vont être améliorées par l’IA, elle-même enrichie de manière collaborative par notre communauté d’utilisateurs !

Lorem Ipsum

Intelligence artificielle et vidéo : l’humain au cœur du process

IA : de quoi parle-t-on exactement ?

Lorem ipsum dolor

L’IA au service de la vidéo

Lorem ipsum dolor

Créer une boucle d’apprentissage complémentaire pour bénéficier du meilleur des deux mondes