Le Bureau des Études Doctorales a le plaisir de vous informer que
Monsieur Guillaume SANCHEZ
Doctorant au laboratoire LIS rattaché à l’École Doctorale 548 « Mer & Sciences » (France)
soutiendra sa thèse en vue de l’obtention du Grade de Docteur
sous la direction de
M. Frédéric BOUCHARA, Maître de Conférence-HDR,Univ. de Toulon (France),
et le co-encadrement de
Mme Vincente GUIS, Ingénieure de Recherche, Université de Toulon (LIS),
&
M. Ricard Pau MARXER PINON, Maitre de Conférences-HDR, Université de Toulon (LIS),
Discipline : informatique
sur le thème
Création et exploitation de métadonnées pour la recommandation de contenu vidéo
Mardi 17 mai 2022 à 14h00
A l’Université de Toulon – Campus La Garde – Bâtiment M – Amphi M.001
devant un jury composé de
M. Andrea CHERUBINI, Professeur des Universités, Université de Montpellier (France), Rapportrice
M. Philippe JOLY, Professeur des Universités Université de Toulouse, (France), Rapporteur
Mme Christelle GODIN, Directrice de Recherche, CEA Grenoble (France), Examinatrice
Mme Vincente GUIS, Ingénieure de Recherche, Université de Toulon (France), Co-encadrante
M. Ricard Pau MARXER PINON, Maître de Conférences-HDR, Université de Toulon (France), Co-encadrant
M. Frédéric BOUCHARA, Maitre de Conférences-HDR Université de Toulon (France), Directeur de thèse
Résumé :
Le Deep Learning appliqué à la vision par ordinateur s’est révélé capable d’extraire de nombreux types d’informations sémantiques. De la classification à la localisation, ou à la segmentation sémantique au niveau du pixel, ces nouveaux algorithmes ont amélioré l’état de l’art de nombreuses tâches et de nombreux domaines. L’entreprise dans laquelle je travaille fournit des plates-formes de streaming vidéo à de nombreux clients. L’un d’entre eux souhaite concurrencer d’autres acteurs qui ont investi dans l’apprentissage profond afin d’améliorer leur expérience utilisateur. Notre objectif est d’extraire des informations sémantiques qui n’étaient pas accessibles auparavant afin de faire de meilleures suggestions personnalisées, de mettre l’accent sur le contenu de haute qualité et de proposer de nouvelles fonctionnalités de navigation et d’exploration du contenu. Ainsi, dans ce travail, nous explorons des tâches telles que l’identification de visage, la reconnaissance d’activité et les systèmes de recommandation en mettant l’accent sur la latence et la capacité de déploiement à grande échelle.
Nos contributions ont été réalisées en développant trois jeux de données à partir de notre contenu industriel. La première est une étude sur l’augmentation des données et les modèles pré-entraînés pour entraîner un classificateur à partir d’un ensemble de données d’activité pour notre domaine de données. Notre deuxième contribution est une étude sur l’apprentissage de classifieurs en présence de bruit d’étiquettes. Les contributions suivantes portent sur la reconnaissance des visages. Nous proposons une nouvelle fonction de perte, le Threshold-Softmax, visant à apprendre à partir d’échantillons négatifs, c’est-à-dire des visages dont l’identité n’est pas celle d’une des autres classes. Nous revenons de l’apprentissage métrique aux classificateurs standards et explorons quatre fonctions de perte pour exploiter davantage l’apprentissage négatif, en utilisant un jeu de données de visages étiquetés avec leur identité, de personnes célèbres dans le domaine de notre client. Nous proposons également un modèle d’échange de visages basé sur la VQVAE, ainsi qu’un nouvel algorithme pour améliorer l’algorithme de quantification vectorielle. Enfin, nous utilisons l’historique de navigation des utilisateurs premium afin d’apprendre un système de recommandation basé sur les métadonnées, visant à atténuer le problème du démarrage à froid pour les utilisateurs et les vidéos.
Creation and exploitation of metadata for video content recommendation
Collaborative video broadcasting platforms benefit greatly from the rise of deep learning for semantic analysis.
This work adresses the issues raised for facial recongnition, activity recognition, classification in the presence of label noise for metadata extraction, as well as an analysis of various recommender system strategies for their exploitation
Keywords: deep learning, video analysis, face recognition, vqvae