Tout savoir sur la compréhension du contenu par la machine

Le 28 janvier 2021

36 minutes

Partager sur :

Les participants

Kévin Pinto David Eichholtzer Brice Narjoux

Pour ce 19^e numéro du Wamcast, les équipes de WAM-Référencement se penchent sur le sujet de la compréhension du contenu par la machine. Retrouvez dans cet épisode un point très complet sur la question, qui vous est proposé par Saad Alaoui Chrifi, Data Scientist, Brice Narjoux, chef de projet SEO et responsable du pôle SI, et David Eichholtzer, le directeur et fondateur de WAM-Référencement.

De quels contenus et de quelle machine parle-t-on ? (1’22)

Avant d’aborder le sujet clé de la compréhension du contenu par la machine, on peut déjà simplement se demander de quels contenus et de quelle machine on parle.

Première étape : faire la distinction entre les différents formats de contenus. Il y a bien évidemment le contenu « texte », comme ceux que l’on produit chez WAM, et qui vont composer la majorité des contenus. Viennent ensuite les contenus visuels, qui englobent les photos, les images d’illustration ou encore les infographies, puis le contenu audio – comme le Wamcast, par exemple ! – et enfin la vidéo, mix du visuel et de l’audio.

Le sujet est donc particulièrement vaste puisque chaque typologie de contenus correspond à des besoins pour les entreprises, et à des solutions d’intelligence artificielle adaptées.

Côté machine, il s’agit de tous les appareils capables d’appliquer des algorithmes de Machine Learning – apprentissage automatique en français – à un domaine d’application. Pour faire simple, ces algorithmes permettent de découvrir des motifs récurrents dans un ensemble de données. Cela peut être des chiffres, des caractères, des mots, des images, etc.

Tout est stocké et analysé de manière mathématique dans ce que l’on peut appeler un « cerveau virtuel », les fameux réseaux de neurones, pour calculer des probabilités et des prédictions. Plus on envoie de données dans ces cerveaux, plus les algorithmes apprennent et améliorent leurs performances dans l’exécution d’une tâche spécifique.

👉 Retrouvez toutes les explications de Brice Narjoux, chef de projet SEO et responsable du pôle SI chez WAM, dès la première minute de ce Wamcast.

Comment fonctionne l’analyse des contenus ? (4’15)

Pour rendre plus concrète cette problématique de la compréhension du contenu par la machine, prenons un exemple : le traitement du langage naturel, également appelé NLP. Cette technologie a pour enjeu de lire, de déchiffrer, de comprendre et même de donner un sens au langage humain, comme le ferait une intelligence humaine.

En regardant les solutions proposées par Google ou Microsoft, on peut lister toute une série d’applications et faire le lien avec des problématiques SEO classiques. Si on commence avec les contenus texte, on peut noter la classification ou la catégorisation automatique. C’est un élément primordial du NLP puisque cela va déboucher sur des améliorations dans la recherche web, comme l’algorithme BERT au sein de Google (voir ci-dessous). Mais on peut aussi mieux filtrer les informations, détecter la langue utilisée, évaluer la lisibilité d’un texte et même analyser le sentiment général qui ressort des avis utilisateurs.

La reconnaissance d’entité nommée, chère au Knowledge Graph de Google, est facilitée : on peut détecter automatiquement la mention de villes, de personnages, etc. On retrouve aussi que l’on appelle l’étiquetage morpho-syntaxique, qui permet de faire de l’analyse sémantique. Pour résumer : on peut reconnaître les noms communs, verbes, adverbes et prépositions qui composent une phrase. Une fonctionnalité très utile pour la conversion de texte en paroles ou l’extraction d’informations !

Si cela peut paraître technique, ce sont en fait des principes fondamentaux qui débouchent sur des applications concrètes dans la vie de tous les jours.

L’analyse sémantique aide les chatbots ou les répondeurs automatiques des services clients à répondre à des questions.
La détection de spam ou de paraphrases fournit des réponses pertinentes sur des forums et des foires aux questions, et isole le duplicate content dans les contenus.
La génération et le résumé de texte peut concerner des rapports financiers, des synthèses de plusieurs documents, des prévisions météorologiques, les résultats sportifs du weekend, etc.
La reconnaissance de caractère et la détection d’objet dans les images et les vidéos a donné naissance à Google Lens.
La reconnaissance vocale est désormais très utilisée au quotidien, sur nos smartphones et nos objets connectés.
La traduction automatique permet de retranscrire des vidéos ou des podcasts, de générer des sous-titres dans plusieurs langues, etc.

👉 Les analyses de Brice Narjoux et de David Eichholtzer sont à retrouver dès la 4^e minute de ce Wamcast.

Quels enjeux marketing et business pour l’entreprise ? (8’30)

Après avoir vu ces exemples d’applications concrètes en matière de compréhension du contenu par la machine, on devine assez facilement les enjeux marketing et business pour l’entreprise. Prenons l’exemple d’un cas client chez WAM-Référencement.

Un client dans l’e-commerce, dans le secteur automobile, nous a demandé d’étendre notre travail sur huit langues. La clé de voûte du travail SEO est d’abord éditoriale : rédaction de contenus de catégories, facettes, puis produits. Un travail qui représentait des dizaines de milliers de références, multipliées par huit pays. Nous avons fait un choix fort en répondant avec une solution d’automatisation de production de contenus. Créer individuellement autant de contenus aurait été une tâche gigantesque, accompagnée d’un tarif prohibitif.

Tout ceci est réalisable en six étapes que l’on peut résumer simplement.

Collecte des données structurées (pour une voiture, ce sont ses caractéristiques : couleurs, dimensions, motorisation, équipements, etc.).
Analyse de ces données.
Rédaction d’un premier échantillon de contenu.
Structuration de données (ici, à partir du premier contenu, on ajoute d’autres données et on pousse la logique plus loin pour des textes pour complets).
Paramétrage du moteur de rédaction.
Génération automatique de textes.

Et les avantages sont nombreux :

production de contenus de qualité sur des textes très factuels, comme la météo ou des résultats sportifs ;
création de contenus uniques, personnalisés, multilingues, en temps réel, en gros volume et dans un laps de temps très court ;
intégration par le biais d’imports en masse, en bénéficiant plus rapidement d’un coût par lead sans commune mesure. Dans l’exemple ci-dessus, le coût de production de ce type de contenus allait de 47cts à 3 euros.

On gagne donc en temps et en productivité. Et des exemples de la sorte, il en existe des centaines dans de nombreux autres domaines. D’ailleurs, Google a partagé toutes ces évolutions dans un article sur son blog, Google.AI.

👉 Toutes les explications de David Eichholtzer sur les enjeux marketing et business sont à retrouver dès la 8^e minute de ce podcast.

Petit rappel de ce qu’est BERT (13’45)

BERT est un algorithme, mais pas n’importe lequel. À ses origines, BERT est un article académique, publié pour la première fois en octobre 2018. Mais c’est surtout un framework de Machine Learning dédié au traitement du langage humain, et une mise à jour lancée par Google fin octobre 2019.

Derrière ce nom se cache une vraie révolution technologique. BERT est en fait l’abréviation de Bidirectional Encoder Representations from Transformers, traduit en français par « Représentations d’encodeur bidirectionnel à partir des transformateurs ». On parle de l’algorithme de NLP.

Plus clairement, les transformateurs sont une nouvelle architecture de réseaux de neurones qui sert pour la compréhension du langage. Elle permet d’interpréter une expression entière, contrairement aux algorithmes de l’ancienne génération qui examinent l’expression mot par mot.

👉 Saad Alaoui Chrifi, Data Scientist chez WAM-Référencement, vous explique et vous donne des exemples sur BERT, dès la 13^e minute du Wamcast.

Quels problèmes BERT essaye-t-il de résoudre ? (15’42)

C’est une évidence : les humains comprennent plus facilement certaines choses que la machine ou le programme informatique. En cause : l’humain se représente le monde par son éducation, sa culture, ses sentiments, etc., ce qu’une machine est incapable de faire. Et c’est cette faiblesse que BERT vienne pallier.

Il prend d’abord en compte la quantité et l’ambiguïté des mots, afin de se faire une idée de la quantité de mots présents sur le web. À titre d’exemple, WhatsApp est capable à lui seul de générer en moyenne 30 millions de messages par minute. Les requêtes Google s’élèvent quant à elles à 4,8 millions par minute, en moyenne. On vous laisse donc imaginer le nombres de mails, de tweets et de posts sur les divers réseaux sociaux. Pour autant, de tels chiffres ne constituent pas un problème pour ces machines, conçues pour le traitement de quantités astronomiques de données.

Le vrai problème, c’est de réussir à de prendre en compte les différents synonymes d’un mot et de traiter les mots ambigus et polysémiques. C’est d’ailleurs l’un des grands problèmes du NLP résolu par BERT : la désambiguïsation du langage naturel ou Natural Language Disambiguation.

La désambiguïsation lexicale consiste à assigner un sens, parmi un inventaire de données, aux mots d’une phrase. La suppression des ambiguïtés relève du niveau pragmatique de la linguistique, qui désigne la situation de communication permettant la sélection du sens adapté. Pour ôter une ambiguïté, il faut chercher des informations supplémentaires autour du terme, autrement dit, son contexte

La désambiguïsation informatique est un problème de NLP qui n’avait pas de vraie solution avant l’arrivée de BERT. La résolution de ce problème permet des avancées importantes dans d’autres champs de la linguistique informatique, comme l’analyse du discours, l’amélioration de la pertinence des résultats des moteurs de recherche, la résolution des anaphores, la cohérence, l’inférence, etc.

👉 Retrouvez l’analyse détaillée de Saad Alaoui Chrifi sur BERT et la prise en compte du contexte d’un mot, dès la 15^e minute du podcast.

Que peut-on faire avec BERT ? (22’38)

BERT est capable de faire bien des choses, et les exemples sont nombreux. En voici quelques-uns s’il fallait encore vous convaincre.

Il est excellent en matière de traduction.
Il est en mesure de comparer le sens de deux phrases et de juger si elles sont équivalentes.
Il peut générer du texte spontanément, en partant simplement d’une chaîne de caractères.
Il est capable de décrire et de catégoriser une image.
Il sait faire de l’analyse logique de phrase et déterminer si tel élément est un sujet, un verbe, un complément d’objet direct, etc.
C’est un pro pour répondre efficacement à des questions dans le cadre d’un chatbot interactif, par exemple.

Mais on peut aussi citer un modèle dérivé de BERT qui propose une vraie rupture avec ses prédécesseurs : DeepCT (pour « Deep Contextualized Term Weighting », une pondération des termes contextualisée approfondie). Ces modèles, tout comme BERT, restent fondés sur la pondération de mots-clés et le modèle classique qui a fait le succès des moteurs avec la fréquence des termes ou TF.IDF.

Ces modèles trouvent aussi leurs limites. La fréquence d’un terme dans un texte n’indique pas nécessairement que ce terme est important ou central dans la signification du texte. C’est justement là que que DeepCT intervient. Il trouve les mots les plus centraux dans un texte, même s’ils ne sont mentionnés qu’une seule fois. Les mots non centraux, même s’ils sont fréquemment mentionnés dans le texte, sont alors supprimés. Un tel comportement est rare dans les anciennes approches de pondération des termes. Pour résumer : DeepCT s’intéresse au rôle que jouent les mots dans un contexte donné.

👉 Les explications de Saad Alaoui Chrifi et le focus de David Eichholtzer sur DeepCT sont à retrouver à partir de la 22^e minute du Wamcast.

À part BERT, est-ce qu’il y a d’autres modèles connus ? (26’42)

On peut évoquer les modèles développés par la startup OpenAI de San Francisco, qui proposent des résultats plutôt spectaculaires. GPT-3, par exemple, est un gigantesque réseau de neurones qui, à ce jour, est l’un des meilleurs outils pour produire des lignes de texte qui semblent avoir été écrites par un humain.

GPT-3 présente un énorme potentiel d’automatisation des tâches pour les entreprises. Concrètement, lorsqu’on lui pose une question, il est capable de formuler une réponse de plusieurs phrases pertinentes qui tiennent compte du contexte des mots. GPT-3 peut donc, en théorie, être utilisé pour gérer une partie des services clients ou des Foires aux questions, des How To, etc.

👉 Rendez-vous à la 26^e minute de ce podcast pour écouter l’analyse de Brice Narjoux

Quel impact une meilleure compréhension du contenu peut avoir sur la SERP ? (29’18)

Depuis plusieurs mois, Google semble mieux cerner ce que l’on recherche lorsqu’on effectue une demande aussi générique que « pizza » ou « maquillage ». De même, lorsque l’on pose une question très précise, voire pointue, là encore Google semble nous apporter la bonne réponse, au bon moment et au bon format. C’est tout simplement la preuve qu’un changement de fond est en train de s’opérer chez Google, dans le cheminement qui mène à la résolution de notre problème. Il s’agit de l’abandon progressif du mot-clé au profit de l’intention de recherche.

Et si, au fond, c’était toute notre façon de naviguer qui était en train de changer ? Prenons une requête très générique, comme le mot « meringue », par exemple. On remarque que Google parvient à proposer toute une sélection de contenus structurés visant à répondre à l’internaute en fonction de son contexte de recherche. On trouve ainsi une série de liens avec ancre : overview, recipes, video, types, etc., Le but ? Conduire l’internaute directement à l’endroit de la SERP où se trouve la réponse qui l’intéresse.

Dans le contexte d’une recherche musicale, pour les paroles d’une chanson par exemple, Google propose une navigation par le biais de liens avec ancre sous la forme d’onglets : overview, listen, lyrics, analysis, other recordings, etc. Si ces résultats ne suffisent pas à l’internaute, celui-ci trouvera, en filet, un carrousel de « People also search for ». Dans le cas où ces suggestions ne répondraient encore pas aux besoins de l’internaute, Google est capable de proposer une liste de questions précises avec Snippets, de petits encadrés reprenant des extraits du contenu source qui répondent aux questions associées à ce sujet.

👉 Toutes les explications de David Eichholtzer sont à retrouver dans la dernière partie de ce Wamcast, à partir de la 29^e minute.

À lire aussi : Quelles sont les tendances SEO 2021 ?

N’hésitez pas à partager ce podcast sur vos réseaux préférés !