SEO Chine : zoom sur la segmentation des mots

Soumis par Yuxiao Zhang le mar, 07/28/2015 - 12:22 dans SEO chine

 

L’enjeu du SEO chinois : la segmentation du texte  

Un moteur de recherche est dédié à l'amélioration de l'expérience utilisateur. L'expérience utilisateur se reflète principalement dans trois aspects : l'exactitude, l’exhaustivité et la vitesse de recherche.

Parmi eux, l’exactitude est le facteur le plus important qui influence directement l'expérience utilisateur.

En réalité, il n’existe pas d'exactitude absolue. Lorsque l'on formule une requête dans le moteur de recherche, on se contente de trouver les résultats pertinents parmi la dizaine de résultats apparaissant en amont. Un bon moteur de recherche est donc celui qui est capable d’identifier le désir des utilisateurs et qui leur fournit les solutions pertinentes. Pour avoir cette pertinence, une bonne technique de segmentation du texte chinois doit être mise en place par le moteur de recherche.

Qu’est-ce que la segmentation du texte chinois ?

La segmentation du texte chinois  désigne une technique qui sert à couper une chaîne de caractères chinois et à les regrouper en mots significatifs. Par exemple, pour la phrase "œuf et lait", le résultat de la segmentation est :

|œuf ||et||lait|

Selon l’écriture chinoise, les caractères d’une phrase sont collés tous ensemble sans espace. Dans la plupart des cas, un mot significatif est composé de plusieurs caractères. Cela est différent de l’écriture française et anglaise où les mots sont séparés par un espace.

On prend un exemple ici pour illustrer le cas. Lorsque l’on recherche "œuf" et "lait", comme les mots sont séparés par un espace, ce n’est pas difficile pour l’ordinateur de comprendre que "œuf" est un mot. Cependant, quand il s’agit de la requête en chinois "鸡蛋和牛奶", c’est plus difficile de comprendre que les deux premiers caractères : "鸡" et "蛋" devraient être regroupés ensemble pour avoir le sens de "œuf".

La spécificité de cette habitude d’écriture devient un grand défi pour l'exactitude des moteurs de recherche. Comme les moteurs de recherche sont basés sur l'indexation mot-clé extraction, si la division des caractères collés et leur regroupement ne sont pas corrects, ils provoqueraient des ambiguïtés sémantiques.

Dans le domaine de l'informatique, la technique de segmentation du texte chinois désigne l'algorithme qui identifie la sémantique de chaîne de mots et qui en extrait les mots-clés significatifs.

Pourquoi la segmentation du texte chinois est importante pour le SEO ?

La  segmentation du texte chinois est la base de text mining. Lorsqu’un utilisateur saisit un mot clé dans le moteur de recherche, les spiders se rendent à la base de données où sont stockées les pages Web pour trouver celles qui correspondent le mieux à la requête. Dans ce processus, il analyse des milliers de pages contenant des blocs de texte et il essaye de trouver le texte qui contient les éléments de la requête.

Comme les mots sont tous attachés à la rédaction chinoise, segmenter les chaînes de caractères est primordial. Tous les moteurs de recherche n’ont pas la même technique de segmentation du texte. Selon la recherche, Baidu utilise sa propre technique. Google lui, utilise la technologie fournie par une société américaine nommée "baisis technology" (http://www.basistech.com/about/).

Lorsque l'algorithme n’est pas le même, le SERP sera un peu différent d'un moteur de recherche à un autre.

Compte tenu de la complexité de la langue chinoise, la segmentation des mots chinois est toujours dans le processus de l'exploration. Comme la technologie n’est pas suffisamment mature, les résultats de recherche conduisent souvent à une ambiguïté sémantique.

Par exemple, quand nous cherchons "棒球会" (l’association sportive de baseball) dans Baidu,  il y a 210 000 résultats au total. Sur la première page de résultats, nous avons trouvé un lien nommé

"为什么棒球会被从奥运会取消?" (Pourquoi le baseball a été annulé aux jeux olympiques ?).

Bien que cette phrase contienne les trois mots de notre requête "棒球会", le sens est complètement différent. En chinois, le mot « 

"会" (association) a deux formes. Il peut être utilisé comme un verbe ou un nom. Dans notre requête, le mot "会" (association) est un nom. Cependant, dans la phrase "为什么棒球会被从奥运会取消?", le mot "会" est un verbe.

Dans ce cas, les résultats des moteurs de recherche présentent une confusion sémantique.

En essayant un autre exemple en tapant le nom d’une marque "– 力士" (lux unilever) dans Baidu, nous avons trouvé 4 010 000 résultats. Sur la première page de résultat, il y a seulement 2 résultats qui sont relatifs à la marque lux que l’on recherche. Tous les autres résultats ne parlent pas du tout de cette marque. Il y a même un lien nommé "英第一女力士是孩儿他妈" qui signifie "la première femme puissante en Angleterre est la mère d’un enfant".

Or, cela n’a rien à voir avec notre requête ! Pourquoi apparaît-il donc dans les premiers résultats ? Il apparaît car en chinois, "力士" désigne "les gens qui ont du pouvoir et de la force". Pour une marque étrangère qui souhaite attaquer le marché chinois, on lui  donne donc un nom chinois. Souvent, on donne les mots chinois qui ont la prononciation la plus proche de celle de la marque originale. Ici, pour la marque lux, les deux mots  "力士" ont une prononciation qui se rapproche de la marque lux. Cependant, avant d’être le nom chinois pour la marque lux, "力士" a déjà un sens significatif donc lorsque l’on cherche "力士" dans le moteur de recherche, on a une grande chance de tomber sur des résultats qui ne parlent pas de la marque lux.

La spécificité de l’écriture chinoise apporte beaucoup d’opportunités pour le SEO. D’un côté, en SEO, nous pouvons utiliser des expressions moins ambiguës dans le texte pour diminuer les erreurs sémantiques et de l’autre côté, la technique de segmentation du mot chinois étant imparfaite, cela nous laisse le choix  d’élargir notre champ de cible.

 

Et vous aimerez dans le même genre :