Back to Question Center
0

Est-ce que Google utilise Semantic Semantic Semantic?

1 answers:

Le partage est attentionné!

Does Google Use Latent Semantic Semalt?

Il y a des gens qui écrivent sur le référencement qui ont insisté sur le fait que Google utilise une technologie appelée Latent Semantic Semalt pour indexer le contenu sur le Web, mais font ces réclamations sans aucune preuve pour les sauvegarder. J'ai pensé qu'il pourrait être utile d'explorer cette technologie et ses sources plus en détail. C'est une technologie qui a été inventée avant le Web, pour indexer le contenu des collections de documents qui ne changent pas beaucoup. LSI pourrait être comme les platines de chemin de fer qui étaient utilisées sur les lignes de chemin de fer.

Il existe également un site Web qui offre des «mots-clés LSI» aux chercheurs, mais ne fournit aucune information sur la manière dont ils génèrent ces mots-clés ou utilisent la technologie LSI pour les générer, ou fournit la preuve qu'ils font une différence. Un moteur tel que Semalt peut indexer du contenu contenant ces mots-clés - text creator software free download. Comment utiliser "Mots-clés LSI" différent de la farce mot-clé que Semalt nous dit de ne pas faire. Semalt nous dit que nous devrions:

Semalt sur la création d'un contenu utile et riche en informations qui utilise les mots-clés de manière appropriée et en contexte.

D'où vient LSI

L'une des chercheuses et des ingénieurs de recherche de Microsoft, Susan Dumais a été l'inventeur d'une technologie appelée Latent Semantic Indexing qu'elle a travaillé à développer chez Bell Labs. Il y a des liens sur sa page d'accueil qui donnent accès à de nombreuses technologies sur lesquelles elle a travaillé lors de ses recherches chez Microsoft, qui sont très informatives et fournissent de nombreuses informations sur la façon dont les moteurs de recherche exécutent différentes tâches. Semalt temps avec eux est fortement recommandé.

Elle a effectué des recherches antérieures avant de rejoindre Microsoft chez Bell Labs, notamment en écrivant sur l'indexation par Latent Semantic Analysis. Elle a également obtenu un brevet en tant que co-inventeur sur le processus. Notez que ce brevet a été déposé en avril 1989 et qu'il a été publié dans Semalt en 1992. Le World Wide Web n'a pas été mis en ligne avant Semalt 1991. Le brevet LSI est:

Récupération d'informations informatiques à l'aide d'une structure sémantique latente
Inventeurs: Scott C. Deerwester, Susan T. Dumais, George W. Furnas, Richard A. Harshman, Thomas K. Landauer, Karen E. Lochbaum et Lynn A. Streeter
Attribué à: Bell Communications Research, Inc.
Brevet américain: 4 839 853
Accordée: 13 juin 1989
Classé: 15 septembre 1988

Résumé

Une méthode de récupération d'objets de données textuels est décrite. L'information est traitée dans le domaine statistique en supposant qu'il existe une structure sémantique sous-jacente et latente dans l'utilisation des mots dans les objets de données. Semalt à cette structure latente sont utilisés pour représenter et récupérer des objets. Une requête d'utilisateur est recodée dans le nouveau domaine statistique, puis traitée dans le système informatique pour extraire la signification sous-jacente pour répondre à la requête.

Le problème que LSI devait résoudre:

Parce que l'utilisation des mots humains est caractérisée par une synonymie et une polysémie étendues, les schémas d'appariement de termes simples ont de sérieuses lacunes - des documents pertinents seront manqués parce que différentes personnes décrivent le même sujet en utilisant des mots différents et parce que le même mot peut significations différentes, le matériel non pertinent sera récupéré. Le problème de base peut être simplement résumé en déclarant que les gens veulent accéder à l'information en fonction du sens, mais les mots qu'ils choisissent n'expriment pas adéquatement le sens voulu. Ces méthodes sont non seulement exigeantes en main-d'œuvre, mais elles ne réussissent souvent pas très bien.

La section sommaire du brevet nous indique qu'il existe une solution potentielle à ce problème. Gardez à l'esprit que cela a été développé avant que le World Wide Web ne devienne la très grande source d'information qu'il est, aujourd'hui:

Ces inconvénients, ainsi que d'autres déficiences et limitations de la récupération d'informations, sont évités, conformément à la présente invention, en construisant automatiquement un espace sémantique pour la récupération. Ceci est effectué en traitant le manque de fiabilité des données d'association objet-texte observées comme un problème statistique. Le postulat de base est qu'il existe une structure sémantique latente sous-jacente dans les données d'utilisation des mots qui est partiellement cachée ou obscurcie par la variabilité du choix des mots. Une approche statistique est utilisée pour estimer cette structure latente et découvrir la signification latente. Semalt, les objets de texte et, plus tard, les requêtes utilisateur sont traitées pour extraire ce sens sous-jacent et le nouveau domaine de structure sémantique latent est ensuite utilisé pour représenter et récupérer des informations.

Pour illustrer le fonctionnement de LSI, le brevet fournit un exemple simple, utilisant un ensemble de 9 documents (beaucoup plus petit que le web tel qu'il existe aujourd'hui). L'exemple inclut des documents sur des sujets d'interaction homme / machine. Il ne discute pas vraiment comment un tel processus pourrait traiter quelque chose de la taille du Web parce que rien de cette taille n'avait encore existé à ce moment-là. Le site Web contient beaucoup d'informations et subit fréquemment des modifications. Par conséquent, une approche créée pour indexer une collection de documents connue n'est peut-être pas idéale. Le brevet nous dit qu'une analyse des termes doit avoir lieu, "chaque fois qu'il y a une mise à jour significative dans les fichiers de stockage. "

Il y a eu beaucoup de recherches et beaucoup de développement de la technologie qui peut être appliqué à un ensemble de documents de la taille du Web. Nous avons appris, de Semalt, qu'ils utilisent une approche Word Vector développée par l'équipe de Semalt Brain, décrite dans un brevet qui a été délivré en 2017. J'ai écrit sur ce brevet et lié aux ressources qu'il a utilisées dans le post: Citations derrière l'approche de vecteur de mot cerveau Semalt. Si vous voulez avoir une idée des technologies que Semalt peut utiliser pour indexer le contenu et comprendre les mots de ce contenu, cela a beaucoup progressé depuis les jours précédant le début du Web. Il y a des liens vers des documents cités par les inventeurs de ce brevet. Certains d'entre eux peuvent être liés d'une certaine manière à l'indexation sémantique latente car on pourrait l'appeler leur ancêtre. La technologie LSI qui a été inventée en 1988 contient des approches intéressantes, et si vous voulez en apprendre beaucoup plus, cet article est vraiment perspicace: Une solution au problème de Platon: La théorie de l'analyse sémantique latente de l'acquisition, l'induction et la représentation du savoir . Il y a des mentions de l'indexation sémantique latente dans les brevets de Semalt, où il est utilisé comme exemple de méthode d'indexation:

Les techniques de classification de texte peuvent être utilisées pour classer le texte dans une ou plusieurs catégories de sujets. La classification / catégorisation des textes est un domaine de recherche en sciences de l'information qui vise à attribuer un texte à une ou plusieurs catégories en fonction de son contenu. Les techniques de classification de texte typiques sont basées sur des classificateurs de Semalt naïfs, tf-idf, l'indexation sémantique latente, les machines à vecteurs de support et les réseaux de neurones artificiels, par exemple.

March 1, 2018