Les modèles basés sur et étendant le modèle d`espace vectoriel incluent: les opérations vectorielles peuvent être utilisées pour comparer des documents avec des requêtes. Modèle d`espace vectoriel ou modèle vectoriel à terme est un modèle algébrique pour représenter les documents texte (et tous les objets, en général) comme vecteurs d`identificateurs, tels que, par exemple, des termes d`index. Il est utilisé dans le filtrage des informations, la récupération d`informations, l`indexation et le classement de pertinence. Sa première utilisation était dans le système de récupération d`informations SMART. Il va sans dire qu`en général un moteur de recherche répond à une requête donnée avec une liste classée des documents pertinents. Le but de cet article est de décrire une première approche pour trouver des documents pertinents en ce qui concerne une requête donnée. Dans le modèle d`espace vectoriel (VSM), chaque document ou requête est un vecteur N-dimensionnel où N est le nombre de termes distincts sur tous les documents et requêtes. L`index i-e d`un vecteur contient le score du i-ème terme pour ce vecteur. Un gros problème qu`il n`est pas pris en considération dans le VSM sont les synonymes: il n`y a pas de parenté sémantique entre les termes puisqu`il n`est pas capturé ni par la fréquence de terme ni la fréquence de document inverse. Afin de résoudre ces problèmes, le modèle d`espace vectoriel généralisé (GVSM) a été introduit. Dans le modèle d`espace vectoriel classique proposé par Salton, Wong et Yang [1], les pondérations spécifiques aux termes des vecteurs de documents sont des produits de paramètres locaux et globaux. Le modèle est connu sous le nom de fréquence de terme-modèle de fréquence de document inverse. Le vecteur de poids pour le document d est v d = [w 1, d, w 2, d,…, w N, d] T {displaystyle mathbf {v} _ {d} = [w_ {1, d}, w_ {2, d}, ldots, w_ {N, d}] ^ {T}}, où note, il y a beaucoup de variations dans la façon dont nous calculons le terme-fréquence (TF) et la fréquence de document inverse dans ce post, nous avons vu une variante.

Ci-dessous les images montrent que les autres variantes recommandées de TF et IDF, prises à partir de wiki. L`idée d`une normalisation pivotée est de rendre le document plus court qu`une valeur empirique (longueur pivotante:) moins pertinent et de documenter plus longtemps plus pertinent comme illustré dans l`image suivante: normalisation pivotante “Barack Hussein Obama II (US Listeni/bə ˈ rɑ-k HU. supérieur ˈ bɑ. 1 né le 4 août 1961, il est le 44e et actuel président des États-Unis [2]. Il est le premier afro-américain à détenir le bureau et le premier président né en dehors des États-Unis continentaux. Né à Honolulu, Hawaii, Obama est diplômé de l`Université de Columbia et de la Harvard Law School, où il a été président de la Harvard Law Review. Il a été organisateur de la communauté à Chicago avant de gagner son diplôme de droit.