Articles

Recherche d’un site pour un mot ou une expression spécifique

Posted by admin

Sitebulb a une fonctionnalité appelée « Recherche de Contenu », qui vous permet de configurer le robot pour rechercher un mot ou une expression spécifique sur chaque page qu’il analyse.

cela vous permet de filtrer les pages selon qu’elles contiennent ou non certains mots.

Par exemple:

  • vérifiez si les pages de produits ecommerce contiennent des messages « en rupture de stock ».
  • vérifiez quelles pages font référence à un nom de marque ou à un nom d’entreprise particulier.,
  • comprendre quelles pages mentionnent certains mots-clés cibles (pour créer des liens internes).

table des matières

Ce guide couvre l’ensemble du processus de configuration de la recherche de contenu dans Sitebulb, y compris tous les paramètres avancés.,

Vous pouvez accéder à une zone spécifique du guide en utilisant les liens ci-dessous:

  • Comment configurer la recherche de contenu
  • affichage des données extraites
  • paramètres de base
  • ajouter plusieurs règles de recherche en vrac
  • Configuration avancée
  • URL matching
  • cas D’utilisation& exemples (tutoriel vidéo)
  • explorer avec Chrome

ajouter une recherche de contenu à votre audit de site web

pour commencer, commencez simplement un nouvel audit, et à partir des options de configuration, faites défiler jusqu’à extraction, puis cliquez pour ouvrir L’option de recherche de contenu.,

Puis cliquez sur le vert bouton Ajouter Règle.

Cela permettra d’ouvrir l’écran de l’assistant de règles. Pour une recherche de base, tout ce que vous devez faire est d’entrer le texte, puis cliquez sur « Ajouter une Règle », et c’est tout là est à lui.

Une fois que vous avez ajouté votre règle, vous pouvez vous arrêter là ou simplement continuer à ajouter d’autres règles. Vous verrez toutes vos règles dans la page de configuration de l’audit, prête à démarrer l’audit.,

par exemple, si nous voulions explorer notre site et comprendre à quelle fréquence nous référençons Sitebulb en tant que ‘crawler’ vs ‘website auditor’, nous pourrions le configurer comme ceci:

avec une licence Sitebulb Pro, il N’y a pas de limite au nombre de règles que vous pouvez ajouter, alors collectez toutes les données dont vous avez besoin (avec une licence Lite, il y a une limite de 3 règles).

Une fois que vous avez terminé d’ajouter des règles et toute autre configuration de configuration d’audit, cliquez sur Démarrer maintenant en bas à droite de l’écran, pour démarrer l’audit.,

affichage des données extraites

Une fois votre audit terminé, vous pouvez accéder au rapport de données à l’aide du menu de gauche.

L’Aperçu vous montrera les détails des totaux de données pour chaque phrase de recherche différente:

Les deux colonnes de données vous indiquent des choses légèrement différentes:

  • Total Found = le nombre total d’instances que Sitebulb a trouvées la phrase, même si certaines d’entre elles étaient sur la même page.
  • trouvé sur les URL = nombre d’URL uniques sur lesquelles Sitebulb a trouvé la phrase.,

Sans même analyser les données en détail, nous pouvons déjà voir que « robot » est dominant.

pour voir le détail des URL spécifiques, nous devons passer à L’onglet URL, qui affiche les URL à côté des colonnes dirigées par les filtres texte/phrase. Les nombres dans chaque cellule se rapportent au nombre d’instances de la phrase trouvées sur chaque page.

On peut trier rapidement ces données en cliquant sur l’en-tête de colonne pour toute expression de recherche que nous voulons trier par.,

Comme toujours avec les listes D’URL, vous pouvez ajouter ou supprimer des colonnes afin de pouvoir facilement combiner les données d’analyse technique avec vos données extraites. Vous pouvez également créer des filtres sur les données pour obtenir des informations supplémentaires.

C’est la configuration de base, et ce processus simple qui vous permettra de configurer facilement des recherches de contenu et afficher les données dans vos résultats.

paramètres de base – Autres options

le processus décrit ci-dessus convient à la plupart des cas d’utilisation simples de la recherche de contenu., Cependant, il y a quelques paramètres supplémentaires que nous devons encore explorer.

l’image ci – dessous montre la configuration par défaut, avec un exemple de phrase de recherche:

examinons plus en détail ce que chaque option signifie:

  • mot ou texte à trouver-c’est la phrase que Sitebulb recherchera lors de l’exploration de chaque URL. Il utilise une correspondance de phrase, donc l’exemple ci-dessus correspondra sur une chaîne comme « meilleures lunettes de ski » mais pas sur une chaîne comme « meilleures lunettes de ski ou de snowboard ».
  • ignorer le cas – assez explicite., Si coché, Sitebulb correspondra à une chaîne comme « Lunettes de Ski » ou  » lunettes de SKI. »Unticked, il ne correspondrait sur aucun de ces exemples, seulement sur les lunettes de ski minuscules ».’
  • élément à rechercher-choisissez dans une liste déroulante pour sélectionner l’élément HTML que Sitebulb doit rechercher. La valeur par défaut de « tous les éléments html » est correcte dans la plupart des cas, mais nous explorerons d’autres exemples ci-dessous.
  • recherche dans – les options ici sont ‘Texte uniquement’ ou ‘HTML et texte. L’option « Texte uniquement » ne recherchera que le texte visible sur la page, tandis que L’option « HTML et texte » recherchera également dans le HTML (par exemple, meta descriptions).

La Plupart de ces options sont assez intuitives et/ou simples à tester et à vérifier vous-même. Cependant, L’option « élément à rechercher » est un peu plus nuancée et nécessite un peu plus d’explications.,

Élément de Recherche – expliqué

Pour commencer, il y a un certain nombre d’options dans la liste déroulante:

Ce que toutes ces options, se reporter à la structure HTML de la page:

Cette option signifie que Sitebulb recherche dans le <corps> (jaune) section ne, mais il ne serait pas inclure d’ancrage (<>) éléments. En d’autres termes, recherchez le contenu du corps mais n’incluez aucun lien.,

par exemple, disons que nous voulions pointer d’autres liens internes sur notre page D’exploration JavaScript. Si l’on recherche de l’expression « javascript ramper » dans l’ensemble de la <html> ou de l’ensemble de <corps>, cela va attraper tous les liens dans notre top panneau de navigation:

Donc, littéralement chaque page sont marqués. Pas d’aide du tout.,

Mais si nous choisissons à la place ‘<body> mais pas <a>’ alors cela ne récupérerait que les instances où la phrase est présente dans le il est possible de créer des éléments de type »9701dc772a »ou »9701dc772a ».

Très utile en effet.

et enfin nous avons l’option en bas de la liste déroulante: ‘un élément spécifique’. Lorsque vous sélectionnez cela, une nouvelle boîte apparaît en dessous, ce qui vous oblige à entrer le sélecteur CSS qui définit l’élément spécifique que vous souhaitez gratter., Par exemple:

en général, cela devrait être considéré comme une option avancée – si vous n’avez aucune idée de ce qu’est un sélecteur CSS, évitez cette option et restez avec les autres, ils sont plus que adéquats pour presque tous les cas d’utilisation.

le sélecteur CSS vous permet de choisir une section spécifique à partir d’un modèle de page. Considérons une page de produit de commerce électronique typique, Je ne peux être intéressé que par la recherche de la partie « texte de contenu » de la page – pas les éléments de navigation ou la copie standard.,

je dois donc choisir le sélecteur qui définit cela, ce que je peux faire en utilisant la fonctionnalité ‘inspecter’ dans Chrome:

donc, dans ce cas, je peux voir que l’inspecteur dont j’ai besoin est: div.product-description-content-text

en mettant en évidence ce sélecteur dans DevTools et en faisant défiler la page vers le bas, je peux voir qu’il dissèque soigneusement la page pour ne choisir que la description du produit, et évite les peluches standard comme « les petits caractères », que je ne suis pas intéressé par la recherche.,

Pour plus de clarté, voici comment je pourrais définir la règle dans Sitebulb:

Ajouter plusieurs règles de recherche en vrac

Si vous avez BEAUCOUP de mots/phrases que vous souhaitez rechercher utiliser le lien « Ajoutez Plusieurs rules », afin de les ajouter en vrac.

tout Simplement écrire vos mots/phrases, un par ligne, ou tout simplement copier/coller dans la case. Il fonctionne exactement comme la configuration « de base » unique ci-dessus, à l’exception de plusieurs mots ou phrases., Vous pouvez donc toujours configurer les modèles D’exclusion D’URL, l’élément à rechercher et si vous effectuez une recherche dans le texte et le HTML ou simplement le texte.

Si cela ne vous donne pas la granularité de configurer chaque mot différemment, mais ne vous permet pas d’importer des centaines ou des milliers de phrases à la fois.

Lorsque le rapport est complet, chaque règle affiche que si vous avez saisi un par un:

Une note sur l’échelle

Avec cette fonction il est possible de dumper des milliers de mots à la fois., Notez que si vous faites cela, la meilleure façon d’accéder aux données est d’utiliser le bouton vert exporter toutes les données de recherche que vous voyez dans l’image ci-dessus. Vous pouvez accéder aux données via L’onglet URL, mais il ne chargera que 50 colonnes à la fois, vous devrez donc faire beaucoup d’Ajout/Suppression pour voir ce que vous voulez.

notre recommandation est donc d’utiliser l’exportation à la place.

Configuration avancée

Tout ce que nous avons couvert jusqu’à présent relève de la configuration de base. Cela signifie essentiellement que nous demandons à Sitebulb de rechercher un mot ou une phrase à la fois (même via la méthode « bulk upload »).,

Mais il y a aussi une option « Avancée », dans la fenêtre « Ajouter une règle ».

Voici l’affaire – vous configurez chaque règle comme « basique » ou vous la configurez comme « Avancée ». Ce n’est pas une situation où vous configurez les choses de base, puis allez ajouter des options avancées. En tant que tel, certains éléments familiers fonctionnent exactement de la même manière que ceux décrits ci-dessus pour les options de base. Et puis il y a de nouvelles choses:

donc, nous ne couvrirons plus l’ancien terrain avec les bits inférieurs, VEUILLEZ simplement vous référer à la section ci-dessus qui explique comment tout cela fonctionne.,

nous Nous intéressons dans cette partie:

Le concept est relativement simple, on remplace « mot/phrase » avec une combinaison de mots à rechercher. L’obligation de fournir un « nom de règle » est simplement de faciliter l’affichage des résultats dans le rapport.

passons en revue un exemple. Imaginez que nous vérifions un site Web de voyage., Nous voulons identifier les pages qui parlent de sports d’hiver spécifiques, afin que nous puissions le configurer comme ceci:

Une fois cette règle appliquée, Sitebulb rechercherait toutes les pages contenant « ski », « snowboard » ou « patinage sur glace » (ou toute combinaison des trois).

lorsque nous regardons les résultats, vous pouvez voir la valeur en ajoutant un nom de règle:

dans ce cas, les nombres retournés dans la colonne ‘Sports d’hiver’ reflètent le nombre total de matchs., Donc, un résultat de  » 6 « pourrait signifier que » ski « est mentionné 4 fois, « snowboard » 2 fois et « patinage sur glace » pas du tout.

maintenant, imaginez que nous voulions identifier des pages qui parlent de sports d’hiver spécifiques, mais seulement pour certains pays. Nous pourrions exclure des pays spécifiques en les ajoutant dans la case de droite « ne contient pas », par exemple,

ce que cela fait est la surface des pages sur les États – Unis/Canada au lieu de L’Europe, comme nous le voulions:

L’utilisation de cette approche combinée vous permet de faire des choses comme catégoriser les pages en fonction audits ou stratégies de liaison internes.

URL matching

par défaut, Sitebulb effectuera la recherche de contenu sur chaque page du site web., Cela signifie que vous demandez à Sitebulb de faire plus de travail en termes de traitement, et cela signifie que plus de données seront stockées sur votre disque dur une fois les données d’audit collectées.

pour la plupart des sites Web – par exemple un site typique de 10 000 pages – cela ne pose aucun problème, car la taille et l’échelle des besoins en ressources supplémentaires sont négligeables.,

cependant, Sitebulb peut gérer des sites Web avec des millions de pages, et à ce genre d’échelle, vous voudrez peut – être essayer de réduire la quantité de travail de traitement que Sitebulb a fait pendant l’exploration, et peut-être plus pertinent-combien d’espace l’audit prendra sur votre disque dur quand il est fait.

Voici à quoi sert L’onglet URLs. Vous pouvez entrer des modèles d’inclusion ou d’exclusion afin que Sitebulb n’effectue l’analyse de recherche de contenu que sur des pages spécifiques.,

ajout de modèles d’exclusion

pour revenir à un exemple sur ce site, supposons que nous voulions trouver des pages qui mentionnent ‘crawler’, mais nous ne voulons effectuer la recherche sur aucune de nos pages /documentation/ (comme cette URL), nous entrerions le chemin /documentation/ avec un signe moins (-) devant lui:

  • -/documentation/

dans les résultats, les pages /documentation/ sont simplement répertoriées comme « non définies », vous pouvez donc différencier les zéros légitimes des pages où sitebulb n’a tout simplement pas effectué la recherche.,

l’Ajout de modes d’inclusion

On pourrait aussi le faire d’une manière différente, en utilisant des modes d’inclusion à la place.,ord sur nos pages ‘ventes’ sur le site, nous pourrions choisir d’effectuer uniquement la recherche sur /product/ et /features/ pages, en entrant les dossiers sans signe moins:

  • /product/
  • /features/

les résultats de celui – ci montrent comment nous sommes capables d’isoler les pages qui nous intéressent réellement, et les »vrais zéros »:

la correspondance d’url fonctionne pour les règles de base ou avancées, et peut être définie différemment pour chaque règle que vous ajoutez-afin que vous puissiez obtenir une super spécifique dans votre configuration.,

cas D’utilisation et exemples

en plus des exemples déjà abordés dans cet article, nous avons également une vidéo tutoriel avec quelques exemples différents, qui présente certaines des différentes fonctionnalités et options dans la recherche de contenu:

final caveat – crawl with Chrome when necessary

la dernière chose à souligner est que sur certains sites, le contenu est chargé via JavaScript, ce qui signifie qu’il n’est pas possible de voir ce contenu lorsque vous faites ‘View Source. »Si tel est le cas sur le site Web que vous explorez, vous devez vous assurer de passer au robot D’exploration Chrome dans les paramètres d’audit.,

Cela signifie que Sitebulb rendra le JavaScript avant d’effectuer la recherche de contenu.

Leave A Comment