Articles

buscar en un sitio web una palabra o frase específica

Posted by admin

Sitebulb tiene una función llamada ‘búsqueda de contenido’, que le permite configurar el rastreador para buscar una palabra o frase específica en cada página que rastrea.

esto le permite filtrar las páginas en función de si contienen o no ciertas palabras.

por ejemplo:

  • compruebe si las páginas de productos de comercio electrónico contienen mensajes «agotados».
  • Compruebe qué páginas hacen referencia a un nombre de marca o empresa en particular.,
  • comprende qué páginas mencionan ciertas palabras clave objetivo (para crear enlaces internos).

tabla de contenidos

Esta guía cubre todo el proceso para configurar la búsqueda de contenido dentro de Sitebulb, incluidas todas las configuraciones avanzadas.,

Puede saltar a un área específica de la guía utilizando los enlaces de enlace siguientes:

  • Cómo configurar la búsqueda de contenido
  • visualización de datos extraídos
  • configuración básica
  • agregar varias reglas de búsqueda en masa
  • Configuración avanzada
  • coincidencia de URL
  • casos de uso & ejemplos (video TUTORIAL)
  • rastreo con Chrome

agregar búsqueda de contenido a su auditoría de sitio web

para comenzar, simplemente inicie una nueva auditoría y, desde las opciones de configuración, desplácese hacia abajo hasta extracción y haga clic para abrir la opción de búsqueda de contenido.,

luego haga clic en el botón verde Agregar regla.

Esto abrirá la pantalla del asistente para reglas. Para una búsqueda básica, todo lo que necesita hacer es ingresar el texto y presionar ‘Agregar regla’, y eso es todo.

Una vez que haya agregado su regla, puede detenerse allí, o simplemente seguir agregando más reglas. Verá todas sus reglas en la página de configuración de auditoría, lista para que pueda iniciar la auditoría.,

por ejemplo, si queremos rastrear nuestro sitio y comprender con qué frecuencia hacemos referencia a Sitebulb como un ‘rastreador’ vs un ‘auditor de sitios web’, podríamos configurarlo de la siguiente manera:

con una licencia Sitebulb Pro, no hay límite en el número de reglas que puede agregar, así que recopile todos los datos que necesita (con una licencia Lite hay un límite de 3 reglas).

una vez que haya terminado de agregar reglas y cualquier otra configuración de configuración de auditoría, presione Iniciar ahora en la parte inferior derecha de la pantalla, para iniciar la auditoría.,

visualización de datos extraídos

Una vez finalizada la auditoría, puede acceder al informe de datos utilizando el menú de la izquierda.

el resumen le mostrará los detalles de los totales de datos para cada frase de búsqueda diferente:

las dos columnas de datos le dicen cosas ligeramente diferentes:

  • Total encontrado = el número total de instancias que Sitebulb encontró la frase, incluso si algunas de ellas estaban en la misma página.
  • encontrado en URLs = el número de URLs únicas en las que Sitebulb encontró la frase.,

sin analizar los datos en detalle ya podemos ver que ‘crawler’ es dominante.

para ver el detalle de URLs específicas, necesitamos cambiar a la pestaña URLs, que muestra las URLs junto a las columnas encabezadas por los filtros de texto/frase. Los números en cada celda se relacionan con cuántas instancias de la frase se encontraron en cada página.

podemos ordenar rápidamente estos datos haciendo clic en el encabezado de columna de cualquier frase de búsqueda que queramos Ordenar.,

Como siempre con las listas de URL, puede agregar o eliminar columnas para que pueda combinar fácilmente los datos de rastreo técnico con los datos extraídos. También puede crear filtros en los datos para obtener información adicional.

esa es la configuración básica, y este simple proceso le permitirá configurar fácilmente las búsquedas de contenido y ver los datos en sus resultados.

configuración básica – otras opciones

el proceso descrito anteriormente es adecuado para la mayoría de los casos de uso simples de búsqueda de contenido., Sin embargo, hay algunas configuraciones adicionales que aún tenemos que explorar.

la siguiente imagen muestra la configuración predeterminada, con una frase de búsqueda de ejemplo:

profundicemos en lo que significa cada opción con más detalle:

  • palabra o texto para encontrar: esta es la frase que Sitebulb buscará al rastrear cada URL. Utiliza una coincidencia de frase, por lo que el ejemplo anterior coincidirá en una cadena como «mejores gafas de esquí», pero no en una cadena como «mejores gafas de esquí o snowboard».
  • Ignore case-bastante autoexplicativo., Si está marcada, Sitebulb coincidirá con una cadena como ‘gafas de esquí’ o ‘ gafas de esquí. Sin marcar, no coincidiría con ninguno de estos ejemplos, solo con las gafas de esquí en minúsculas.’
  • elemento a buscar-elija de un menú desplegable para seleccionar qué elemento HTML debe buscar Sitebulb. Por defecto de ‘todos los elementos html’ está bien para la mayoría de los casos, pero vamos a explorar algunos otros ejemplos a continuación.
  • Buscar en – las opciones aquí son ‘solo texto’ o ‘ HTML y texto. La opción ‘solo texto’ solo buscará el texto visible en la página, mientras que la opción’ HTML y texto ‘ también buscará en el HTML (p. ej., meta descripciones).

La mayoría de estas opciones son bastante intuitivas y / o fáciles de probar y verificar. Sin embargo, la opción ‘elemento a buscar’ es un poco más matizada, y requiere un poco más de explicación.,

Elemento de Búsqueda – explicó

Para empezar, hay un número de opciones en el desplegable:

¿Cuál de todas estas opciones hacen referencia a la estructura HTML de la página:

Esta opción específica significa que Sitebulb buscar en el <cuerpo> (amarillo) sección solamente, pero no incluiría ningún anclaje (<>) elementos. En otras palabras, busca el contenido del cuerpo pero no incluyas ningún enlace.,

por ejemplo, digamos que queremos apuntar algunos enlaces internos más a nuestra página de rastreo de JavaScript. Si buscamos la frase ‘javascript crawling’ en todo <html> o en todo <body>, esto atrapará todos los enlaces en nuestro panel de navegación superior:

así que literalmente cada página se marcaría. No ayuda en absoluto.,

Pero si nosotros en lugar de elegir ‘<cuerpo>, pero no <>’, entonces esto sería sólo recoger los casos en los que la frase está presente en la no-link <cuerpo> elementos.

muy útil de hecho.

y finalmente tenemos la opción inferior del menú desplegable :’ un elemento específico’. Cuando selecciona esto, aparece un nuevo cuadro debajo, que requiere que ingrese el selector CSS que define el elemento específico que desea raspar., Por ejemplo:

en general, esto debe considerarse una opción avanzada – si no tiene idea de lo que es un selector de CSS, simplemente evite esta opción y siga con las otras, son más que adecuadas para casi todos los casos de uso.

el selector CSS le permite seleccionar una sección específica de una plantilla de página. Considere una página de producto de comercio electrónico típica, es posible que solo esté interesado en buscar la porción de «texto de contenido» de la página, no los elementos de navegación o la copia repetitiva.,

así que necesito elegir el selector que define esto, lo que puedo hacer usando la función ‘inspeccionar’ en Chrome:

así que en este caso puedo ver que el inspector que necesito es: div.product-description-content-text

al resaltar este selector en DevTools y desplazar la página hacia abajo, puedo ver que disecciona cuidadosamente la página para seleccionar solo la descripción del producto, y evita la pelusa repetitiva como ‘la letra pequeña’, que no estoy interesado en Buscar.,

para mayor claridad, así es como configuraría la regla en Sitebulb:

agregar múltiples reglas de búsqueda en masa

Si tiene muchas palabras/frases que desea buscar, utilice botón de reglas para agregarlas en masa.

Simplemente, escribe tus palabras/frases, una por línea, o simplemente copiar/pegar en la casilla. Funciona exactamente igual que la configuración «básica» de arriba, excepto para múltiples palabras o frases., Por lo tanto, aún puede configurar los patrones de exclusión de URL, qué elemento buscar y si busca en el texto y HTML o solo en el texto.

así que esto no le da la granularidad para configurar cada palabra de manera diferente, pero le permite cargar cientos o miles de frases a la vez.

cuando se complete el informe, cada regla se mostrará como si las hubiera ingresado una por una:

una nota en la escala

Con esta característica es posible volcar miles de palabras a la vez., Tenga en cuenta que si hace esto, la mejor manera de acceder a los datos es usar el botón verde exportar todos los datos de búsqueda que ve en la imagen de arriba. Puede acceder a los datos a través de la pestaña URLs, pero solo cargará 50 columnas a la vez, por lo que tendría que hacer un montón de Agregar/Eliminar para ver lo que desea.

así que nuestra recomendación es utilizar la exportación en su lugar.

Configuración avanzada

todo lo que hemos cubierto hasta ahora cae bajo el paraguas de configuración ‘básica’. Esto esencialmente significa que estamos pidiendo a Sitebulb que busque una palabra o frase a la vez (incluso a través del método ‘carga masiva’).,

pero también hay una opción ‘Avanzada’, en la única ventana’ Agregar regla’.

Este es el trato: puedes configurar cada regla como ‘básica’ o como ‘Avanzada’. No es una situación en la que configuras las cosas básicas y luego agregas algunas opciones avanzadas. Como tal, hay algunos elementos familiares que funcionan exactamente igual que se describe anteriormente para las opciones básicas. Y luego hay algunas cosas nuevas:

por lo tanto, no cubriremos el suelo antiguo con los bits inferiores de nuevo, solo consulte la sección anterior que explica cómo funciona todo eso.,

Estamos interesados en este bit:

El concepto es relativamente sencillo, estamos sustituyendo la palabra/frase’ con una combinación de palabras a buscar. El requisito de proporcionar un «nombre de regla» es simplemente para facilitar la visualización de los resultados en el informe.

vamos a trabajar a través de un ejemplo. Imagina que estamos auditando un sitio web de viajes., Queremos identificar páginas que hablan de deportes de invierno específicos, por lo que podríamos configurarlo de la siguiente manera:

Una vez aplicada esta regla, Sitebulb buscará cualquier página que contenga ‘esquí’, ‘snowboard’ o ‘patinaje sobre hielo’ (o cualquier combinación de los tres).

cuando echamos un vistazo a los resultados, puede ver el valor en Agregar un nombre de regla:

en este caso, los números devueltos en la columna ‘deportes de invierno’ reflejan el número total de partidos., Así que un resultado de ‘ 6 ‘podría significar que’ esquí ‘se menciona 4 veces, ‘snowboard’ 2 veces y ‘patinaje sobre hielo’ no en absoluto.

Ahora, imagine que queríamos identificar páginas que hablan de deportes de invierno específicos, pero solo para ciertos países. Podríamos descartar países específicos añadiéndolos en la casilla de la derecha «no contiene», p.ej.,

Lo Que Esto hace es mostrar las páginas sobre EE.UU./Canadá en lugar de Europa, como queríamos:

El uso de este enfoque combinado le permite hacer cosas como categorizar las páginas según el tema, o agruparlas según un conjunto de palabras clave objetivo, que luego podrían usarse para contenido auditorías o estrategias de vinculación interna.

coincidencia de URL

de forma predeterminada, Sitebulb realizará la búsqueda de contenido en cada página del sitio web., Esto significa que le está pidiendo a Sitebulb que haga más trabajo en términos de procesamiento, y significa que se almacenarán más datos en su disco duro una vez que se hayan recopilado los datos de auditoría.

para la mayoría de los sitios web – por ejemplo, un sitio típico de 10,000 páginas – no hay problema con esto, ya que el tamaño y la escala de las necesidades de recursos adicionales son insignificantes.,

sin embargo, Sitebulb puede manejar sitios web con millones de páginas, y en este tipo de escala, es posible que desee reducir la cantidad de trabajo de procesamiento que Sitebulb tiene que hacer mientras rastrea, y quizás de manera más pertinente: cuánto espacio ocupará la auditoría en su disco duro cuando se realice.

para esto está la pestaña URLs. Puede introducir patrones de inclusión o exclusión para que Sitebulb solo realice el análisis de búsqueda de contenido en páginas específicas.,

agregando patrones de exclusión

volviendo a un ejemplo en este sitio web, supongamos que queríamos encontrar páginas que mencionaran ‘rastreador’, pero no queremos realizar la búsqueda en ninguna de nuestras páginas /documentation/ (como esta misma URL), ingresaríamos la ruta /documentation/ con un signo menos (-) delante de ella:

  • -/documentation/

en los resultados, las páginas /documentation/ simplemente se enumeran como ‘no configuradas’, por lo que puede diferenciar los ceros legítimos de las páginas donde sitebulb simplemente no realizó la búsqueda.,

agregar patrones de inclusión

También podríamos hacer esto de una manera diferente, utilizando patrones de inclusión en su lugar.,ord en nuestras páginas de ‘ventas’ en el sitio, podríamos seleccionar solo realizar la búsqueda en /product/ y /features/ pages, ingresando las carpetas sin un signo menos:

  • /product/
  • /features/

los resultados de este muestran cómo somos capaces de aislar las páginas que realmente nos interesan, y los ‘ceros verdaderos’:

la coincidencia de URL funciona para las reglas básicas o avanzadas, y se puede definir de manera diferente para cada regla que agregue, para que pueda ser súper específico en su configuración.,

casos de uso y ejemplos

Además de los ejemplos ya cubiertos en este post, también tenemos un video tutorial con algunos ejemplos diferentes, que muestra algunas de las diferentes características y opciones dentro de la búsqueda de contenido:

advertencia Final: rastree con Chrome cuando sea necesario

lo último a señalar es que en algunos sitios, el contenido se carga a través de JavaScript, lo que significa que no es posible ver este contenido cuando lo hace ‘ver fuente.’Si este es el caso en el sitio web que está rastreando, debe asegurarse de cambiar al rastreador de Chrome en la configuración de auditoría.,

Esto significa que Sitebulb representará el JavaScript antes de realizar la búsqueda de contenido.

Leave A Comment