Articles

un site web de Căutare pentru un anumit cuvânt sau o frază

Posted by admin

Sitebulb are o caracteristică numită ‘Conținutul de Căutare, care vă permite să configurați crawler pentru a căuta un anumit cuvânt sau o expresie pe fiecare pagină, care se târăște.acest lucru vă permite să filtrați apoi paginile în funcție de faptul dacă conțin sau nu anumite cuvinte.

de exemplu:

  • verificați dacă paginile de produse ecommerce conțin mesaje „din stoc”.
  • verificați ce pagini se referă la un anumit nume de marcă sau nume de companie.,
  • înțelegeți ce pagini menționează anumite cuvinte cheie țintă (pentru construirea de legături interne).

cuprins

Acest ghid acoperă întregul proces de configurare a căutării de conținut în Sitebulb, inclusiv toate setările avansate.,

puteți sări la o anumită zonă a ghida folosind jumplinks de mai jos:

  • Cum să configurați conținutul de căutare
  • Vizualizare extrase de date
  • setări de Bază
  • Adăugați mai multe reguli de căutare în vrac
  • configurare Avansată
  • URL-ul de potrivire
  • cazuri de Utilizare & exemple (TUTORIAL VIDEO)
  • Târându-se cu Chrome

Adăugarea de conținut de căutare pentru site-ul tău audit

Pentru a începe, pur și simplu începe un nou audit, și de configurare opțiuni, defilați în jos să Extracție, și faceți clic pentru a deschide Conținutul opțiune de Căutare.,

apoi faceți clic pe butonul verde Adăugare regulă.

aceasta va deschide Expertul de reguli pe ecran. Pentru o căutare de bază, tot ce trebuie să faceți este să introduceți textul și să apăsați „Adăugați regula”, și asta este tot.

după ce ați adăugat regula, puteți să vă opriți acolo sau să continuați să adăugați mai multe reguli. Veți vedea toate regulile dvs. în pagina Configurare audit, pregătită pentru începerea auditului.,

De exemplu, dacă am vrut să se târască site-ul nostru și de a înțelege cât de des ne referință Sitebulb ca un crawler’ vs ‘ul auditor’, am putea stabili ca aceasta:

Cu un Sitebulb licență Pro, nu există nici o limită la numărul de norme puteți adăuga, deci colecta toate datele de care aveți nevoie (cu un Lite de licență există o limită de 3 reguli).după ce ați terminat de adăugat reguli și orice alte configurații de configurare a auditului, apăsați Start Now în partea dreaptă jos a ecranului, pentru a începe auditul.,după finalizarea auditului, puteți accesa raportul de date utilizând meniul din stânga.

Prezentare generală vă va arăta detaliile date de totaluri pentru fiecare expresie de căutare:

Cele două coloane de date-ți spun lucruri ușor diferite:

  • Total Găsit = numărul total de cazuri care Sitebulb găsit expresie, chiar dacă unele dintre ele au fost pe aceeași pagină.
  • găsit pe URL-uri = numărul de URL-uri unice care Sitebulb găsit fraza pe.,

fără a analiza datele în detaliu, putem vedea deja că „crawler” este dominant.

pentru a vedea detaliile anumitor URL-uri, trebuie să trecem la fila URL-uri, care arată URL-urile alături de coloanele conduse de filtrele text / frază. Numerele din fiecare celulă se referă la câte instanțe ale frazei au fost găsite pe fiecare pagină.

putem sorta rapid aceste date, făcând clic pe titlul coloanei pentru orice expresie de căutare vrem să sortați.,

ca întotdeauna cu listele URL, puteți adăuga sau elimina coloane, astfel încât să puteți combina cu ușurință datele tehnice de accesare cu crawlere cu datele extrase. De asemenea, puteți crea filtre pe date pentru a obține informații suplimentare.

aceasta este configurarea de bază și acest proces simplu vă va permite să configurați cu ușurință căutările de conținut și să vizualizați datele din rezultatele dvs.

Setări de bază – alte opțiuni

procesul descris mai sus este potrivit pentru cele mai simple cazuri de utilizare a căutării de conținut., Cu toate acestea, există câteva setări suplimentare pe care încă nu le-am explorat.

imaginea De mai jos arată configurarea implicit, cu un exemplu de căutare fraza:

Să sape în ce fiecare opțiune înseamnă mai în detaliu:

  • Cuvânt sau text pentru a Găsi – Aceasta este fraza care Sitebulb va căuta atunci când crawling fiecare adresă URL. Folosește o potrivire de frază, astfel încât exemplul de mai sus se va potrivi pe un șir precum „cele mai bune ochelari de schi”, dar nu pe un șir precum „cele mai bune ochelari de schi sau snowboard”.
  • ignorați cazul – destul de auto-explicativ., Dacă este bifat, Sitebulb se va potrivi pe un șir de caractere, cum ar fi „ochelari de schi” sau ” ochelari de schi.”Unticked, nu s-ar potrivi pe oricare dintre aceste exemple, numai pe minuscule” ochelari de schi.’
  • Element de căutat-Alegeți dintr-un drop-down pentru a selecta ce element HTML ar trebui să caute Sitebulb. Implicit de „toate elementele html” este bine pentru cele mai multe cazuri, dar vom explora câteva alte exemple de mai jos.
  • căutare în-opțiunile de aici sunt „numai Text” sau ” HTML și Text. Opțiunea „Numai Text” va căuta doar textul vizibil pe pagină, în timp ce opțiunea „HTML și Text” va căuta și în HTML (de ex., meta descrieri). majoritatea acestor opțiuni sunt destul de intuitive și/sau simple de testat și verificat. Cu toate acestea, opțiunea „Element de căutare” este un pic mai nuanțată și necesită o explicație mai mică.,

    Element pentru a Căuta – a explicat

    Pentru început, există un număr de opțiuni pe verticală:

    toate aceste opțiuni se referă la structura HTML a paginii:

    Această opțiune specifică înseamnă că Sitebulb ar căuta în <corp> (galben) secțiunea numai, dar nu va include orice ancora (<>) elemente. Cu alte cuvinte, Căutați conținutul corpului, dar nu includeți niciun link.,

    de exemplu, să zicem că am vrut să punctăm câteva linkuri interne la pagina noastră de crawling JavaScript. Dacă vom căuta pentru expresia ‘javascript târându-se în întreaga <html> sau întregul <corp>, acesta va colecta toate link-urile noastre în panoul de navigare de sus:

    Deci, literalmente fiecare pagina ar fi luat la ochi. Nu ajută deloc.,

    Dar dacă vom alege în schimb ‘<corp> dar nu <>’, atunci acest lucru ar ridica doar la cazuri în care expresia este prezent în non-link-ul <corp> elemente.

    foarte util, într-adevăr.

    și în cele din urmă avem opțiunea de Jos din meniul derulant: „un element specific”. Când selectați acest lucru, apare o nouă casetă dedesubt, care vă cere să introduceți selectorul CSS care definește elementul specific pe care doriți să îl răzuiți., De exemplu:

    în general, aceasta ar trebui considerată o opțiune avansată – dacă nu aveți idee ce este un selector CSS, atunci evitați această opțiune și rămâneți cu ceilalți, sunt mai mult decât adecvate pentru aproape toate cazurile de utilizare.selectorul CSS vă permite să alegeți o anumită secțiune dintr-un șablon de pagină. Luați în considerare o pagină tipică de produs ecommerce, s – ar putea să fiu interesat doar de căutarea porțiunii „text de conținut” a paginii-nu a elementelor de navigare sau a copiei boilerplate.,deci, trebuie să aleg selectorul care definește acest lucru, pe care îl pot face folosind funcția”inspectați”în Chrome:

    Deci, în acest caz, pot vedea că inspectorul de care am nevoie este: div.product-description-content-text

    prin evidențierea acestui selector în DevTools și derularea paginii în jos, văd că disecă perfect pagina pentru a alege doar descrierea produsului și evită puful de boilerplate ca „imprimarea mică”, pe care nu mă interesează să o caut.,

    Pentru claritate, aici este cum mi-ar stabili o regulă în Sitebulb:

    Adăugați mai multe reguli de căutare în vrac

    Dacă aveți o MULȚIME de cuvinte/fraze pe care doriți să căutați, utiliza ‘Adauga mai Multe Reguli buton, în scopul de a le adăuga în vrac.

    pur și simplu scrieți cuvintele/expresiile, una pe linie sau doar copiați/lipiți în casetă. Funcționează exact ca configurația unică „de bază” de mai sus, cu excepția mai multor cuvinte sau fraze., Deci, puteți configura în continuare modelele de excludere URL, ce element să căutați și dacă căutați în text și HTML sau doar în text.

    deci, acest lucru nu vă oferă granularitatea pentru a configura fiecare cuvânt diferit, dar vă permite să încărcați în vrac sute sau mii de fraze simultan.

    atunci Când raportul este complet, fiecare regulă va afișa ca și cum ai fi intrat-le unul câte unul:

    O notă pe o scară

    Cu această caracteristică, este posibil să se arunce mii de cuvinte la o dată., Rețineți că, dacă faceți acest lucru, cel mai bun mod de a accesa datele este să utilizați butonul verde exportați toate datele de căutare pe care le vedeți în imaginea de mai sus. Puteți accesa datele prin fila URL-uri, dar va încărca doar 50 de coloane simultan, deci va trebui să faceți o mulțime de Adăugare/eliminare pentru a vedea ce doriți.

    deci recomandarea noastră este să folosiți exportul în schimb.

    Configurare avansată

    tot ceea ce am acoperit până acum se încadrează sub umbrela „Basic” setup. Acest lucru înseamnă, în esență, că solicităm Sitebulb să caute un cuvânt sau o expresie la timp (chiar și prin metoda „încărcare în bloc”).,

    dar există, de asemenea, o opțiune „Advanced”, pe fereastra unică „Add Rule”.

    Iată împărțirea – fie configurezi fiecare regulă ca fiind „de bază”, fie o configurezi ca fiind „avansată”. Nu este o situație în care configurați lucrurile de bază și apoi mergeți și adăugați câteva opțiuni avansate. Ca atare, există câteva elemente familiare care funcționează exact la fel ca cele descrise mai sus pentru opțiunile de bază. Și apoi există unele lucruri noi:

    deci, nu vom acoperi din nou pământul vechi cu biții de jos, vă rugăm să consultați secțiunea de mai sus, care explică cum funcționează toate acestea.,

    suntem interesați de acest bit:

    conceptul este relativ simplu, înlocuim „Cuvânt/expresie” cu o combinație de cuvinte pentru a căuta. Cerința de a furniza un „nume de regulă” este pur și simplu pentru a facilita vizualizarea rezultatelor în raport.

    să lucrăm printr-un exemplu. Imaginați-vă că audităm un site web de călătorie., Vrem să identifice pagini care vorbesc despre anumite sporturi de iarnă, așa că am putea stabili ca aceasta:

    Odată ce această regulă este aplicată, Sitebulb ar căuta orice pagini care conțin fie ‘schi’, ‘snowboard” sau „patinaj’ (sau orice combinație a celor trei).

    Când ne uităm la rezultate, puteți vedea valoarea în adăugarea unei reguli nume:

    În acest caz, numerele revenit în Sporturile de Iarnă’ coloana a reflecta numărul total de meciuri., Deci, un rezultat de ” 6 „ar putea însemna că „schi” este menționat de 4 ori, „snowboarding” de 2 ori și „patinaj” nu la toate.acum, imaginați-vă că am vrut să identificăm pagini care vorbesc despre anumite sporturi de iarnă, dar numai pentru anumite țări. Am putea exclude anumite țări prin adăugarea lor în caseta din dreapta „nu conține”, de exemplu.,ceea ce face acest lucru este Suprafață paginile despre SUA/Canada în loc de Europa, așa cum ne – am dorit:

    folosind această abordare combinație vă permite să faceți lucruri cum ar fi categorisi pagini bazate pe subiect, sau de grup-le pe baza unui set de cuvinte cheie țintă-care audituri sau strategii interne de legătură.

    URL matching

    în mod implicit, Sitebulb va efectua căutarea de conținut pe fiecare pagină de pe site., Aceasta înseamnă că solicitați Sitebulb să lucreze mai mult în ceea ce privește procesarea și înseamnă că mai multe date vor fi stocate pe hard disk odată ce datele de audit au fost colectate.pentru majoritatea site – urilor web – de exemplu un site tipic de 10.000 de pagini-nu există nicio problemă cu acest lucru, deoarece dimensiunea și amploarea cerințelor suplimentare de resurse sunt neglijabile.,

    cu toate Acestea, Sitebulb pot ocupa de site-uri cu milioane de pagini, și în acest fel de scară s-ar putea dori să se uite la reducerea cantității de muncă de prelucrare Sitebulb a face în timp ce accesarea cu crawlere, și poate mai pertinent – cât de mult spațiu de audit va dura până pe hard disk atunci când este făcut.

    pentru aceasta este fila URL. Puteți introduce modele de includere sau excludere, astfel încât Sitebulb va efectua doar analiza de căutare a conținutului pe anumite pagini.,

    Adăugarea de excludere modele

    Revenind la un exemplu pe acest site, să presupunem că am vrut pentru a găsi pagini care menționează ‘crawler, dar nu doriți să efectuați căutare pe orice /documente/ pagini (cum ar fi acest lucru foarte URL-ul), ne-ar intra în /documentare/ cale cu un semn minus (-) față de:

    • -/documentare/

    În rezultatele, /documentare/ pagini sunt pur și simplu enumerate ca Nu ‘Set’, astfel încât să puteți diferenția legitime zerouri de la paginile unde Sitebulb pur și simplu nu a efectuat căutarea.,

    adăugând modele de includere

    am putea face acest lucru și într-un mod diferit, folosind modele de includere în schimb.,ord noastre „de vânzare” pagini de pe site-ul, ne-am putea alege pentru a efectua căutare pe /produs/ și /caracteristici/ pagini, prin introducerea foldere, FĂRĂ semnul minus:

    • /produs/
    • /caracteristici/

    rezultatele pentru asta arată cât suntem capabili să se izoleze de pagini, de fapt, suntem interesați în, și diferenția cu ușurință adevărata zerouri’:

    URL-ul de potrivire lucrări de Bază sau reguli Avansate, și poate fi definită în mod diferit pentru fiecare regula add – astfel încât să puteți obține super specifice în configurarea.,

    cazuri de Utilizare și exemple

    În plus față de exemplele deja acoperite în acest post, avem, de asemenea, un tutorial video cu unele exemple diferite, care prezintă unele caracteristici și opțiuni diferite în căutare de conținut:

    Final avertisment – se târască cu Chrome, atunci când este necesar

    ultimul lucru de subliniat este faptul că pe unele site-uri, conținutul este încărcat în via JavaScript, ceea ce înseamnă că nu este posibil pentru a vizualiza acest conținut atunci când faci ‘View Source.”Dacă acesta este cazul pe site-ul web pe care îl accesați, trebuie să vă asigurați că treceți la crawlerul Chrome din setările de audit.,

    Acest lucru înseamnă că Sitebulb va face JavaScript înainte de a efectua căutare de conținut.

Leave A Comment