Articles

Robot meta tag, data-nosnippet e X-Robots-Tag specifiche

Posted by admin

Abstract

Questo documento descrive come le impostazioni a livello di pagina e testo possono essere utilizzate per regolare il modo in cui Googlepresenta i tuoi contenuti nei risultati di ricerca. È possibile specificare le impostazioni a livello di pagina includendo un meta tagon pagine HTML o in un’intestazione HTTP. È possibile specificare le impostazioni a livello di testo con l’attributo data-nosnippet sugli elementi HTML all’interno di una pagina.,

Utilizzo del meta tag robot

Il meta tag robot consente di utilizzare un approccio granulare e specifico per la pagina per controllare come una singola pagina deve essere indicizzata e servita agli utenti nei risultati di ricerca di Google. Posiziona il meta tag robot nella sezione<head> di una determinata pagina, in questo modo:

<!DOCTYPE html><html><head><meta name="robots" content="noindex" />(…)</head><body>(…)</body></html>

Il meta tag robot nell’esempio precedente indica ai motori di ricerca di non mostrare la pagina in searchresults. Il valore dell’attributoname (robots) specifica che thedirective si applica a tutti i crawler., Per indirizzare un crawler specifico, sostituire il valorerobotsdell’attributoname con il nome del crawler a cui si sta indirizzando.I crawler specifici sono noti anche come user agent (un crawler utilizza il suo user agent per richiedere una pagina.) Il crawler web standard di Google ha il nome agente utente Googlebot. Per evitare che onlyGooglebot indicizzi la tua pagina, aggiorna il tag come segue:

<meta name="googlebot" content="noindex" />

Questo tag ora ordina a Google di non mostrare questa pagina nei risultati di ricerca., Entrambi gli attributiname econtent non sono case sensitive.

I motori di ricerca possono avere crawler diversi per diverse proprietà o scopi. Vedi l’elenco completo dei crawler di Google., Ad esempio, per visualizzare una pagina web di Google risultati di ricerca, ma non in Google News, utilizzare il seguente meta tag:

<meta name="googlebot-news" content="noindex" />

Per specificare più di un crawler singolarmente, l’uso di più meta tag robots:

<meta name="googlebot" content="noindex"><meta name="googlebot-news" content="nosnippet">

Usando la X-Robots-Tag di intestazione HTTP

X-Robots-Tag può essere utilizzato come un elemento di header HTTP di risposta per un determinato URL. Qualsiasi direttiva che può essere utilizzata in un meta tag robot può anche essere specificata come X-Robots-Tag., Ecco un esempio di una risposta HTTP con un X-Robots-Tag istruire i crawler di non indicizzare una pagina:

HTTP/1.1 200 OKDate: Tue, 25 May 2010 21:42:43 GMT(…)X-Robots-Tag: noindex(…)

Più X-Robots-Tag intestazioni possono essere combinati all’interno di risposta HTTP, oppure è possibile specificare un elenco separato da virgole delle direttive. Ecco un esempio di una risposta di intestazione HTTP che ha un noarchive X-Robots-Tag combinato con un unavailable_after X-Robots-Tag.

Il X-Robots-Tag può facoltativamente specificare un agente utente prima delle direttive., Ad esempio, il seguente set di intestazioni HTTP X-Robots-Tag può essere utilizzato per consentire condizionalmente la visualizzazione di una pagina nei risultati di ricerca per diversi motori di ricerca:

HTTP/1.1 200 OKDate: Tue, 25 May 2010 21:42:43 GMT(…)X-Robots-Tag: googlebot: nofollowX-Robots-Tag: otherbot: noindex, nofollow(…)

Le direttive specificate senza un user agent sono valide per tutti i crawler. L’intestazione HTTP, il nome agente utente e i valori specificati non fanno distinzione tra maiuscole e minuscole.

Indicizzazione valida&serving directives

Le seguenti direttive possono essere utilizzate per controllare l’indicizzazione e il serving di uno snippet con il meta tag robots e X-Robots-Tag., All’interno dei risultati di ricerca, uno snippet è un breve estratto di testo utilizzato per dimostrare la rilevanza di un documento per la query di un utente. La tabella seguente mostra tutte le direttive che Google onora e il loro significato. Ogni valore rappresenta una direttiva specifica. Più direttive possono essere combinate in un elenco separato da virgole. Queste direttive sono case-insensitive.

Direttive

all

Non ci sono restrizioni per l’indicizzazione o il servizio. Questa direttiva è il valore predefinito e non ha alcun effetto se esplicitamente elencato.,

noindex

Non visualizzare questa pagina nei risultati di ricerca.

nofollow

Non seguire i link di questa pagina.

nessuno

Equivalente a noindex, nofollow.

noarchive

Non mostra un link memorizzato nella cache nei risultati di ricerca.

nosnippet

Non mostrare un frammento di testo o un’anteprima video nei risultati di ricerca di questa pagina., Una miniatura dell’immagine statica (se disponibile) può essere ancora visibile, quando si traduce in una migliore esperienza utente. Questo vale per tutte le forme di risultati di ricerca (a Google: ricerca web, Google Immagini, Scopri).

max-snippet:

Utilizzare un massimo di caratteri come snippet testuale per questo risultato di ricerca. (Si noti che un URL può apparire come più risultati di ricerca all’interno di una pagina dei risultati di ricerca.) Ciò non influisce sulle anteprime di immagini o video. Questo vale per tutte le forme di risultati di ricerca (come Google web search, Google Images, Discover, Assistant)., Tuttavia, questo limite non si applica nei casi in cui un editore ha concesso separatamente l’autorizzazione per l’uso del contenuto. Ad esempio, se l’editore fornisce contenuti sotto forma di dati strutturati all’interno della pagina o ha un contratto di licenza con Google, questa impostazione non interrompe gli usi consentiti più specifici. Questa direttiva viene ignorata se non viene specificato alcun analizzabile.

Valori speciali:

  • 0: Nessun frammento deve essere mostrato. Equivalente a nosnippet.,
  • -1: Google sceglierà la lunghezza del frammento che ritiene più efficace per aiutare gli utenti a scoprire i tuoi contenuti e indirizzare gli utenti al tuo sito.

Esempio:

<meta name="robots" content="max-snippet:20">

max-image-preview:

Imposta la dimensione massima di un’anteprima dell’immagine per questa pagina nei risultati di ricerca.

Accettato setting valori:

  • none: Nessuna anteprima dell’immagine deve essere mostrata.
  • standard: è possibile visualizzare un’anteprima dell’immagine predefinita.,
  • large: è possibile visualizzare un’anteprima dell’immagine ingrandita, fino alla larghezza della finestra.

Questo vale per tutte le forme di risultati di ricerca (come Google web search, Google Images, Discover, Assistant). Tuttavia, questo limite non si applica nei casi in cui un editore ha concesso separatamente l’autorizzazione per l’uso del contenuto. Ad esempio, se l’editore fornisce contenuti sotto forma di dati strutturati all’interno della pagina (come le versioni AMP e canoniche di un articolo) o ha un accordo di licenza con Google, questa impostazione non interromperà gli usi consentiti più specifici.,

Gli editori che non vogliono che Google utilizzi miniature più grandi quando le loro pagine AMP e la versione canonica di un articolo vengono mostrate in Cerca o Scopri devono specificare unmax-image-preview valore distandard onone.

Esempio:

<meta name="robots" content="max-image-preview:standard">

max-video-preview:

Utilizzare un massimo di secondi come frammento video per i video in questa pagina nei risultati di ricerca.,

Altri valori supportati:

  • 0: Al massimo, è possibile utilizzare un’immagine statica, in conformità con l’impostazionemax-image-preview.
  • -1: Non c’è limite.

Questo vale per tutte le forme di risultati di ricerca (a Google: ricerca web, Google Immagini, Google Video, Scoprire, Assistente). Questa direttiva viene ignorata se non viene specificato alcun analizzabile.,

Esempio:

<meta name="robots" content="max-video-preview:-1">

notranslate

Non offrire la traduzione di questa pagina nei risultati di ricerca.

noimageindex

Non indicizzare le immagini in questa pagina.

unavailable_after:

Non mostrare questa pagina nei risultati di ricerca dopo la data/ora specificata. La data / ora deve essere specificata in un formato ampiamente adottato tra cui, ma non limitato a RFC 822, RFC 850 e ISO 8601. La direttiva viene ignorata se non viene specificato alcun valido., Per impostazione predefinita, non esiste una data di scadenza per il contenuto.

Esempio:

<meta name="robots" content="unavailable_after: 2020-09-21">

Gestione delle direttive combinate di indicizzazione e pubblicazione

È possibile creare un’istruzione multi-direttiva combinando le direttive dei meta tag dei robot con le virgole., Ecco un esempio di un meta tag robots che indica i web crawler non indicizzare la pagina e a non strisciare uno dei link nella pagina:

<meta name="robots" content="noindex, nofollow">

Ecco un esempio che limiti lo snippet di testo di 20 caratteri, e permette una grande immagine di anteprima:

<meta name="robots" content="max-snippet:20, max-image-preview:large">

Per le situazioni in cui più crawler sono specificati, con diverse direttive, il motore di ricerca di utilizzare la somma dei negativi direttive., Ad esempio:

<meta name="robots" content="nofollow"><meta name="googlebot" content="noindex">

La pagina contenente questi meta tag verrà interpretata come avente una direttiva noindex, nofollow quando viene eseguita la scansione da Googlebot.

Utilizzando l’attributo HTML data-nosnippet

È possibile designare parti testuali di una pagina HTML da non utilizzare come snippet. Questo può essere fatto a livello di elemento aHTML con l’attributodata-nosnippet HTML suspan,div esection., Il data-nosnippet è considerato aboolean attributo, è valido con o senza un valore. Per garantire la leggibilità della macchina, la sezione HTML deve essere HTML valido e tutti i tag appropriati devono essere chiusiaccordingly.

Esempi:

Google esegue in genere il rendering delle pagine per indicizzarle, tuttavia il rendering non è garantito.Per questo motivo, l’estrazione di data-nosnippet può avvenire sia prima che dopo il trending. Per evitare incertezze dal rendering, non aggiungere o rimuovere l’attributo data-nosnippetdei nodi esistenti tramite JavaScript., Quando si aggiungono elementi DOM tramite JavaScript, includere l’attributodata-nosnippet come necessario quando si aggiunge inizialmente l’elemento al DOM della pagina. Se vengono utilizzati elementi personalizzati, avvolgerli o renderizzarli condiv,span osection elementi se è necessario utilizzaredata-nosnippet.

Utilizzo di dati strutturati

I meta tag robot regolano la quantità di contenuti che Google estrae automaticamente dalle pagine Web per la visualizzazione come risultati di ricerca. Ma molti editori usano anche schema.,org dati strutturati per rendere disponibili informazioni specifiche per la presentazione della ricerca. Il meta tag Robots limitazioni non pregiudica l’uso della detta dati strutturati, con l’eccezione di article.description edescription valori per i dati strutturati specificato per altri lavori creativi.Per specificare la lunghezza massima di un anteprima basata su questi description valori,utilizzare il tag max-snippet meta tag robots., Ad esempio, recipe i dati strutturati su una pagina possono essere inclusi nel carosello delle ricette, anche se l’anteprima del testo sarebbe altrimenti limitata. È possibile limitare la lunghezza di un’anteprima di testo con max-snippet,ma il meta tag robot non si applica quando le informazioni vengono fornite utilizzando dati strutturati per risultati completi.

Per gestire l’utilizzo di dati strutturati per le pagine web, modificare i tipi di dati strutturati e i valori stessi, aggiungendo o rimuovendo informazioni al fine di fornire solo i dati che si desidera rendere disponibili., Si noti inoltre che i dati strutturati rimangono utilizzabili per searchresults quando dichiarati all’interno di un elemento data-nosnippet.

Implementazione pratica di X-Robots-Tag

È possibile aggiungere ilX-Robots-Tag alle risposte HTTP di un sito attraverso i file di configurazione del software del server web del sito. Ad esempio, su server Web basati su Apache è possibile utilizzare.htaccess e httpd.file conf. Il vantaggio di utilizzare unX-Robots-Tag con HTTPresponses è che è possibile specificare le direttive di scansione applicate globalmente su un sito., Il supporto delle espressioni regolari consente un elevato livello di flessibilità.

Ad esempio, per aggiungere un noindex, nofollow X-Robots-Tag all’HTTPresponse for all .File PDF in un intero sito, aggiungere il seguente frammento alla radice del sito.file htaccess o httpd.conf file su Apache, o del sito .file conf su NGINX

Apache:

<Files ~ "\.pdf$"> Header set X-Robots-Tag "noindex, nofollow"</Files>

NGINX:

location ~* \.pdf$ { add_header X-Robots-Tag "noindex, nofollow";}

È possibile utilizzare X-Robots-Tag per file non HTML come file immagine in cui l’utilizzo di meta tag robots in HTML non è possibile., Ecco un esempio di aggiunta di una direttiva noindexX-Robots-Tag per i file di immagini (.png, .JPEG, .jpg, .gif) su un intero sito:

Apache:

<Files ~ "\.(png|jpe?g|gif)$"> Header set X-Robots-Tag "noindex"</Files>

NGINX:

location ~* \.(png|jpe?g|gif)$ { add_header X-Robots-Tag "noindex";}

Combinando la scansione con le direttive di indicizzazione / serving

I meta tag dei robot e X-Robots-Tag Le intestazioni HTTP vengono scoperte quando URL è strisciato.Se una pagina non è autorizzata a strisciare attraverso i robot.file txt, quindi qualsiasi informazione suindexing o serving directives non verrà trovata e verrà quindi ignorata., Se è necessario seguire le direttive di indicizzazione o di conservazione, gli URL contenenti tali direttive non possono essere disabilitati fromcrawling.

Leave A Comment