Flash Indexing Experiment 2: Results

30 novembre 2008
Google ha raggiunto l'oro?

Risultati: Google ha raggiunto l'oro?

Rieccoci con i promessi risultati del nostro Flash Indexing Experiment:

Questa (semplice?!?) tabella mostra un riassunto dei risultati nel tempo per i nostri 4 test ( test 1, test 2, test 3, test 4):

Legenda:

  • P = Presente. Il file è su internet e linkato nel Blog.
  • NP = Non Presente. Il file non è ancora stato inserito su internet
  • I [punti] = Il file risulta indicizzato nell’indice di Google. I punti sono i campi testuali dei vari file.
  • NI = Non Indicizzato. Il file non risulta nella serp di Google per le parole chiave.

Tabella riassuntiva:

Data
01-swf
01-html
02-swf
02-html
03-swf
03-html
Note
21/10 P – NI NP NP NP NP NP N/A
29/10 P – NI P – NI NP NP NP NP N/A
06/11 PI

[4,6,7]

P – NI P – NI P – NI NP NP N/A
13/11 PI

[3,5

,7,8]

PI

[1,3,5,

7,8]

PI

[4,6,7]

P – NI P – NI P – NI Scambio contenuti da 01SWF a 02SWF
15/11 PI

[1,3,5,

7,8]

PI

[1,3,5,

7,8]

PI

[4,6,7]

P – NI P – NI P – NI N/A
18/11 PI

[1,3,5,

7,8]

PI

[1,3,5,

7,8]

PI

[4,6,7]

P – NI PI[5,6,

8,9]

P – NI N/A
19/11 P – NI PI

[1,3,5,

7,8]

PI

[4,6,7]

P – NI PI[5,6,

8,9]

P – NI Sparito 01SWF
21/11 PI

[1,3,5,

7,8]

PI

[1,3,5,

7,8]

PI

[4,6,7]

P – NI PI[5,6,

8,9]

P – NI Ri comparso 01SWF
25/11 PI

[1,3,5,

7,8]

P – NI PI

[4,6,7]

P – NI PI[5,6,

8,9]

P – NI Scomparso 01HTML
27/11 PI

[1,3,5,

7,8]

PI

[3,5,8]

PI

[4,6,7]

P – NI PI[5,6,

8,9]

PI[1,4,7] Ri comparso parzial- mente 01HTML

I risultati dei quattro test svolti in contemporanea, sono nel complesso più che soddisfacenti. Google è arrivato a guadagnarsi l’oro olimpionico.

E’ riuscito difatti ad indicizzare quasi tutti i testi che ho sottoposto alla sua lettura.
Sono stati bene indicizzati:
  • testi statici;
  • testi dinamici inseriti mediante ActionScript con la funzione .text ( campoTesto.text = “Ecco il testo che comparirà all’utente”; );
  • testi statici all’interno di bottoni;
  • testi statici, con link;
  • testi dinamici inseriti direttamente nel campo di testo, con link;
  • testi statici esterni ai contorni del filmato;
  • testi dinamici inseriti direttamente nel campo di testo, esterni ai contorni del filmato;
  • link legati a testi statici (mediante l’opzione “collegamento ipertestuale” nelle proprietà del campo di testo);
  • link legati a testi dinamici (mediante l’opzione “collegamento ipertestuale” nelle proprietà del campo di testo).
Ecco cosa, invece, Google non è riuscito ad indicizzare bene o per niente:

  • testi trasformati in tracciato vettoriale ( mediante la funzione Break Apart );
  • link inseriti in oggetti o bottoni per mezzo dell’istruzione ActionScript: getURL();
  • difficoltà nell’indicizzare le pagine HTML contenenti i filmati Flash, a favore degli stessi filmati.
Ci sono state difficoltà per il motore di ricerca nell’indicizzare tutte queste tipologie di campi di testo e non sempre l’indicizzazione ha avuto esiti immediati.
Dai test si evince che le modalità con cui Googlebot memorizza ed indicizza il testo contenuto all’interno dei file Flash, sono approssimativamente regolari:

  • prima passata di GoogleBot e prima memorizzazione di testi e link. Google in questo passaggio predilige campi di testo in cui attiva l’opzione “collegamento ipertestuale”. I testi vengono memorizzati e compaiono dunque nella serp, ma i risultati sono confusionari perchè composti, per la maggior parte, da tag html che servono per definire le impostazioni del testo;
  • seconda passata di GoogleBot. Questa volta viene indicizzato un numero maggiore di campi di testo e vengono corretti gli errori di visualizzazione dovuti ai tag html;
  • terza passata correttiva e successive letture di assestamento. GoogleBot legge tutti i link che il suo algoritmo gli permette di indicizzare. Avviene quindi la stesura ed il completamento del corrispettivo testuale ai testi ed ai link dell’SWF.
Le fasi si susseguono con tempistiche variabili. La prima fase ha luogo in un arco di tempo abbastanza ampio: tra i 5 ed i 15 giorni.
Le fasi successive avvengono quasi sempre a distanza di 5-7 giorni l’una dall’altra.
Tutte le tempistiche sono ovviamente relative e dipendono da vari fattori quali: il carico di lavoro che Google sta elaborando in quel periodo; la popolarità e la longevità dello spazio web dove i contenuti vengono inseriti; la frequenza di aggiornamento del sito / blog dove sono stati inseriti i contenuti; la presenza o meno di sitemap che linkano i nuovi contenuti; tutto ciò che potrebbe influenzare l’algoritmo di Google e riguardare il sito / blog dove è stato inserito l’SWF.
Sperando che tutto ciò vi sia stato utile o, almeno, sia di vostro gradimento, vi invito a chiedermi ogni sorta di chiarimento, dubbio o consiglio. Alla prossima!

Google sa leggere! (… anche i documenti scannerizzati)

31 ottobre 2008

Prego.. legga la prima riga.

Il cartello dell’oculista insegna che tutto si può leggere.

(basta avvicinarsi a sufficienza!)

Google ha annunciato che da ieri, grazie ad un sistema di Optical Character Recognition, è in grado di leggere documenti scannerizzati.

Per ora questa tecnica, chiamata anche OCR o Riconoscimento delle immagini, è “limitata” ai soli pdf composti da immagini.

Annuncio ufficiale dal blog di Google

Dunque testi che non erano disponibili fino ad ora, sono stati  e saranno indicizzati. Se avete scannerizzato un documento, avendo sempre contato sul fatto che non starebbe stato mai trovato da nessuno, vi conviene rivedere la vostra strategia…


GAUDIO! Google Audio Indexing

9 ottobre 2008


Gaudi è un esperimento dei laboriosi Google Labs che indicizza i file audio e permette la ricerca al loro interno. Questi giorni bigG ha esteso l’indicizzazione, in vista delle elezioni americane, ai video politici su youtube, così, cercando la parola desiderata, vi compariranno i video dove viene detta, evidenziati nei precisi punti in cui viene menzionata.

Naturalmente questo sistema non è perfetto ed a volte ci rimanda a parole con tuttaltro significato. D’altronde l’indicizzazione audio non è semplicissima e comunque si tratta di un esperimento in corso di sviluppo. In conclusione bel lavoro!


Google + Flash: Pro e contro

5 ottobre 2008
There should be somthing here

There should be something here

Google con il tempo ha sviluppato algoritmi complessi ora compatibili con i maggiori file multimediali, solo ultimamente ha integrato l’indicizzazione degli elementi di testo contenuti nei file Flash .swf.

Tale algoritmo è stato migliorato sotto il profilo delle prestazioni grazie all’integrazione della tecnologia usata nel Flash Player di Adobe.

Di seguito riassumo i punti forti e le principali caratteristiche del nuovo algoritmo:

  • E’ stata migliorata la capacità di indicizzare il testo contenuto in qualsiasi tipo di file Flash: dai semplici banner ai siti interamente realizzati con tale tecnologia.
  • Tutto il testo contenuto in file Flash che può essere visto dagli utenti, potrà essere utilizzato da Google per la generazione degli snippet all’interno delle pagine dei risultati e verrà ovviamente indicizzato al fine di rispondere alle ricerche degli utenti.
  • Oltre al testo verranno inoltre considerati anche gli URL presenti all’interno dei file Flash proprio come accade per le pagine html. Quindi se nel file .swf ci sono collegamenti che portano ad un secondo sito, Google è in grado di scoprire e di eseguire la scansione del sito linkato.
  • Sito in Flash nei risultati di ricerca prima degli ultimi miglioramenti:

Stesso sito Flash dopo aver migliorato l’indicizzazione, chiave di ricerca: [NASA deep impact animation]:

  • L’algoritmo indicizza, oltre ai nuovi contenuti provenienti dalle suite Adobe CS3 e CS4, anche i filmati sviluppati con versioni precedenti che contengono ActionScript 1 e 2. (da Macromedia Flash 5 ad Adobe Flash 8 )
  • Dopo recenti aggiornamenti è stata implementata la lettura di Javascript e delle tecniche comuni per l’incorporamento di Flash, compresi SWFObject e SWFObject2.
  • Il testo in file Flash è trattato analogamente al testo trovato in altri file, ad esempio HTML, PDF, ecc Se il file Flash è incorporato nell’ HTML (come la maggior parte dei file Flash reperibili in rete), il suo contenuto è associato all’ URL della pagina che lo incorpora ed essi vengono indicizzati come singola entità.
  • Per quanto riguarda l’ActionScript, l’algoritmo è in grado di trovare nuovi collegamenti caricati attraverso gli script. Esso esplora Flash come farebbe un visitatore, ma non decompila il file swf. A meno che l’ActionScript non sia volontariamente esposto ai visitatori, Google si è impegnato a non mostrarlo.

Naturalmente l’algoritmo è in via di sviluppo ed al rilascio, avvenuto l’ 1 Luglio 2008, seguiranno miglioramenti ed upgrade

Limiti dell’algoritmo:

  • Al momento, i ricercatori sono solo alla scoperta e indicizzazione dei contenuti testuali nel file Flash. Se il file Flash include solo immagini, non verranno ovviamente riconosciuti testi che possono comparire in quelle immagini.
  • I file di tipo FLV, come i video presenti su YouTube, non risentiranno dei benefici apportati da questo nuovo algoritmo, in quanto non contengono alcun elemento di tipo testuale.
  • Non generano alcun testo e quindi non vengono indicizzati i pulsanti che hanno URL di destinazione, ma che non hanno un testo associato.
  • Bisogna essere consapevoli del fatto che Google è ora in grado di vedere il testo che appare ai visitatori di ogni sito Flash. Se si preferisce che Google ignori contenuti informativi come ad esempio i copyright ed i “loading” dei filmati, sarà necessario sostituire il testo con una immagine (in flash il comando Break Apart trasforma qualsiasi stringa di testo in immagine vettoriale), ciò lo renderà invisibile al motore.
  • Googlebot non eseguiva alcuni tipi di JavaScript. Quindi, quando la pagina web caricava un file Flash tramite JavaScript, Google poteva non essere a conoscenza di tali file Flash, che nel qual caso non venivano indicizzati. Successimanente un aggiornamento ha consentito il supporto per Javascript e le tecniche comuni per l’incorporamento di Flash, compresi SWFObject e SWFObject2.
  • Al momento non vengono allegati i contenuti, da risorse esterne, che vengono richiamati da file Flash. Se il file swf carica un file HTML, un file XML, un altro file SWF, ecc, Google indicizzerà separatamente la risorsa, ma non la collega al contenuto del file Flash, quindi non sarà tale essere considerata un unico file o un unica pagina.
  • L’algoritmo è in grado di indicizzare correttamente Flash in quasi tutte le lingue reperibili nel web, ma attualmente ci sono difficoltà con i contenuti Flash scritti in lingue bidirezionali. E’ un problema in via di risoluzione, ma fino ad allora, Google non sarà in grado di indicizzare contenuti di file Flash in lingua ebraica o lingua araba.
  • I contenuti caricati dinamicamente da file, in risorse esterne rispetto al filmato Flash, non vengono indicizzati. Questa caratteristica richiesta da molti webmaster verrà presa in considerazione solo in futuri aggiornamenti.
  • Elaborare lo stesso contenuto in Flash ed in una degradata versione HTML potrebbe generare contenuti duplicati. Ciò non causerà una penalità – un sito con contenuto duplicato non verrà posticipato in classifica. Bisogna però essere comunque consapevoli che i risultati di ricerca molto probabilmente mostrano solo una versione del sito, non entrambe.

Fonte: Official Google Webmaster Central Blog


Google.it indicizza flash.

1 ottobre 2008

Non è più riservato esclusivamente a google.com. Da pochi giorni anche Google Italia indicizza i contenuti in flash come contenuti html. I risultati appaiono con vicino la dicitura [FLASH] se i tag sono stati rinvenuti in un file .swf , altrimenti i risultati vengono visualizzati esattamente come per gli html.

Prendiamo d’esempio questa pagina:

Chi l’ha visto

All’interno non vi sono Meta, testo html o altro.. c’è solo il filmato in flash al centro. Ricercando pertanto “Un segreto a conoscenza di pochi” (con le virgolette) su google.it , il filmato indicizzato dal nuovo algoritmo compare come unico risultato, senza differenze da una qualsiasa pagina html.

Programmatori Flash.. accorrete numerosi a questo spalancarsi di possibilità!


Galleria in Flash: stilosa, progressiva e non indicizzata.

19 settembre 2008

Indicizzazione di gallerie in flash?
Guardate questa galleria e non negate che la concentrazione sia subito andata al movimento ed alla grafica dell’animazione.

Spesso (e volentieri) alcune gallerie in flash animate non sono comparabili con nessun’altra rich internet application, sia per bellezza che per semplicità di lavorazione (entrambi i punti ormai non sono smentiti neanche dal menoDiffusoJava).

Lo scaricamento progressivo o in streaming garantisce la comodità:

  • Visualizzazione ottimizzata anche con connessioni lente(solitamente il file swf occupa pochi kb e le immagini vengono caricate dinamicamente)
  • Editing dei contenuti mediante la modifica di file o database esterni

Flash con i sui bei filtri, le funzionalità 3D e la rinomata fluidità assicurano un’esperienza gradevole e d’impatto.

Purtroppo tutti questi pregi sono afflitti dall’impossibilità, anche da parte degli algoritmi di indexing più avanzati, di carpire informazioni da un file flash che all’inizio risulta inevitabilmente vuoto e spoglio. Tutte le immagini ed il testo infatti vengono presi dal database, caricati dinamicamente e poi visualizzati. Questo procedimento limita(se non elimina totalmente) l’indicizzazione della pagina dove è presente la galleria e, visto l’uso spropositato di questi strumenti, spesso limita la tracciabilità di gran parte del sito.

Leggi il seguito di questo post »


Hello Google!

13 settembre 2008
I'm Feeling Lucky

Questo web-log si pone come obiettivo (sia mai che lo raggiunga!) quello di analizzare e studiare l’indicizzazione dei motori di ricerca, il SEO ed in particolare le ultime possibilità offerte da Google: l’indicizzazione dei contenuti in flash mediante il nuovo algoritmo di BigG.

Per inziare in maniera tranquilla, soft e senza impegno, eccovi un link dei 10 Amusing Facts About Google:

Amusing Facts About Google

(la mia preferita è la numero 6)