Questa (semplice?!?) tabella mostra un riassunto dei risultati nel tempo per i nostri 4 test ( test 1, test 2, test 3, test 4):
Legenda:
P = Presente. Il file è su internet e linkato nel Blog.
NP = Non Presente. Il file non è ancora stato inserito su internet
I [punti] = Il file risulta indicizzato nell’indice di Google. I punti sono i campi testuali dei vari file.
NI = Non Indicizzato. Il file non risulta nella serp di Google per le parole chiave.
Tabella riassuntiva:
Data
01-swf
01-html
02-swf
02-html
03-swf
03-html
Note
21/10
P – NI
NP
NP
NP
NP
NP
N/A
29/10
P – NI
P – NI
NP
NP
NP
NP
N/A
06/11
PI
[4,6,7]
P – NI
P – NI
P – NI
NP
NP
N/A
13/11
PI
[3,5
,7,8]
PI
[1,3,5,
7,8]
PI
[4,6,7]
P – NI
P – NI
P – NI
Scambio contenuti da 01SWF a 02SWF
15/11
PI
[1,3,5,
7,8]
PI
[1,3,5,
7,8]
PI
[4,6,7]
P – NI
P – NI
P – NI
N/A
18/11
PI
[1,3,5,
7,8]
PI
[1,3,5,
7,8]
PI
[4,6,7]
P – NI
PI[5,6,
8,9]
P – NI
N/A
19/11
P – NI
PI
[1,3,5,
7,8]
PI
[4,6,7]
P – NI
PI[5,6,
8,9]
P – NI
Sparito 01SWF
21/11
PI
[1,3,5,
7,8]
PI
[1,3,5,
7,8]
PI
[4,6,7]
P – NI
PI[5,6,
8,9]
P – NI
Ri comparso 01SWF
25/11
PI
[1,3,5,
7,8]
P – NI
PI
[4,6,7]
P – NI
PI[5,6,
8,9]
P – NI
Scomparso 01HTML
27/11
PI
[1,3,5,
7,8]
PI
[3,5,8]
PI
[4,6,7]
P – NI
PI[5,6,
8,9]
PI[1,4,7]
Ri comparso parzial- mente 01HTML
I risultati dei quattro test svolti in contemporanea, sono nel complesso più che soddisfacenti. Google è arrivato a guadagnarsi l’oro olimpionico.
E’ riuscito difatti ad indicizzare quasi tutti i testi che ho sottoposto alla sua lettura.
Sono stati bene indicizzati:
testi statici;
testi dinamici inseriti mediante ActionScript con la funzione .text ( campoTesto.text = “Ecco il testo che comparirà all’utente”; );
testi statici all’interno di bottoni;
testi statici, con link;
testi dinamici inseriti direttamente nel campo di testo, con link;
testi statici esterni ai contorni del filmato;
testi dinamici inseriti direttamente nel campo di testo, esterni ai contorni del filmato;
link legati a testi statici (mediante l’opzione “collegamento ipertestuale” nelle proprietà del campo di testo);
link legati a testi dinamici (mediante l’opzione “collegamento ipertestuale” nelle proprietà del campo di testo).
Ecco cosa, invece, Google non è riuscito ad indicizzare bene o per niente:
testi trasformati in tracciato vettoriale ( mediante la funzione Break Apart );
link inseriti in oggetti o bottoni per mezzo dell’istruzione ActionScript: getURL();
difficoltà nell’indicizzare le pagine HTML contenenti i filmati Flash, a favore degli stessi filmati.
Ci sono state difficoltà per il motore di ricerca nell’indicizzare tutte queste tipologie di campi di testo e non sempre l’indicizzazione ha avuto esiti immediati.
Dai test si evince che le modalità con cui Googlebot memorizza ed indicizza il testo contenuto all’interno dei file Flash, sono approssimativamente regolari:
prima passata di GoogleBot e prima memorizzazione di testi e link. Google in questo passaggio predilige campi di testo in cui attiva l’opzione “collegamento ipertestuale”. I testi vengono memorizzati e compaiono dunque nella serp, ma i risultati sono confusionari perchè composti, per la maggior parte, da tag html che servono per definire le impostazioni del testo;
seconda passata di GoogleBot. Questa volta viene indicizzato un numero maggiore di campi di testo e vengono corretti gli errori di visualizzazione dovuti ai tag html;
terza passata correttiva e successive letture di assestamento. GoogleBot legge tutti i link che il suo algoritmo gli permette di indicizzare. Avviene quindi la stesura ed il completamento del corrispettivo testuale ai testi ed ai link dell’SWF.
Le fasi si susseguono con tempistiche variabili. La prima fase ha luogo in un arco di tempo abbastanza ampio: tra i 5 ed i 15 giorni.
Le fasi successive avvengono quasi sempre a distanza di 5-7 giorni l’una dall’altra.
Tutte le tempistiche sono ovviamente relative e dipendono da vari fattori quali: il carico di lavoro che Google sta elaborando in quel periodo; la popolarità e la longevità dello spazio web dove i contenuti vengono inseriti; la frequenza di aggiornamento del sito / blog dove sono stati inseriti i contenuti; la presenza o meno di sitemap che linkano i nuovi contenuti; tutto ciò che potrebbe influenzare l’algoritmo di Google e riguardare il sito / blog dove è stato inserito l’SWF.
Sperando che tutto ciò vi sia stato utile o, almeno, sia di vostro gradimento, vi invito a chiedermi ogni sorta di chiarimento, dubbio o consiglio. Alla prossima!
Il fornitissimo servizio di posta elettronica di Google, Gmail, ora comprende anche una videochat che, a giudicare dai commenti positivi e dalle reazioni della blogosfera, darà filo da torcere ai maggiori concorrenti: Windows Live Messanger e Skype.
Integrata nel browser mediante un piccolo (~2Mb) plugin gratuito, non necessita l’utilizzo di applicazioni come per i concorrenti: lavora in maniera integrata direttamente nel browser.
Ecco un bel video dimostrativo direttamente dal blog di Google:
Suppongo tutti voi sappiate cos’è un Easter Egg… per i più distratti ecco un piccolo ripasso preso da Wikipedia:
Un Easter egg (in italiano, letteralmente, uovo di Pasqua) è un contenuto, di solito di natura faceta o bizzarra, e certamente innocuo, che i progettisti o gli sviluppatori di un prodotto, specialmente software, nascondono nel prodotto stesso (come un uovo di Pasqua nascosto in giardino, secondo la tradizione anglosassone).
…e rieccoci al nostro post sugli Easter Egg. Flash difatti, prodotto prima da Macromedia e poi da Adobe, contiene sempre all’interno bellissime sorprese. Ecco i link ad alcune di esse:
Dunque testi che non erano disponibili fino ad ora, sono stati e saranno indicizzati. Se avete scannerizzato un documento, avendo sempre contato sul fatto che non starebbe stato mai trovato da nessuno, vi conviene rivedere la vostra strategia…
Ecco un esperimento per testare il grado di indicizzazione di google per quanto riguarda i contenuti in flash:
A breve inserirò un file da me appositamente creato con vari tipi di oggetti, testi e link all’interno, poi, quando google avrà indicizzato la pagina, vedremo insieme a che livello il suo nuovo algoritmo può scavare nei contenuti swf
Il filmato in flash è così composto:
I punti da 1 ad 8 sono dei testi inseriti in 8 modi differenti nel movieclip.
Ogni punto è su un layer diverso, quindi non vi sono più oggetti testuali nello stesso layer.
Alcuni punti (5,6,7) hanno anche un link associato, che in teoria verrà indicizzato da Google.
E’ presente un testo che si trova fuori dallo Stage (il numero 8). Google dovrebbe indicizzarlo senza problemi.
L’swf è stato elaborato in Macromedia Flash 8 Professional.
Tutto questo serve per controllare la capacità di google di trovare tali testi ed indicizzarli con Googlebot. Per questo ogni punto è contraddistinto da una parola senza senso compiuto che, ricercata, dovrebbe aiutarmi a trovare questo e solo questo post.
Edit: Il link sopra è collegato direttamente ad un file SWF e Google non sembra indicizzarlo poiché esso non è contenuto in una pagina html, provo a rimediare con quest’altro link in cui il file SWF è stato inserito in una pagina HTML:
Edit #2: Attendendo l’indicizzazione dell’”Esperimento in flash 3″ presente in fondo ai risultati, aggiungo qui un’altra pagina con una versione modificata degli esperimenti 1-2-3:
usata, per tutti i testi che ne davano la possibilità, la funzione Embed, che integra il rendering del font nel file SWF;
resi selezionabili dall’utente i campi di testo;
aggiornati i testi con piccole modifiche per far sì che Google non veda questo esperimento come una copia identica dei precedenti e lo indicizzi;
modificate le parole chiave univoche;
aggiunti filtri grafici come ombre, bevel, glow ecc.. al testo.;
aggiunto un campo di testo esterno dinamico;
Risultati:
06-11-08:
Del filmato SWF, Google è riuscito fino ad ora ad indicizzare i punti 4, 6 e 7 che corrispondono rispettivamente a:
Testo Dinamico inserito nello stage ar7mcon9h
Link mediante testo Dinamico pounducknert
Link mediante testo statico odnwufbaic
Google non è riuscito quindi ad indicizzare i punti 1, 2, 3, 5 e 8.
Le parole chiave dei punti indicizzati danno risultati confusionari, pieni di tag html che male definiscono il contenuto dell’SWF. Questi errori di indicizzazione di testi renderizzati correttamente è ancora senza spiegazione.
In attesa di migliori risultati, linko qui un altra pagina, dove non viene utilizzato il font particolare che potrebbe “dar fastidio” a Google (font: Berlin Sans FB Demi), e dove i testi del file precedente sono tutti in Arial: Esperimento in flash 3
13-11-08:
Del filmato ProvaTesto01.swf , Google era riuscito fino ad ora ad indicizzare i punti 4, 6 e 7, mentre ora 4 e 6 non sono più rintracciabili per questo SWF e nella serp compaiono invece i punti 3, 5, 7 e 8 che corrispondono rispettivamente a:
3 – Testo Dinamico inserito tramite ActionScript con il metodo .text vudnwocdhsm
5 – Bottone, con all’interno testo statico, ed un link mediante ActionScript con il metodo GetURL rasghniola
7 – Link mediante testo statico odnwufbaic
8 – Testo statico esterno ai bounds del filmato azegulestrop
I punti 4 e 6 sono scomparsi dall’indicizzazione di questo file SWF dopo una settimana di presenza poichè, con l’inserimento di provaTesto02.swf, contenente le stesse frasi, Google l’ha giustamente considerato come un duplicamento di contenuti ed ha indicizzato provaTesto02.swf per i punti 4,6 e 7.
Ora la ricerca tramite Google delle parole chiave dei punti indicizzati, non da più nella serp risultati confusionari. I risultati difatti hanno nel titolo e nella descrizione, le trascrizioni corrette dei testi e dei link presenti all’interno del file SWF, ordinati per Layer e per tipologia di oggetti (il testo inserito all’interno del bottone, ad esempio, viene visualizzato come ultima parola indicizzata).
Ecco i risultati per le quattro ricerche:
vudnwocdhsm:
rasghniola:
odnwufbaic:
azegulestrop:
E’ da notare come, per questo file swf, Google mostri i risultati dando come titolo il punto 1, corrispondente ad un campo di testo statico composto dal testo: “1 Prova di testo statico inserito a mano nel fil flash. qwelcaros” . Ma nonostante ciò non vi sono, per la ricerca della parola chiave “qwelcaros”, risultati nella serp.
15-11-08:
Del filmato ProvaTesto01.swf , Google era riuscito fino ad ora ad indicizzare i punti 3, 5, 7 e 8. Ora è stato indicizzato il punto 1:
1 – Prova di testo statico inserito a mano nel fil flash. qwelcaros
Il risultato della ricerca:
qwelcaros:
Questi risultati mostrano le qualità del nuovo algoritmo di Google, che è stato in grado di indicizzare tutti i campi di testo che gli ho sottoposto.
Per evitare di dilungarmi molto nella trascrizione dei risultati, ho preparato una tabella riassuntiva in cui descrivo l’esito documentato dei test.
Edit: purtroppo su sistemi Linux con piattaforme Debian(Ubuntu, Debian ed altre) il link per il pacchetto .deb è sbagliato (complimenti ai webmaster adobe…):
Gaudi è un esperimento dei laboriosi Google Labs che indicizza i file audio e permette la ricerca al loro interno. Questi giorni bigG ha esteso l’indicizzazione, in vista delle elezioni americane, ai video politici su youtube, così, cercando la parola desiderata, vi compariranno i video dove viene detta, evidenziati nei precisi punti in cui viene menzionata.
Naturalmente questo sistema non è perfetto ed a volte ci rimanda a parole con tuttaltro significato. D’altronde l’indicizzazione audio non è semplicissima e comunque si tratta di un esperimento in corso di sviluppo. In conclusione bel lavoro!
Gmail ti aiuta ad evitare figuracce o peggio, con questo sistema sperimentale(disponibile solo in inglese) Google vuole evitare che gli utenti mandino messaggi, di cui potrebbero pentirsi, controllando il loro stato d’animo. Se, tornando venerdì sera, in collera x un qualche motivo, vogliate licenziarvi o mollare la vostra futura ex ragazza, Gmail vi tranquillizzerà con una serie di operazioni da svolgere in pochi minuti! Pena: impossibile inviare l’email.
Tutto questo per aiutarvi a capire il vostro stato d’animo ed aiutarvi a riflettere.
Google con il tempo ha sviluppato algoritmi complessi ora compatibili con i maggiori file multimediali, solo ultimamente ha integrato l’indicizzazione degli elementi di testo contenuti nei file Flash .swf.
Tale algoritmo è stato migliorato sotto il profilo delle prestazioni grazie all’integrazione della tecnologia usata nel Flash Player di Adobe.
Di seguito riassumo i punti forti e le principali caratteristiche del nuovo algoritmo:
E’ stata migliorata la capacità di indicizzare il testo contenuto in qualsiasi tipo di file Flash: dai semplici banner ai siti interamente realizzati con tale tecnologia.
Tutto il testo contenuto in file Flash che può essere visto dagli utenti, potrà essere utilizzato da Google per la generazione degli snippet all’interno delle pagine dei risultati e verrà ovviamente indicizzato al fine di rispondere alle ricerche degli utenti.
Oltre al testo verranno inoltre considerati anche gli URL presenti all’interno dei file Flash proprio come accade per le pagine html. Quindi se nel file .swf ci sono collegamenti che portano ad un secondo sito, Google è in grado di scoprire e di eseguire la scansione del sito linkato.
Sito in Flash nei risultati di ricerca prima degli ultimi miglioramenti:
Stesso sito Flash dopo aver migliorato l’indicizzazione, chiave di ricerca: [NASA deep impact animation]:
L’algoritmo indicizza, oltre ai nuovi contenuti provenienti dalle suite Adobe CS3 e CS4, anche i filmati sviluppati con versioni precedenti che contengono ActionScript 1 e 2. (da Macromedia Flash 5 ad Adobe Flash 8 )
Dopo recenti aggiornamenti è stata implementata la lettura di Javascript e delle tecniche comuni per l’incorporamento di Flash, compresi SWFObject e SWFObject2.
Il testo in file Flash è trattato analogamente al testo trovato in altri file, ad esempio HTML, PDF, ecc Se il file Flash è incorporato nell’ HTML (come la maggior parte dei file Flash reperibili in rete), il suo contenuto è associato all’ URL della pagina che lo incorpora ed essi vengono indicizzati come singola entità.
Per quanto riguarda l’ActionScript, l’algoritmo è in grado di trovare nuovi collegamenti caricati attraverso gli script. Esso esplora Flash come farebbe un visitatore, ma non decompila il file swf. A meno che l’ActionScript non sia volontariamente esposto ai visitatori, Google si è impegnato a non mostrarlo.
Naturalmente l’algoritmo è in via di sviluppo ed al rilascio, avvenuto l’ 1 Luglio 2008, seguiranno miglioramenti ed upgrade
Limiti dell’algoritmo:
Al momento, i ricercatori sono solo alla scoperta e indicizzazione dei contenuti testuali nel file Flash. Se il file Flash include solo immagini, non verranno ovviamente riconosciuti testi che possono comparire in quelle immagini.
I file di tipo FLV, come i video presenti su YouTube, non risentiranno dei benefici apportati da questo nuovo algoritmo, in quanto non contengono alcun elemento di tipo testuale.
Non generano alcun testo e quindi non vengono indicizzati i pulsanti che hanno URL di destinazione, ma che non hanno un testo associato.
Bisogna essere consapevoli del fatto che Google è ora in grado di vedere il testo che appare ai visitatori di ogni sito Flash. Se si preferisce che Google ignori contenuti informativi come ad esempio i copyright ed i “loading” dei filmati, sarà necessario sostituire il testo con una immagine (in flash il comando Break Apart trasforma qualsiasi stringa di testo in immagine vettoriale), ciò lo renderà invisibile al motore.
Googlebot non eseguiva alcuni tipi di JavaScript. Quindi, quando la pagina web caricava un file Flash tramite JavaScript, Google poteva non essere a conoscenza di tali file Flash, che nel qual caso non venivano indicizzati. Successimanente un aggiornamento ha consentito il supporto per Javascript e le tecniche comuni per l’incorporamento di Flash, compresi SWFObject e SWFObject2.
Al momento non vengono allegati i contenuti, da risorse esterne, che vengono richiamati da file Flash. Se il file swf carica un file HTML, un file XML, un altro file SWF, ecc, Google indicizzerà separatamente la risorsa, ma non la collega al contenuto del file Flash, quindi non sarà tale essere considerata un unico file o un unica pagina.
L’algoritmo è in grado di indicizzare correttamente Flash in quasi tutte le lingue reperibili nel web, ma attualmente ci sono difficoltà con i contenuti Flash scritti in lingue bidirezionali. E’ un problema in via di risoluzione, ma fino ad allora, Google non sarà in grado di indicizzare contenuti di file Flash in lingua ebraica o lingua araba.
I contenuti caricati dinamicamente da file, in risorse esterne rispetto al filmato Flash, non vengono indicizzati. Questa caratteristica richiesta da molti webmaster verrà presa in considerazione solo in futuri aggiornamenti.
Elaborare lo stesso contenuto in Flash ed in una degradata versione HTML potrebbe generare contenuti duplicati. Ciò non causerà una penalità – un sito con contenuto duplicato non verrà posticipato in classifica. Bisogna però essere comunque consapevoli che i risultati di ricerca molto probabilmente mostrano solo una versione del sito, non entrambe.