Flash Indexing Experiment 2: Results

30 novembre 2008
Google ha raggiunto l'oro?

Risultati: Google ha raggiunto l'oro?

Rieccoci con i promessi risultati del nostro Flash Indexing Experiment:

Questa (semplice?!?) tabella mostra un riassunto dei risultati nel tempo per i nostri 4 test ( test 1, test 2, test 3, test 4):

Legenda:

  • P = Presente. Il file è su internet e linkato nel Blog.
  • NP = Non Presente. Il file non è ancora stato inserito su internet
  • I [punti] = Il file risulta indicizzato nell’indice di Google. I punti sono i campi testuali dei vari file.
  • NI = Non Indicizzato. Il file non risulta nella serp di Google per le parole chiave.

Tabella riassuntiva:

Data
01-swf
01-html
02-swf
02-html
03-swf
03-html
Note
21/10 P – NI NP NP NP NP NP N/A
29/10 P – NI P – NI NP NP NP NP N/A
06/11 PI

[4,6,7]

P – NI P – NI P – NI NP NP N/A
13/11 PI

[3,5

,7,8]

PI

[1,3,5,

7,8]

PI

[4,6,7]

P – NI P – NI P – NI Scambio contenuti da 01SWF a 02SWF
15/11 PI

[1,3,5,

7,8]

PI

[1,3,5,

7,8]

PI

[4,6,7]

P – NI P – NI P – NI N/A
18/11 PI

[1,3,5,

7,8]

PI

[1,3,5,

7,8]

PI

[4,6,7]

P – NI PI[5,6,

8,9]

P – NI N/A
19/11 P – NI PI

[1,3,5,

7,8]

PI

[4,6,7]

P – NI PI[5,6,

8,9]

P – NI Sparito 01SWF
21/11 PI

[1,3,5,

7,8]

PI

[1,3,5,

7,8]

PI

[4,6,7]

P – NI PI[5,6,

8,9]

P – NI Ri comparso 01SWF
25/11 PI

[1,3,5,

7,8]

P – NI PI

[4,6,7]

P – NI PI[5,6,

8,9]

P – NI Scomparso 01HTML
27/11 PI

[1,3,5,

7,8]

PI

[3,5,8]

PI

[4,6,7]

P – NI PI[5,6,

8,9]

PI[1,4,7] Ri comparso parzial- mente 01HTML

I risultati dei quattro test svolti in contemporanea, sono nel complesso più che soddisfacenti. Google è arrivato a guadagnarsi l’oro olimpionico.

E’ riuscito difatti ad indicizzare quasi tutti i testi che ho sottoposto alla sua lettura.
Sono stati bene indicizzati:
  • testi statici;
  • testi dinamici inseriti mediante ActionScript con la funzione .text ( campoTesto.text = “Ecco il testo che comparirà all’utente”; );
  • testi statici all’interno di bottoni;
  • testi statici, con link;
  • testi dinamici inseriti direttamente nel campo di testo, con link;
  • testi statici esterni ai contorni del filmato;
  • testi dinamici inseriti direttamente nel campo di testo, esterni ai contorni del filmato;
  • link legati a testi statici (mediante l’opzione “collegamento ipertestuale” nelle proprietà del campo di testo);
  • link legati a testi dinamici (mediante l’opzione “collegamento ipertestuale” nelle proprietà del campo di testo).
Ecco cosa, invece, Google non è riuscito ad indicizzare bene o per niente:

  • testi trasformati in tracciato vettoriale ( mediante la funzione Break Apart );
  • link inseriti in oggetti o bottoni per mezzo dell’istruzione ActionScript: getURL();
  • difficoltà nell’indicizzare le pagine HTML contenenti i filmati Flash, a favore degli stessi filmati.
Ci sono state difficoltà per il motore di ricerca nell’indicizzare tutte queste tipologie di campi di testo e non sempre l’indicizzazione ha avuto esiti immediati.
Dai test si evince che le modalità con cui Googlebot memorizza ed indicizza il testo contenuto all’interno dei file Flash, sono approssimativamente regolari:

  • prima passata di GoogleBot e prima memorizzazione di testi e link. Google in questo passaggio predilige campi di testo in cui attiva l’opzione “collegamento ipertestuale”. I testi vengono memorizzati e compaiono dunque nella serp, ma i risultati sono confusionari perchè composti, per la maggior parte, da tag html che servono per definire le impostazioni del testo;
  • seconda passata di GoogleBot. Questa volta viene indicizzato un numero maggiore di campi di testo e vengono corretti gli errori di visualizzazione dovuti ai tag html;
  • terza passata correttiva e successive letture di assestamento. GoogleBot legge tutti i link che il suo algoritmo gli permette di indicizzare. Avviene quindi la stesura ed il completamento del corrispettivo testuale ai testi ed ai link dell’SWF.
Le fasi si susseguono con tempistiche variabili. La prima fase ha luogo in un arco di tempo abbastanza ampio: tra i 5 ed i 15 giorni.
Le fasi successive avvengono quasi sempre a distanza di 5-7 giorni l’una dall’altra.
Tutte le tempistiche sono ovviamente relative e dipendono da vari fattori quali: il carico di lavoro che Google sta elaborando in quel periodo; la popolarità e la longevità dello spazio web dove i contenuti vengono inseriti; la frequenza di aggiornamento del sito / blog dove sono stati inseriti i contenuti; la presenza o meno di sitemap che linkano i nuovi contenuti; tutto ciò che potrebbe influenzare l’algoritmo di Google e riguardare il sito / blog dove è stato inserito l’SWF.
Sperando che tutto ciò vi sia stato utile o, almeno, sia di vostro gradimento, vi invito a chiedermi ogni sorta di chiarimento, dubbio o consiglio. Alla prossima!
Annunci

Gmail. Ora anche video!

13 novembre 2008

videogmail

Il fornitissimo servizio di posta elettronica di Google, Gmail, ora comprende anche una videochat che, a giudicare dai commenti positivi e dalle reazioni della blogosfera, darà filo da torcere ai maggiori concorrenti: Windows Live Messanger e Skype.

Integrata nel browser mediante un piccolo (~2Mb) plugin gratuito, non necessita l’utilizzo di applicazioni come per i concorrenti: lavora in maniera integrata direttamente nel browser.

Ecco un bel video dimostrativo direttamente dal blog di Google:

Fonte: b2b24.ilsole24oreGoogleBlog


Flash Easter Eggs!

13 novembre 2008

Suppongo tutti voi sappiate cos’è un Easter Egg… per i più distratti ecco un piccolo ripasso preso da Wikipedia:

Un Easter egg (in italiano, letteralmente, uovo di Pasqua) è un contenuto, di solito di natura faceta o bizzarra, e certamente innocuo, che i progettisti o gli sviluppatori di un prodotto, specialmente software, nascondono nel prodotto stesso (come un uovo di Pasqua nascosto in giardino, secondo la tradizione anglosassone).

…e rieccoci al nostro post sugli Easter Egg. Flash difatti, prodotto prima da Macromedia e poi da Adobe, contiene sempre all’interno bellissime sorprese. Ecco i link ad alcune di esse:

Buona caccia!


Google sa leggere! (… anche i documenti scannerizzati)

31 ottobre 2008

Prego.. legga la prima riga.

Il cartello dell’oculista insegna che tutto si può leggere.

(basta avvicinarsi a sufficienza!)

Google ha annunciato che da ieri, grazie ad un sistema di Optical Character Recognition, è in grado di leggere documenti scannerizzati.

Per ora questa tecnica, chiamata anche OCR o Riconoscimento delle immagini, è “limitata” ai soli pdf composti da immagini.

Annuncio ufficiale dal blog di Google

Dunque testi che non erano disponibili fino ad ora, sono stati  e saranno indicizzati. Se avete scannerizzato un documento, avendo sempre contato sul fatto che non starebbe stato mai trovato da nessuno, vi conviene rivedere la vostra strategia…


Flash indexing experiment

20 ottobre 2008

Ecco un esperimento per testare il grado di indicizzazione di google per quanto riguarda i contenuti in flash:

A breve inserirò un file da me appositamente creato con vari tipi di oggetti, testi e link all’interno, poi, quando google avrà indicizzato la pagina, vedremo insieme a che livello il suo nuovo algoritmo  può scavare nei contenuti swf

Il filmato in flash è così composto:

  • I punti da 1 ad 8 sono dei testi inseriti in 8 modi differenti nel movieclip.
  • Ogni punto è su un layer diverso, quindi non vi sono più oggetti testuali nello stesso layer.
  • Alcuni punti (5,6,7) hanno anche un link associato, che in teoria verrà indicizzato da Google.
  • E’ presente un testo che si trova fuori dallo Stage (il numero 8). Google dovrebbe indicizzarlo senza problemi.
  • L’swf è stato elaborato in Macromedia Flash 8 Professional.

Tutto questo serve per controllare la capacità di google di trovare tali testi ed indicizzarli con Googlebot. Per questo ogni punto è contraddistinto da una parola senza senso compiuto che, ricercata, dovrebbe aiutarmi a trovare questo e solo questo post.

Esperimento in flash

Edit: Il link sopra è collegato direttamente ad un file SWF e Google non sembra indicizzarlo poiché esso non è contenuto in una pagina html, provo a rimediare con quest’altro link in cui il file SWF è stato inserito in una pagina HTML:

Esperimento in flash 2

Edit #2: Attendendo l’indicizzazione dell'”Esperimento in flash 3″ presente in fondo ai risultati, aggiungo qui un’altra pagina con una versione modificata degli esperimenti 1-2-3:

Esperimento in flash 4

Modifiche introdotte:

  • usata, per tutti i testi che ne davano la possibilità, la funzione Embed, che integra il rendering del font nel file SWF;
  • resi selezionabili dall’utente i campi di testo;
  • aggiornati i testi con piccole modifiche per far sì che Google non veda questo esperimento come una copia identica dei precedenti e lo indicizzi;
  • modificate le parole chiave univoche;
  • aggiunti filtri grafici come ombre, bevel, glow ecc.. al testo.;
  • aggiunto un campo di testo esterno dinamico;

Risultati:

06-11-08:

  • Del filmato SWF, Google è riuscito fino ad ora ad indicizzare i punti 4, 6 e 7 che corrispondono rispettivamente a:
    • Testo Dinamico inserito nello stage ar7mcon9h
    • Link mediante testo Dinamico pounducknert
    • Link mediante testo statico odnwufbaic
  • Google non è riuscito quindi ad indicizzare i punti 1, 2, 3, 5 e 8.
  • Le parole chiave dei punti indicizzati danno risultati confusionari, pieni di tag html che male definiscono il contenuto dell’SWF. Questi errori di indicizzazione di testi renderizzati correttamente è ancora senza spiegazione.
  • Ecco i risultati per le tre ricerche:
  • In attesa di migliori risultati, linko qui un altra pagina, dove non viene utilizzato il font particolare che potrebbe “dar fastidio” a Google (font: Berlin Sans FB Demi), e dove i testi del file precedente sono tutti in Arial: Esperimento in flash 3

13-11-08:

  • Del filmato ProvaTesto01.swf , Google era riuscito fino ad ora ad indicizzare i punti 4, 6 e 7, mentre ora 4 e 6 non sono più rintracciabili per questo SWF e nella serp compaiono invece i punti 3, 5, 7 e 8 che corrispondono rispettivamente a:
    • 3 – Testo Dinamico inserito tramite ActionScript con il metodo .text vudnwocdhsm
    • 5 – Bottone, con all’interno testo statico, ed un link mediante ActionScript con il metodo GetURL rasghniola
    • 7 – Link mediante testo statico odnwufbaic
    • 8 – Testo statico esterno ai bounds del filmato azegulestrop
  • I punti 4 e 6 sono scomparsi dall’indicizzazione di questo file SWF dopo una settimana di presenza poichè, con l’inserimento di provaTesto02.swf, contenente le stesse frasi, Google l’ha giustamente considerato come un duplicamento di contenuti ed ha indicizzato provaTesto02.swf per  i punti 4,6 e 7.
  • Ora la ricerca tramite Google delle parole chiave dei punti indicizzati, non da più nella serp risultati confusionari. I risultati difatti hanno nel titolo e nella descrizione, le trascrizioni corrette dei testi e dei link presenti all’interno del file SWF, ordinati per Layer e per tipologia di oggetti (il testo inserito all’interno del bottone, ad esempio, viene visualizzato come ultima parola indicizzata).
  • Ecco i risultati per le quattro ricerche:
  • vudnwocdhsm:
  • rasghniola:
  • odnwufbaic:
  • azegulestrop:
  • E’ da notare come, per questo file swf, Google mostri i risultati dando come titolo il punto 1, corrispondente ad un campo di testo statico composto dal testo: “1 Prova di testo statico inserito a mano nel fil flash. qwelcaros” . Ma nonostante ciò non vi sono, per la ricerca della parola chiave “qwelcaros”, risultati nella serp.

15-11-08:

  • Del filmato ProvaTesto01.swf , Google era riuscito fino ad ora ad indicizzare i punti 3, 5, 7 e 8. Ora è stato indicizzato il punto 1:
    • 1 – Prova di testo statico inserito a mano nel fil flash. qwelcaros
  • Il risultato della ricerca:
  • qwelcaros:

Questi risultati mostrano le qualità del nuovo algoritmo di Google, che è stato in grado di indicizzare tutti i campi di testo che gli ho sottoposto.

Per evitare di dilungarmi molto nella trascrizione dei risultati, ho preparato una tabella riassuntiva in cui descrivo l’esito documentato dei test.


FFP10: Finalmente Flash Player 10!

16 ottobre 2008

Flash Player 10 disponibile ORA!

E’ stato rilasciato il Flash Player 10.

Le novità introdotte direttamente dal sito Adobe:

Flash Player 10 includes new features, enhancements and bug fixes, including:

Creative Expression

Visual Performance Improvements

Rich Media

  • Enhanced Sound APIs
  • Dynamic Streaming
  • RTMFP (Real Time Media Flow Protocol)
  • Speex Audio Codec

Other Community Requested Enhancements

Ecco il link per scaricarlo per la vostra piattaforma:

Adobe Flash Player 10

Edit: purtroppo su sistemi Linux con piattaforme Debian(Ubuntu, Debian ed altre) il link per il pacchetto .deb è sbagliato (complimenti ai webmaster adobe…):
http://www.adobe.com/http://fpdownload.macromedia.com/get/flashplayer/current/install_flash_player_10_linux.deb
il link corretto è questo

GAUDIO! Google Audio Indexing

9 ottobre 2008


Gaudi è un esperimento dei laboriosi Google Labs che indicizza i file audio e permette la ricerca al loro interno. Questi giorni bigG ha esteso l’indicizzazione, in vista delle elezioni americane, ai video politici su youtube, così, cercando la parola desiderata, vi compariranno i video dove viene detta, evidenziati nei precisi punti in cui viene menzionata.

Naturalmente questo sistema non è perfetto ed a volte ci rimanda a parole con tuttaltro significato. D’altronde l’indicizzazione audio non è semplicissima e comunque si tratta di un esperimento in corso di sviluppo. In conclusione bel lavoro!