Dal Google PageRank al Google TrustRank
MasterNewMedia Italia
Scopri i migliori tool per comunicare,
collaborare e fare marketing
   
Curated by: Luigi Canali De Rossi
 


Last updated: Friday, April 28, 2006

Dal Google PageRank al Google TrustRank

Nel marzo 2005, Google ha registrato il marchio 'TrustRank' presso la U.S. Patent and Trademark Office (USPTO).

corridori.jpg
Photo credit:Vixs

Qual è il suo significato in relazione alle future iniziative di Google ?, e quanto questa applicazione, e la sue funzionalità potenziali si possono adattare al Google PageRank ?

Il PageRank è il cuore del motore di ricerca di Google ed è un sistema di misurazione che rappresenta un ossessione per tanti web publisher.

In termini semplici, il PageRank valuta e classifica i siti web in relazione attorno ad un valore determinato dal numero dei siti che linkano ad esso.

Sebbeno Google PR determini l'importanza di un sito web, non determina il suo valore in termini di credibilità del contenuto.

I mercanti di spam inoltre sono stati in grado
di manipolare, attraverso vari strumenti, il Page Rank dei loro siti.

Per questo si è pensato ad un meccanismo per valutare il TrustRank, ossia l'indice di credibilità di un sito web e ricercatori del Digital Library Technologies dell'Università di Stanford hanno creato un documento intitolato "Combating Web Spam with TrustRank".

Il documento è estremamente tecnico e pieno di rimandi, adatto solamente a coloro che hanno una conoscenza approndita di algoritmi e computer science.

Qui c'è un piccolo astratto per coloro che non hanno conoscenze tecniche.


Le pagine di web spam utilizzano varie tecniche per raggiungere risultati alti nella classifica dei motori di ricerca. Mentre esperti umani possono identificare lo spam, risulta troppo costoso valutare manualmente un gran numero di pagine. Invece noi proponiamo tecniche semi-automatiche per separare le pagine degne di reputazione da quelle di spam.
Per prima cosa selezioniamo un piccolo set di pagine per essere valutato da un esperto. Una volta che noi manualmente identifichiamo le pagine degne di reputazione, utilizziamo una struttura di link per scoprire altre pagine che probabilmente sono buone.

In questo documento discutiamo le vie possibili per implementare la selezione e la scoperta di queste pagine.

Presentiamo i risultati di questi esperimenti sul World Wide Web indicizzato da Altavista e valutiamo le performance delle nostre tecniche.

I nostri risultati mostrano che noi possiamo efficacemente filtrare lo spam da una frazione significante del Web, basata su di un set di 200 siti.

Il documento poi presenta la metodologia di ricerca e i risultati nell'ordine seguente:


1) Noi formaliziamo il problema dello spam sul web e gli algoritmi per rilevarlo.

2) Noi definiamo le metriche per valutare gli algoritmi di rilevamento.

3) Noi presentiamo set di strutture per selezionare set di pagine da essere valutate manualmente.

4) Noi introduciamo l'algoritmo di TrustRank per determinare la probabilità che queste pagine siano degne di reputazione.

5) Noi discutiamo i risultati di una valutazione estesa, basata su 31 milioni di siti scansionati da AltaVista e una valutazione manuale di più di 2000 siti.
Noi forniamo delle statistiche interessanti sul tipo e la frequenza dei contenuti incontrati sul web ed utilizziamo i nostri dati per valutare gli algoritmi proposti.

Il Web come noi lo conosciamo sta divenendo sempre più caotico e il TrustRank potrebbe divenire un fattore importante per la sua sopravvivenza a lungo termine come deposito dell'informazione globale.

- - [via SearchEngineWatch] [ Approfondisci ]

Tratto da un articolo originale di Francis Good in data 29 aprile 2005
http://www.masternewmedia.org/news/2005/04/29/future_pagerank_helps_reputation_and.htm

 
 
 
Commenti    
blog comments powered by Disqus
 
posted by on Saturday, April 30 2005, updated on Friday, April 28 2006

Creative Commons License
This work is licensed under a Creative Commons License.

3219

 

Web Analytics