Paolo Boldi, Dipartimento di Scienze dell'Informazione, Università degli Studi di Milano, via Comelico 39/41, I-20135 Milano, Italy. Email: boldi@dsi.unimi.it
Bruno Codenotti, Istituto di Informatica e Telematica, Consiglio Nazionale delle Ricerche, Via Moruzzi 1, I-56010 Pisa, Italy. Email: codenotti@imc.pi.cnr.it
Massimo Santini, Dipartimento di Scienze Sociali, Cognitive e Quantitative, Università di Modena e Reggio Emilia, via Fratelli Manfredi I-42100 Reggio Emilia, Italy. Email: msantini@unimo.it
Sebastiano Vigna, Dipartimento di Scienze dell'Informazione, Università degli Studi di Milano, via Comelico 39/41, I-20135 Milano, Italy. Email: vigna@acm.org
Web algorithmics, web searching, distributed algorithms, fault tolerance.
We present the design and implementation of UbiCrawler, a scalable distributed web crawler, and we analyze its performance. The main features of UbiCrawler are platform independence, fault tolerance, a very effective assignment function for partitioning the domain to crawl, and more in general the complete decentralization of every task.
[ Full Paper ] [ Presentation ] [ Proceedings ] [ AusWeb02 Home Page ]