Internet Archive сохраняет копии веб-страниц и предоставляет к ним доступ с помощью веб-сервиса Wayback Machine, на сайте которого можно ввести URL, задать временной интервал и просматривать старую версию любимой странички.
Недавно в качестве эксперимента сотрудники проекта открыли всем желающим доступ к необработанному набору данных, полученных в результате обхода сайтов с 9 марта по 23 декабря 2011 года. Набор представляет собой 80 терабайт файлов в формате WARC (Web ARChive) и включает текст, графику, видео и другую информацию с 2,7 миллиардов сайтов.
В первую очередь был выполнен обход миллиона самых посещаемых сайтов. Для перебора страниц использовался поисковый робот Heritrix, специально разработанный для архивирования веб-сайтов.
Кстати, объем всего «Архива интернета» достиг недавно 10 петабайт.