Интернет, Технологии Ваша собственная копия интернета

Автор: Роман Гордиенко
08.11.12 19:13

Internet Archive сохраняет копии веб-страниц и предоставляет к ним доступ с помощью веб-сервиса Wayback Machine, на сайте которого можно ввести URL, задать временной интервал и просматривать старую версию любимой странички. 

Недавно в качестве эксперимента сотрудники проекта открыли всем желающим доступ к необработанному набору данных, полученных в результате обхода сайтов с 9 марта по 23 декабря 2011 года. Набор представляет собой 80 терабайт файлов в формате WARC (Web ARChive) и включает текст, графику, видео и другую информацию с 2,7 миллиардов сайтов. 

В первую очередь был выполнен обход миллиона самых посещаемых сайтов. Для перебора страниц использовался поисковый робот Heritrix, специально разработанный для архивирования веб-сайтов.

Кстати, объем всего «Архива интернета» достиг недавно 10 петабайт.

Этому блогу больше 15 лет — за это время многие сайты, на которые я ссылался, перестали работать. Подпишитесь на мою научную рассылку Hypertextual — там много более актуальных материалов.