網站歷史快照查詢(查詢歷史網頁快照)

更多網際網路新鮮資訊、工作奇淫技巧關注【飛魚在浪嶼】(日更新)

當你想沿著記憶通道旅行,重溫曾經喜歡的丟失的內容。

瀏覽爬蟲具有這種巧妙的作用,即只需將所有內容都放在檔案系統上,就可以偶然發現我當天錯過的東西。

原始碼在:
   https://github.com/hartator/wayback-machine-downloader/


Wayback 機器下載器

從 Internet Archive Wayback Machine 下載整個網站。

安裝

您需要在您的系統上安裝 Ruby (>= 1.9.2) - 如果您還沒有它。然後執行:

gem install wayback_machine_downloader

提示:如果遇到許可權錯誤,則可能需要sudo在此命令前面新增。

基本用法

使用要檢索的網站的基本 url 作為引數執行
   wayback_machine_downloader(例如,http://example.com):

wayback_machine_downloader http://example.com

這個怎麼運作

它會將 Wayback Machine 上存在的每個檔案的最新版本下載到./websites/example.com/. 它還將重新建立目錄結構和自動建立index.html頁面,以便與 Apache 和 Nginx 無縫協作。下載的所有檔案都是原始檔案,而不是 Wayback Machine 重寫版本。這樣,URL 和連結結構與以前相同。

高階用法

指定儲存檔案的目錄

-d, --directory PATH

可選的。預設情況下,Wayback Machine Downloader 將下載檔案,./websites/後跟網站的域名。您可能希望使用此選項將檔案儲存在特定目錄中。

例子:

wayback_machine_downloader http://example.com --directory downloaded-backup/

所有時間戳

-s, --all-timestamps

可選的。此選項將下載給定網站的所有時間戳/快照。它將使用每個快照的時間戳作為目錄。

例子:

wayback_machine_downloader http://example.com --all-timestamps  Will download:     websites/example.com/20060715085250/index.html     websites/example.com/20051120005053/index.html     websites/example.com/20060111095815/img/logo.png     ...

從時間戳

-f, --from TIMESTAMP

可選的。您可能希望提供一個 from 時間戳以將您的備份鎖定到網站的特定版本。時間戳可以在常規 Wayback Machine 網站的 url 中找到(例如,https
   ://web.archive.org/web/20060716231334/http: //example.com)。也可以使用年(2006)、年 月(200607)等,可以和To Timestamp結合使用。然後,Wayback Machine Downloader 將僅獲取指定時間戳或之後的檔案版本。

例子:

wayback_machine_downloader http://example.com --from 20060716231334

到時間戳

-t, --to TIMESTAMP

可選的。您可能需要提供時間戳以將您的備份鎖定到網站的特定版本。時間戳可以在常規 Wayback Machine 網站的 url 中找到(例如,https
   ://web.archive.org/web/20100916231334/http: //example.com)。也可以使用年(2010)、年 月(201009)等,可以和From Timestamp結合使用。然後,Wayback Machine Downloader 將僅獲取指定時間戳或之前的檔案版本。

例子:

wayback_machine_downloader http://example.com --to 20100916231334

確切網址

-e, --exact-url

可選的。如果您只想檢索與提供的 url 完全匹配的檔案,您可以使用此標誌。它將避免下載任何其他內容。

比如你只想下載example.com的html主頁檔案:

wayback_machine_downloader http://example.com --exact-url

僅 URL 過濾器

 -o, --only ONLY_FILTER

可選的。您可能想要檢索特定型別(例如,.pdf、.jpg、.wrd...)或位於特定目錄中的檔案。為此,您可以提供--only帶有字串或正規表示式的標誌(使用“/regex/”符號)來限制 Wayback Machine Downloader 將下載的檔案。

例如,如果您只想下載特定檔案中的檔案my_directory:

wayback_machine_downloader http://example.com --only my_directory

或者,如果您想下載所有影象而無需其他任何內容:

wayback_machine_downloader http://example.com --only "//.(gif|jpg|jpeg)$/i"

排除 URL 過濾器

 -x, --exclude EXCLUDE_FILTER

可選的。您可能想要檢索不屬於某種型別(例如,.pdf、.jpg、.wrd...)或不在特定目錄中的檔案。為此,您可以提供--exclude帶有字串或正規表示式的標誌(使用“/regex/”符號)來限制 Wayback Machine Downloader 將下載的檔案。

例如,如果你想避免下載裡面的檔案my_directory:

wayback_machine_downloader http://example.com --exclude my_directory

或者,如果您想下載除圖片以外的所有內容:

wayback_machine_downloader http://example.com --exclude "//.(gif|jpg|jpeg)$/i"

將下載擴充套件到所有檔案型別

 -a, --all

可選的。預設情況下,Wayback Machine Downloader 將自身限制為以 200 OK 程式碼響應的檔案。如果您還需要錯誤檔案(40x 和 50x 程式碼)或重定向檔案(30x 程式碼),您可以使用--all或-a標誌,Wayback Machine Downloader 將在 200 個 OK 檔案之外下載它們。它還將保留預設刪除的空檔案。

例子:

wayback_machine_downloader http://example.com --all

只列出檔案而不下載

 -l, --list

它只會顯示要下載的檔案及其快照時間戳和 URL。輸出格式為 JSON。它不會下載任何東西。它對於除錯或連線到另一個應用程式很有用。

例子:

wayback_machine_downloader http://example.com --list

要考慮的最大快照頁面數

-p, --snapshot-pages NUMBER

可選的。指定要考慮的最大快照頁數。計算平均每頁 150,000 個快照。100 是預設的最大快照頁面數,對於大多數網站來說應該足夠了。如果您想下載非常大的網站,請使用更大的數字。

例子:

wayback_machine_downloader http://example.com --snapshot-pages 300

一次下載多個檔案

-c, --concurrency NUMBER

可選的。指定要同時下載的多個檔案的數量。允許顯著加快網站的下載速度。預設是一次下載一個檔案。

例子:

wayback_machine_downloader http://example.com --concurrency 20

使用 Docker 映象

作為替代安裝方式,我們有一個 Docker 映象!以這種方式檢索
   wayback-machine-downloader Docker 映象:

docker pull hartator/wayback-machine-downloader

然後,您應該可以使用 Docker 映象下載網站。例如:

docker run --rm -it -v $PWD/websites:/websites hartator/wayback-machine-downloader http://example.com