網站歷史快照查詢（查詢歷史網頁快照）

2023-06-06 04:10:53

更多網際網路新鮮資訊、工作奇淫技巧關注【飛魚在浪嶼】（日更新）

當你想沿著記憶通道旅行，重溫曾經喜歡的丟失的內容。

瀏覽爬蟲具有這種巧妙的作用，即只需將所有內容都放在檔案系統上，就可以偶然發現我當天錯過的東西。

原始碼在：
https://github.com/hartator/wayback-machine-downloader/

Wayback 機器下載器

從 Internet Archive Wayback Machine 下載整個網站。

安裝

您需要在您的系統上安裝 Ruby (>= 1.9.2) - 如果您還沒有它。然後執行：

gem install wayback_machine_downloader

提示：如果遇到許可權錯誤，則可能需要sudo在此命令前面新增。

基本用法

使用要檢索的網站的基本 url 作為引數執行
wayback_machine_downloader（例如，http://example.com）：

wayback_machine_downloader http://example.com

這個怎麼運作

它會將 Wayback Machine 上存在的每個檔案的最新版本下載到./websites/example.com/. 它還將重新建立目錄結構和自動建立index.html頁面，以便與 Apache 和 Nginx 無縫協作。下載的所有檔案都是原始檔案，而不是 Wayback Machine 重寫版本。這樣，URL 和連結結構與以前相同。

高階用法

指定儲存檔案的目錄

-d, --directory PATH

可選的。預設情況下，Wayback Machine Downloader 將下載檔案，./websites/後跟網站的域名。您可能希望使用此選項將檔案儲存在特定目錄中。

例子：

wayback_machine_downloader http://example.com --directory downloaded-backup/

所有時間戳

-s, --all-timestamps

可選的。此選項將下載給定網站的所有時間戳/快照。它將使用每個快照的時間戳作為目錄。

例子：

wayback_machine_downloader http://example.com --all-timestamps Will download: websites/example.com/20060715085250/index.html websites/example.com/20051120005053/index.html websites/example.com/20060111095815/img/logo.png ...

從時間戳

-f, --from TIMESTAMP

可選的。您可能希望提供一個 from 時間戳以將您的備份鎖定到網站的特定版本。時間戳可以在常規 Wayback Machine 網站的 url 中找到（例如，https
://web.archive.org/web/20060716231334/http: //example.com）。也可以使用年（2006）、年月（200607）等，可以和To Timestamp結合使用。然後，Wayback Machine Downloader 將僅獲取指定時間戳或之後的檔案版本。

例子：

wayback_machine_downloader http://example.com --from 20060716231334

到時間戳

-t, --to TIMESTAMP

可選的。您可能需要提供時間戳以將您的備份鎖定到網站的特定版本。時間戳可以在常規 Wayback Machine 網站的 url 中找到（例如，https
://web.archive.org/web/20100916231334/http: //example.com）。也可以使用年（2010）、年月（201009）等，可以和From Timestamp結合使用。然後，Wayback Machine Downloader 將僅獲取指定時間戳或之前的檔案版本。

例子：

wayback_machine_downloader http://example.com --to 20100916231334

確切網址

-e, --exact-url

可選的。如果您只想檢索與提供的 url 完全匹配的檔案，您可以使用此標誌。它將避免下載任何其他內容。

比如你只想下載example.com的html主頁檔案：

wayback_machine_downloader http://example.com --exact-url

僅 URL 過濾器

-o, --only ONLY_FILTER

可選的。您可能想要檢索特定型別（例如，.pdf、.jpg、.wrd...）或位於特定目錄中的檔案。為此，您可以提供--only帶有字串或正規表示式的標誌（使用“/regex/”符號）來限制 Wayback Machine Downloader 將下載的檔案。

例如，如果您只想下載特定檔案中的檔案my_directory：

wayback_machine_downloader http://example.com --only my_directory

或者，如果您想下載所有影象而無需其他任何內容：

wayback_machine_downloader http://example.com --only "//.(gif|jpg|jpeg)$/i"

排除 URL 過濾器

-x, --exclude EXCLUDE_FILTER

可選的。您可能想要檢索不屬於某種型別（例如，.pdf、.jpg、.wrd...）或不在特定目錄中的檔案。為此，您可以提供--exclude帶有字串或正規表示式的標誌（使用“/regex/”符號）來限制 Wayback Machine Downloader 將下載的檔案。

例如，如果你想避免下載裡面的檔案my_directory：

wayback_machine_downloader http://example.com --exclude my_directory

或者，如果您想下載除圖片以外的所有內容：

wayback_machine_downloader http://example.com --exclude "//.(gif|jpg|jpeg)$/i"

將下載擴充套件到所有檔案型別

-a, --all

可選的。預設情況下，Wayback Machine Downloader 將自身限制為以 200 OK 程式碼響應的檔案。如果您還需要錯誤檔案（40x 和 50x 程式碼）或重定向檔案（30x 程式碼），您可以使用--all或-a標誌，Wayback Machine Downloader 將在 200 個 OK 檔案之外下載它們。它還將保留預設刪除的空檔案。

例子：

wayback_machine_downloader http://example.com --all

只列出檔案而不下載

-l, --list

它只會顯示要下載的檔案及其快照時間戳和 URL。輸出格式為 JSON。它不會下載任何東西。它對於除錯或連線到另一個應用程式很有用。

例子：

wayback_machine_downloader http://example.com --list

要考慮的最大快照頁面數

-p, --snapshot-pages NUMBER

可選的。指定要考慮的最大快照頁數。計算平均每頁 150,000 個快照。100 是預設的最大快照頁面數，對於大多數網站來說應該足夠了。如果您想下載非常大的網站，請使用更大的數字。

例子：

wayback_machine_downloader http://example.com --snapshot-pages 300

一次下載多個檔案

-c, --concurrency NUMBER

可選的。指定要同時下載的多個檔案的數量。允許顯著加快網站的下載速度。預設是一次下載一個檔案。

例子：

wayback_machine_downloader http://example.com --concurrency 20

使用 Docker 映象

作為替代安裝方式，我們有一個 Docker 映象！以這種方式檢索
wayback-machine-downloader Docker 映象：

docker pull hartator/wayback-machine-downloader

然後，您應該可以使用 Docker 映象下載網站。例如：

docker run --rm -it -v $PWD/websites:/websites hartator/wayback-machine-downloader http://example.com