網站歷史快照查詢(查詢歷史網頁快照)
更多網際網路新鮮資訊、工作奇淫技巧關注【飛魚在浪嶼】(日更新)
當你想沿著記憶通道旅行,重溫曾經喜歡的丟失的內容。
瀏覽爬蟲具有這種巧妙的作用,即只需將所有內容都放在檔案系統上,就可以偶然發現我當天錯過的東西。
原始碼在:
https://github.com/hartator/wayback-machine-downloader/
Wayback 機器下載器
從 Internet Archive Wayback Machine 下載整個網站。
安裝
您需要在您的系統上安裝 Ruby (>= 1.9.2) - 如果您還沒有它。然後執行:
gem install wayback_machine_downloader
提示:如果遇到許可權錯誤,則可能需要sudo在此命令前面新增。
基本用法
使用要檢索的網站的基本 url 作為引數執行
wayback_machine_downloader(例如,http://example.com):
wayback_machine_downloader http://example.com
這個怎麼運作
它會將 Wayback Machine 上存在的每個檔案的最新版本下載到./websites/example.com/. 它還將重新建立目錄結構和自動建立index.html頁面,以便與 Apache 和 Nginx 無縫協作。下載的所有檔案都是原始檔案,而不是 Wayback Machine 重寫版本。這樣,URL 和連結結構與以前相同。
高階用法
指定儲存檔案的目錄
-d, --directory PATH
可選的。預設情況下,Wayback Machine Downloader 將下載檔案,./websites/後跟網站的域名。您可能希望使用此選項將檔案儲存在特定目錄中。
例子:
wayback_machine_downloader http://example.com --directory downloaded-backup/
所有時間戳
-s, --all-timestamps
可選的。此選項將下載給定網站的所有時間戳/快照。它將使用每個快照的時間戳作為目錄。
例子:
wayback_machine_downloader http://example.com --all-timestamps Will download: websites/example.com/20060715085250/index.html websites/example.com/20051120005053/index.html websites/example.com/20060111095815/img/logo.png ...
從時間戳
-f, --from TIMESTAMP
可選的。您可能希望提供一個 from 時間戳以將您的備份鎖定到網站的特定版本。時間戳可以在常規 Wayback Machine 網站的 url 中找到(例如,https
://web.archive.org/web/20060716231334/http: //example.com)。也可以使用年(2006)、年 月(200607)等,可以和To Timestamp結合使用。然後,Wayback Machine Downloader 將僅獲取指定時間戳或之後的檔案版本。
例子:
wayback_machine_downloader http://example.com --from 20060716231334
到時間戳
-t, --to TIMESTAMP
可選的。您可能需要提供時間戳以將您的備份鎖定到網站的特定版本。時間戳可以在常規 Wayback Machine 網站的 url 中找到(例如,https
://web.archive.org/web/20100916231334/http: //example.com)。也可以使用年(2010)、年 月(201009)等,可以和From Timestamp結合使用。然後,Wayback Machine Downloader 將僅獲取指定時間戳或之前的檔案版本。
例子:
wayback_machine_downloader http://example.com --to 20100916231334
確切網址
-e, --exact-url
可選的。如果您只想檢索與提供的 url 完全匹配的檔案,您可以使用此標誌。它將避免下載任何其他內容。
比如你只想下載example.com的html主頁檔案:
wayback_machine_downloader http://example.com --exact-url
僅 URL 過濾器
-o, --only ONLY_FILTER
可選的。您可能想要檢索特定型別(例如,.pdf、.jpg、.wrd...)或位於特定目錄中的檔案。為此,您可以提供--only帶有字串或正規表示式的標誌(使用“/regex/”符號)來限制 Wayback Machine Downloader 將下載的檔案。
例如,如果您只想下載特定檔案中的檔案my_directory:
wayback_machine_downloader http://example.com --only my_directory
或者,如果您想下載所有影象而無需其他任何內容:
wayback_machine_downloader http://example.com --only "//.(gif|jpg|jpeg)$/i"
排除 URL 過濾器
-x, --exclude EXCLUDE_FILTER
可選的。您可能想要檢索不屬於某種型別(例如,.pdf、.jpg、.wrd...)或不在特定目錄中的檔案。為此,您可以提供--exclude帶有字串或正規表示式的標誌(使用“/regex/”符號)來限制 Wayback Machine Downloader 將下載的檔案。
例如,如果你想避免下載裡面的檔案my_directory:
wayback_machine_downloader http://example.com --exclude my_directory
或者,如果您想下載除圖片以外的所有內容:
wayback_machine_downloader http://example.com --exclude "//.(gif|jpg|jpeg)$/i"
將下載擴充套件到所有檔案型別
-a, --all
可選的。預設情況下,Wayback Machine Downloader 將自身限制為以 200 OK 程式碼響應的檔案。如果您還需要錯誤檔案(40x 和 50x 程式碼)或重定向檔案(30x 程式碼),您可以使用--all或-a標誌,Wayback Machine Downloader 將在 200 個 OK 檔案之外下載它們。它還將保留預設刪除的空檔案。
例子:
wayback_machine_downloader http://example.com --all
只列出檔案而不下載
-l, --list
它只會顯示要下載的檔案及其快照時間戳和 URL。輸出格式為 JSON。它不會下載任何東西。它對於除錯或連線到另一個應用程式很有用。
例子:
wayback_machine_downloader http://example.com --list
要考慮的最大快照頁面數
-p, --snapshot-pages NUMBER
可選的。指定要考慮的最大快照頁數。計算平均每頁 150,000 個快照。100 是預設的最大快照頁面數,對於大多數網站來說應該足夠了。如果您想下載非常大的網站,請使用更大的數字。
例子:
wayback_machine_downloader http://example.com --snapshot-pages 300
一次下載多個檔案
-c, --concurrency NUMBER
可選的。指定要同時下載的多個檔案的數量。允許顯著加快網站的下載速度。預設是一次下載一個檔案。
例子:
wayback_machine_downloader http://example.com --concurrency 20
使用 Docker 映象
作為替代安裝方式,我們有一個 Docker 映象!以這種方式檢索
wayback-machine-downloader Docker 映象:
docker pull hartator/wayback-machine-downloader
然後,您應該可以使用 Docker 映象下載網站。例如:
docker run --rm -it -v $PWD/websites:/websites hartator/wayback-machine-downloader http://example.com