Webをキャプチャして変換するツール

Webサイトとそのすべてのコンテンツをダウンロードする方法は?

Website

完成した結果だけでなく、Webサイト全体をダウンロードすることが重要な場合があります。 しかし、HTML Webページ、CSSなどのリソース、スクリプト、画像。

これはおそらく、コードのバックアップが必要であるが、何らかの理由で元のソースにアクセスできないためです。 または、時間の経過とともにWebサイトがどのように変化したかの詳細な記録が必要な場合があります。

幸いなことに、GrabzItのWeb Scraperは、Webサイト上のすべてのWebページをクロールすることでこれを実現できます。 次に、各Webページで、スクレイパーはページで参照されているリソースとともにHTMLをダウンロードします。

スクレイプを作成してWebサイト全体をダウンロードする

ウェブサイトのダウンロードを可能な限り簡単にするために、GrabzItはスクレイプテンプレートを提供します。

はじめに このテンプレートをロード.

次にあなたの ターゲットURL、このURLのエラーと必要な変更が行われたかどうかが自動的にチェックされます。 保つ スクレイプを自動的に開始 チェックボックスをオンにすると、スクレイピングが自動的に開始されます。

スクレイプのカスタマイズ

テンプレートを変更する場合は、チェックボックスをオフにします スクレイプを自動的に開始 チェックボックス。 XNUMXつの変更は、定期的にスクレイプを実行することです。たとえば、Webサイトの定期的なコピーを作成します。 で スケジュールスクレイプ タブをクリックし、 繰り返しスクレイプ チェックボックスをオンにして、スクレイピングを繰り返す頻度を選択します。 次にクリック アップデイト スクレイピングを開始します。

ダウンロードしたWebサイトを使用する

スクレイプが完了すると、ZIPファイルが取得されます。 次に、ZIPファイルを抽出し、Filesというディレクトリにある内部に、ダウンロードされたすべてのWebページとWebサイトリソースがあります。 また、ディレクトリのルートにdata.htmlという特別なHTMLページがあります。 このファイルをWebブラウザーで開くと、3つの列を持つHTMLテーブルが見つかります。

  • リソースURL-これは、Webスクレイパーがリソースを見つけたURLです。 例えば:http://www.example.com/logo.jog
  • リソースタイプ-これはダウンロードされたリソースのタイプです。 リソースには4つのタイプがあります。
    • ウェブページ
    • 画像
    • 外部リソース-リンクタグからダウンロードされたリソース
    • スクリプト
  • 新しいファイル名-リソースがされている新しいファイル名 saved下。 この列にはファイルへのリンクも含まれていることに注意してください。これにより、ダウンロードしたすべてのリソースを簡単に検査できます。

このファイルは、新しいファイル名を古い場所にマップするのに役立つように設計されています。 これは、URLがファイルパスに直接格納するには大きすぎるため、URLをファイル構造に直接マップできないために必要です。

また、特にWebページがさまざまなクエリを変更して多くの異なるコンテンツを表すことができる場合、多くの順列が存在する可能性があります string パラメーター! その代わりに、ファイルフォルダーのフラット構造にWebサイトを保存し、data.htmlファイルを提供して、これらのファイルを元の構造にマッピングします。

もちろん、このため、ダウンロードしたHTMLページを開くことができず、Webで見たWebページが表示されることを期待できません。 これを行うには、画像、スクリプト、CSSリソースなどのパスを書き換えて、HTMLファイルがローカルファイル構造内でそれらを見つけられるようにする必要があります。

ZIPファイルのルートに含まれる別のファイルはWebsite.csvと呼ばれます。 これには、data.htmlファイルとまったく同じ情報が含まれています。 ただし、これは、ダウンロードしたWebサイトを再作成するためにURLからファイルへのマッピングを使用して、Webサイトのダウンロードをプログラムで読み取って処理する場合に含まれます。