Webをキャプチャして変換するツール

Webサイトとそのすべてのコンテンツをダウンロードする方法は?

Website

完成した結果だけでなく、Webサイト全体をダウンロードすることが重要な場合があります。 しかし、HTML Webページ、CSSなどのリソース、スクリプト、画像。

これはおそらく、コードのバックアップが必要であるが、何らかの理由で元のソースにアクセスできないためです。 または、時間の経過とともにWebサイトがどのように変化したかの詳細な記録が必要な場合があります。

幸いなことに、GrabzItのWeb Scraperは、Webサイト上のすべてのWebページをクロールすることでこれを実現できます。 次に、各Webページで、スクレイパーはページで参照されているリソースとともにHTMLをダウンロードします。

スクレイプを作成してWebサイト全体をダウンロードする

ウェブサイトのダウンロードを可能な限り簡単にするために、GrabzItはスクレイプテンプレートを提供します。 これをクリックしてください テンプレートリンク 始めるために。

クリックすると、スクレイプが作成されます。 次に、 ターゲットWebサイト タブをクリックし、ダウンロードするWebサイトのURLを入力します ターゲットURL テキストボックス。 次にクリック ターゲットを割り当てる そして1〜2秒待ちます。

スキップ スクレイプ手順エクスポートオプション タブを押して スケジュールスクレイプ タブ。 次にクリックできます 更新版 スクレイプを開始します。 ただし、Webサイトの定期的なバックアップを作成するなど、定期的なスケジュールで実行するようにスクレイプをセットアップする場合。 次に、をクリックします 繰り返しスクレイプ チェックボックスをオンにして、スクレイプを繰り返す頻度を選択します。

ダウンロードしたWebサイトを使用する

スクレイプが完了すると、ZIPファイルが取得されます。 次に、ZIPファイルを抽出し、Filesというディレクトリにある内部に、ダウンロードされたすべてのWebページとWebサイトリソースがあります。 また、ディレクトリのルートにdata.htmlという特別なHTMLページがあります。 このファイルをWebブラウザーで開くと、3つの列を持つHTMLテーブルが見つかります。

  • リソースURL-これは、Webスクレイパーがリソースを見つけたURLです。 例えば:http://www.example.com/logo.jog
  • リソースタイプ-これはダウンロードされたリソースのタイプです。 リソースには4つのタイプがあります。
    • ウェブページ
    • 画像
    • 外部リソース-リンクタグからダウンロードされたリソース
    • スクリプト
  • 新しいファイル名-リソースがされている新しいファイル名 saved下。 この列にはファイルへのリンクも含まれていることに注意してください。これにより、ダウンロードしたすべてのリソースを簡単に検査できます。

このファイルは、新しいファイル名を古い場所にマップするのに役立つように設計されています。 これは、URLがファイルパスに直接格納するには大きすぎるため、URLをファイル構造に直接マップできないために必要です。

また、特にWebページがさまざまなクエリを変更して多くの異なるコンテンツを表すことができる場合、多くの順列が存在する可能性があります string パラメーター! その代わりに、ファイルフォルダーのフラット構造にWebサイトを保存し、data.htmlファイルを提供して、これらのファイルを元の構造にマッピングします。

もちろん、このため、ダウンロードしたHTMLページを開くことができず、Webで見たWebページが表示されることを期待できません。 これを行うには、画像、スクリプト、CSSリソースなどのパスを書き換えて、HTMLファイルがローカルファイル構造内でそれらを見つけられるようにする必要があります。

ZIPファイルのルートに含まれる別のファイルはWebsite.csvと呼ばれます。 これには、data.htmlファイルとまったく同じ情報が含まれています。 ただし、これは、ダウンロードしたWebサイトを再作成するためにURLからファイルへのマッピングを使用して、Webサイトのダウンロードをプログラムで読み取って処理する場合に含まれます。