Webをキャプチャして変換するツール

Webサイトとそのすべてのコンテンツをダウンロードする方法は?

Website

完成した結果だけでなく、Webサイト全体をダウンロードすることが重要な場合があります。 しかし、HTML Webページ、CSSなどのリソース、スクリプト、画像。

これはおそらく、コードのバックアップが必要であるが、何らかの理由で元のソースにアクセスできないためです。 または、時間の経過とともにWebサイトがどのように変化したかの詳細な記録が必要な場合があります。

幸いなことに、GrabzItのWeb Scraperは、Webサイト上のすべてのWebページをクロールすることでこれを実現できます。 次に、各Webページで、スクレイパーはページで参照されているリソースとともにHTMLをダウンロードします。

スクレイプを作成してWebサイト全体をダウンロードする

ウェブサイトのダウンロードを可能な限り簡単にするために、GrabzItはスクレイプテンプレートを提供します。

はじめに このテンプレートをロード.

Then enter your ターゲットURL, this URL is then automatically checked for errors and any required changes made. Keep the Automatically Start Scrape checkbox ticked, and your scrape will automatically start.

Customizing your Scrape

If you want to alter the template, uncheck the Automatically Start Scrape checkbox. One alteration would be to run the scrape on a regular schedule, for instance, to create regular copies of a website. On the スケジュールスクレイプ tab, simply click the 繰り返しスクレイプ checkbox and then select how frequently you want the scrape to repeat. Then click 更新版 to start the scrape.

ダウンロードしたWebサイトを使用する

スクレイプが完了すると、ZIPファイルが取得されます。 次に、ZIPファイルを抽出し、Filesというディレクトリにある内部に、ダウンロードされたすべてのWebページとWebサイトリソースがあります。 また、ディレクトリのルートにdata.htmlという特別なHTMLページがあります。 このファイルをWebブラウザーで開くと、3つの列を持つHTMLテーブルが見つかります。

  • リソースURL-これは、Webスクレイパーがリソースを見つけたURLです。 例えば:http://www.example.com/logo.jog
  • リソースタイプ-これはダウンロードされたリソースのタイプです。 リソースには4つのタイプがあります。
    • ウェブページ
    • 画像
    • 外部リソース-リンクタグからダウンロードされたリソース
    • スクリプト
  • 新しいファイル名-リソースがされている新しいファイル名 saved下。 この列にはファイルへのリンクも含まれていることに注意してください。これにより、ダウンロードしたすべてのリソースを簡単に検査できます。

このファイルは、新しいファイル名を古い場所にマップするのに役立つように設計されています。 これは、URLがファイルパスに直接格納するには大きすぎるため、URLをファイル構造に直接マップできないために必要です。

また、特にWebページがさまざまなクエリを変更して多くの異なるコンテンツを表すことができる場合、多くの順列が存在する可能性があります string パラメーター! その代わりに、ファイルフォルダーのフラット構造にWebサイトを保存し、data.htmlファイルを提供して、これらのファイルを元の構造にマッピングします。

もちろん、このため、ダウンロードしたHTMLページを開くことができず、Webで見たWebページが表示されることを期待できません。 これを行うには、画像、スクリプト、CSSリソースなどのパスを書き換えて、HTMLファイルがローカルファイル構造内でそれらを見つけられるようにする必要があります。

ZIPファイルのルートに含まれる別のファイルはWebsite.csvと呼ばれます。 これには、data.htmlファイルとまったく同じ情報が含まれています。 ただし、これは、ダウンロードしたWebサイトを再作成するためにURLからファイルへのマッピングを使用して、Webサイトのダウンロードをプログラムで読み取って処理する場合に含まれます。