Webをキャプチャして変換するツール

カスタムリンクチェッカーを作成する

この例は、 template.

GrabzItのWebスクレーパー ウェブサイトのリンクをチェックしたり、破損したレポートを作成するなど、さまざまなオンラインタスクを実行できるように非常に柔軟です。

最初にすることは、 擦り傷 確認するターゲットWebサイトを割り当ててから、以下のコードを使用してスクレイプ手順を実行します。

        var urls = Page.getTagAttributes('href', {"tag":{"equals":"a"}});
        urls = Utility.Array.unique(urls);
        urls = Utility.Array.filter(urls, Data.readColumn("Links", "URL"));

        for (i = 0; i < urls.length; i++) 
        {
          var url = urls[i];

          Data.save(Page.getUrl(), "Links", "Found On");
          Data.save(url, "Links", "URL");

          if (Utility.URL.exists(url))
          {
            Data.save("Found", "Links", "Result");
          }
          else
          {
            Data.save("Missing", "Links", "Result");
          }
        }
    

最初の行 var urls = Page.getTagAttributes('href', {"tag":{"equals":"a"}}); すべてのハイパーリンクURLを抽出し、 urls 変数。 次の行では Utility.Array.unique すべてのURLを一意にするメソッド。

3行目では、リンクが2回チェックされていないことを確認します。これは以前に実行されたURLを読み取ります saved、これにより抽出されたリンクをフィルタリングします。 リンクが壊れているすべてのページを記録するには、この行を削除します。

URLデータがクリーンアップされた後、残りの各URLをループして、 データセット を使用してURLが存在するかどうかを確認する前に、現在のページとともに Utility.URL.exists 方法。 このチェックの結果も saveデータセット内のd。

または、コードを置き換えることにより、ウェブサイトの画像が存在するかどうかを確認できます Page.getTagAttributes('href', {"tag":{"equals":"a"}});   Page.getTagAttributes('src', {"tag":{"equals":"img"}});.