GrabzItのWebスクレーパー ウェブサイトのリンクをチェックしたり、破損したレポートを作成するなど、さまざまなオンラインタスクを実行できるように非常に柔軟です。
最初にすることは、 擦り傷 確認するターゲットWebサイトを割り当ててから、以下のコードを使用してスクレイプ手順を実行します。
var urls = Page.getTagAttributes('href', {"tag":{"equals":"a"}}); urls = Utility.Array.unique(urls); urls = Utility.Array.filter(urls, Data.readColumn("Links", "URL")); for (i = 0; i < urls.length; i++) { var url = urls[i]; Data.save(Page.getUrl(), "Links", "Found On"); Data.save(url, "Links", "URL"); if (Utility.URL.exists(url)) { Data.save("Found", "Links", "Result"); } else { Data.save("Missing", "Links", "Result"); } }
最初の行 var urls = Page.getTagAttributes('href', {"tag":{"equals":"a"}});
すべてのハイパーリンクURLを抽出し、 urls
変数。 次の行では Utility.Array.unique すべてのURLを一意にするメソッド。
3行目では、リンクが2回チェックされていないことを確認します。これは以前に実行されたURLを読み取ります saved、これにより抽出されたリンクをフィルタリングします。 リンクが壊れているすべてのページを記録するには、この行を削除します。
URLデータがクリーンアップされた後、残りの各URLをループして、 データセット を使用してURLが存在するかどうかを確認する前に、現在のページとともに Utility.URL.exists
方法。 このチェックの結果も saveデータセット内のd。
または、コードを置き換えることにより、ウェブサイトの画像が存在するかどうかを確認できます Page.getTagAttributes('href', {"tag":{"equals":"a"}});
Page.getTagAttributes('src', {"tag":{"equals":"img"}});
.