一般的なタスクは、Webサイトからリンク、特にHTMLリンクを抽出することです。 幸いなことに、これは使用するときに簡単です GrabzItのWebスクレーパー。 まず最初に、スクレイプの開始ページやその他のオプションなどの通常の詳細で新しいスクレイプを作成します。
その後、 スクレイプ手順 タブをクリックします ボタン。 これは入ります
Page
キーワード intoスクレイプの説明とドロップダウンが開きます。 選択してください getTagAttributes
リストから。 次に追加 'href'
最初のパラメーターとして、これはhref属性を抽出してからコンマを入力するようにWeb Scraperに指示します。
次にクリック これにより、href属性を抽出する要素をWeb Scraperに伝えることができます。 フィルタウィンドウで、タイプが「Webページ」に設定され、制限が「タグ名」および「等しい」であることを確認します。 次に入力してください
a
テキストボックスで[追加]ボタン、[フィルターの挿入]ボタンの順にクリックします。 行の最後にセミコロンを追加して、指示を終了します。
以下に示すようなものが残っているはずです。
Page.getTagAttributes('href', {"tag":{"equals":"a"}});
上記のコードはすべてのリンクURLをWebページから抽出しますが、今は save それらのリンクURL。 これを行うには、このコマンドからセミコロンを除いてラップします Data.save
コマンド。 これを行うには、行の先頭に移動して、 ボタン。 次に、ドロップダウンで選択します
save
、次に行の最後に移動してコンマを追加します。 次に、「My Website」などのデータセットと呼ぶものを追加してから、別のカンマを追加し、「Links」などの列を説明する別のパラメーターを追加してから、コマンドを閉じます。 )
セミコロンの前。
これで、次のスクレイプ手順が表示されます。
Data.save(Page.getTagAttributes('href', {"tag":{"equals":"a"}}), 'My Websites', 'Links');
スクレイプを実行すると、ウェブサイトからすべてのリンクが抽出されます。 これにより、My Websitesという名前のテーブルが作成され、Linksという列名がエクスポートされます。 into XML、CSV、スプレッドシートなど、さまざまな形式。 このチュートリアルは、Scrape Instructionsツールバーのウィザードボタンを使用して達成することもできます。