最も一般的な要件の1つは、Webサイトからデータを抽出し、それを有効にすることです intさらなる処理のためにエクスポートできる表構造。 しかし、データセットとは何ですか? GrabzItのWebスクレーパー?
以下は、データセットに含まれるテーブルデータです 価格表、テーブルは3つの列で構成されます アイテムラベル, アイテム説明 および アイテム価格.
アイテムラベル | アイテム説明 | アイテム価格 |
---|---|---|
カメラ | デジタル写真を撮る | $ 99.00 |
このデータセットを作成するには、次のスクレイプ手順を使用する必要があります。
Data.save('Camera', 'price list', 'item label'); Data.save('Takes digital photos', 'price list', 'item description'); Data.save('$99.00', 'price list', 'item price');
これは Data.save
追加する方法 データ値 特定の データセット および カラム。 いつも Data.save
メソッドが同じデータセットと列名のパラメーターで呼び出され、新しい列がその列に追加されます。 ただし、静的値を使用してデータセットを作成しているため、上記のスクレイプ命令はあまり役に立ちません。 以下のコードはWebページのHTMLを示しています。その後、ページからデータを動的に抽出するスクレイプ命令を記述し、 save it intデータセット。
<html> <body> <span id="spnLabel">Nikon 1055</span> <span id="spnDescription">Great little camera, creates clear sharp images.</span> <span id="spnPrice">$99.99</span> </body> </html>
ここで使用します Page.getTagValue
spanタグから値を抽出するメソッド。
Data.save(Page.getTagValue({"id":{"equals":"spnLabel"}}), 'price list', 'item label'); Data.save(Page.getTagValue({"id":{"equals":"spnDescription"}}), 'price list', 'item description'); Data.save(Page.getTagValue({"id":{"equals":"spnPrice"}}), 'price list', 'item price');
あなたが見ることができるように Page.getTagValue
メソッドは、テキストを抽出する必要があるHTML要素を一意に識別するフィルターを使用します。 この場合、フィルターはid HTML属性が等しいことを指定しています spnLabel, spnDescription or spnPrice それぞれ。 をクリックして簡単にフィルターを生成できます アイコン。フィルタの構築を簡単にするウィザードが表示されます。
ここで示したようにデータセットを構築したら、それをどのようにエクスポートするかを決定できます エクスポートオプション タブでを確認できます。