最も一般的な要件の XNUMX つは、Web サイトからデータを抽出してデータを変換することです。 into さらなる処理のためにエクスポートできる表形式の構造。 しかし、データセットとは何で、どのように使用されるのでしょうか。 GrabzItのWebスクレーパー?
以下はデータセットに含まれるテーブルデータです 価格表、テーブルは XNUMX つの列で構成されます アイテムラベル, アイテム説明 や アイテム価格.
アイテムラベル | アイテム説明 | アイテム価格 |
---|---|---|
カメラ | デジタル写真を撮ります | $99.00 |
このデータセットを作成するには、次のスクレイピング手順を使用する必要があります。
Data.save('Camera', 'price list', 'item label'); Data.save('Takes digital photos', 'price list', 'item description'); Data.save('$99.00', 'price list', 'item price');
これは Data.save
を追加するメソッド データ値 特定の データセット や の項目に表示されます。。 毎回、 Data.save
同じデータセットと列名のパラメータを使用してメソッドが呼び出されると、新しい行がその列に追加されます。 ただし、静的な値を使用してデータセットを作成しているため、上記のスクレイピング手順はあまり役に立ちません。 以下のコードは Web ページの HTML を示しています。次に、ページからデータを動的に抽出するためのスクレイピング命令を記述します。 save it intああデータセット。
<html> <body> <span id="spnLabel">Nikon 1055</span> <span id="spnDescription">Great little camera, creates clear sharp images.</span> <span id="spnPrice">$99.99</span> </body> </html>
これから使用するのは、 Page.getTagValue
スパンタグから値を抽出するメソッド。
Data.save(Page.getTagValue({"id":{"equals":"spnLabel"}}), 'price list', 'item label'); Data.save(Page.getTagValue({"id":{"equals":"spnDescription"}}), 'price list', 'item description'); Data.save(Page.getTagValue({"id":{"equals":"spnPrice"}}), 'price list', 'item price');
あなたが見ることができるように Page.getTagValue
メソッドは、テキストを抽出する必要がある HTML 要素を一意に識別するフィルターを使用します。 この場合、フィルターは id HTML 属性が次と等しいことを指定しています。 spnLabel, spnDescription or spnPrice それぞれ。 をクリックするとフィルターを簡単に生成できます。 アイコンをクリックすると、フィルターの構築を簡素化するウィザードが表示されます。
ここで示したようにデータセットを構築したら、それをどのようにエクスポートするかを決定できます。 エクスポートオプション タブには何も表示されないことに注意してください。