Webをキャプチャして変換するツール

データを抽出して変換する intデータセット

最も一般的な要件の1つは、Webサイトからデータを抽出し、それを有効にすることです intさらなる処理のためにエクスポートできる表構造。 しかし、データセットとは何ですか? GrabzItのWebスクレーパー?

データセットの例:価格表

以下は、データセットに含まれるテーブルデータです 価格表、テーブルは3つの列で構成されます アイテムラベル, アイテム説明アイテム価格.

アイテムラベル アイテム説明 アイテム価格
カメラ デジタル写真を撮る $ 99.00

このデータセットを作成するには、次のスクレイプ手順を使用する必要があります。

Data.save('Camera', 'price list', 'item label');
Data.save('Takes digital photos', 'price list', 'item description');
Data.save('$99.00', 'price list', 'item price');

これは Data.save 追加する方法 データ値 特定の データセットカラム。 いつも Data.save メソッドが同じデータセットと列名のパラメーターで呼び出され、新しい列がその列に追加されます。 ただし、静的値を使用してデータセットを作成しているため、上記のスクレイプ命令はあまり役に立ちません。 以下のコードはWebページのHTMLを示しています。その後、ページからデータを動的に抽出するスクレイプ命令を記述し、 save it intデータセット。

<html>
    <body>
        <span id="spnLabel">Nikon 1055</span>
        <span id="spnDescription">Great little camera, creates clear sharp images.</span>
        <span id="spnPrice">$99.99</span>
    </body>
</html>

ここで使用します Page.getTagValue spanタグから値を抽出するメソッド。

Data.save(Page.getTagValue({"id":{"equals":"spnLabel"}}), 'price list', 'item label');
Data.save(Page.getTagValue({"id":{"equals":"spnDescription"}}), 'price list', 'item description');
Data.save(Page.getTagValue({"id":{"equals":"spnPrice"}}), 'price list', 'item price');

あなたが見ることができるように Page.getTagValue メソッドは、テキストを抽出する必要があるHTML要素を一意に識別するフィルターを使用します。 この場合、フィルターはid HTML属性が等しいことを指定しています spnLabel, spnDescription or spnPrice それぞれ。 をクリックして簡単にフィルターを生成できます フィルターボタン アイコン。フィルタの構築を簡単にするウィザードが表示されます。

ここで示したようにデータセットを構築したら、それをどのようにエクスポートするかを決定できます エクスポートオプション タブでを確認できます。