Webをキャプチャして変換するツール

データを抽出して変換する intデータセット

最も一般的な要件の XNUMX つは、Web サイトからデータを抽出してデータを変換することです。 into さらなる処理のためにエクスポートできる表形式の構造。 しかし、データセットとは何で、どのように使用されるのでしょうか。 GrabzItのWebスクレーパー?

データセットの例: 価格表

以下はデータセットに含まれるテーブルデータです 価格表、テーブルは XNUMX つの列で構成されます アイテムラベル, アイテム説明アイテム価格.

アイテムラベル アイテム説明 アイテム価格
カメラ デジタル写真を撮ります $99.00

このデータセットを作成するには、次のスクレイピング手順を使用する必要があります。

Data.save('Camera', 'price list', 'item label');
Data.save('Takes digital photos', 'price list', 'item description');
Data.save('$99.00', 'price list', 'item price');

これは Data.save を追加するメソッド データ値 特定の データセットの項目に表示されます。。 毎回、 Data.save 同じデータセットと列名のパラメータを使用してメソッドが呼び出されると、新しい行がその列に追加されます。 ただし、静的な値を使用してデータセットを作成しているため、上記のスクレイピング手順はあまり役に立ちません。 以下のコードは Web ページの HTML を示しています。次に、ページからデータを動的に抽出するためのスクレイピング命令を記述します。 save it intああデータセット。

<html>
    <body>
        <span id="spnLabel">Nikon 1055</span>
        <span id="spnDescription">Great little camera, creates clear sharp images.</span>
        <span id="spnPrice">$99.99</span>
    </body>
</html>

これから使用するのは、 Page.getTagValue スパンタグから値を抽出するメソッド。

Data.save(Page.getTagValue({"id":{"equals":"spnLabel"}}), 'price list', 'item label');
Data.save(Page.getTagValue({"id":{"equals":"spnDescription"}}), 'price list', 'item description');
Data.save(Page.getTagValue({"id":{"equals":"spnPrice"}}), 'price list', 'item price');

あなたが見ることができるように Page.getTagValue メソッドは、テキストを抽出する必要がある HTML 要素を一意に識別するフィルターを使用します。 この場合、フィルターは id HTML 属性が次と等しいことを指定しています。 spnLabel, spnDescription or spnPrice それぞれ。 をクリックするとフィルターを簡単に生成できます。 フィルターボタン アイコンをクリックすると、フィルターの構築を簡素化するウィザードが表示されます。

ここで示したようにデータセットを構築したら、それをどのようにエクスポートするかを決定できます。 エクスポートオプション タブには何も表示されないことに注意してください。