Webをキャプチャして変換するツール

Web Scraperドキュメント

これは、Webスクレーパーで利用できる特別なスクレイプ指示方法の概要です。

Criteria.apply(array)

指定された配列からこの基準の以前の操作で削除されたアイテムと同じ場所にあるアイテムを削除します。

  • array-必須、変更を適用する配列。

Criteria.ascending(values)

値を昇順で返します。

  • 値-必須、昇順でソートする配列を渡します。

Criteria.contains(needles、value)

指定された値を含むneedles配列内のアイテムのみを返します。

  • 針-必須、フィルターする配列。
  • 値-必須、値項目が含まれている必要があります。

Criteria.create(array)

新しいアレイで操作を実行する準備ができた新しい基準を作成します。

  • array-必須、変更を適用する列の配列。

  • Criteria.descending(values)

    値を降順で返します。

    • 値-必須、降順でソートする配列を渡します。

    Criteria.equals(needles、value)

    needles配列内の指定された値に等しいアイテムのみを返します。

    • 針-必須、フィルターする配列。
    • 値-必須、値項目は等しくなければなりません。

    Criteria.extract(array、pattern)

    指定されたパターンに従って一致がトリムされた配列内のすべてのアイテムを返します。

    • array-必須、マッチをトリムする配列。
    • パターン-必須。パターンは、返されるテキストの目的の部分をトリミングする方法を定義します。 トリミングする値は、パターン内の{{VALUE}}で示されます。
      たとえば、「私の年齢は33です」から年齢をトリムするには。 「私の年齢は{{VALUE}}です」というパターン。 使用されます。

    Criteria.greaterThan(needles、value)

    needles配列内の指定された値より大きいアイテムのみを返します。

    • 針-必須、フィルターする配列。
    • 値-必須、値項目はより大きい必要があります。

    Criteria.keep(needles、haystack)

    haystack配列で見つかった一致を保持した後、針配列を返します。

    • 針-必須、フィルターする配列。
    • haystack-必須、針を保持するために使用する配列。

    Criteria.lessThan(needles、value)

    needles配列内の指定された値より小さいアイテムのみを返します。

    • 針-必須、フィルターする配列。
    • 値-必須、値項目は以下でなければなりません。

    Criteria.limit(values、limit)

    nが制限変数である場合、最初のn個の値を返します。

    • 値-必須、制限したい配列を渡します。
    • limit-必須、配列から返す値の数。

    Criteria.notEquals(needles、value)

    needles配列内の指定された値と等しくないアイテムのみを返します。

    • 針-必須、フィルターする配列。
    • 値-必須、値項目は等しくない必要があります。

    Criteria.remove(needles、haystack)

    haystack配列で見つかった一致を削除した後でneedles配列を返します。

    • 針-必須、フィルターする配列。
    • haystack-必須、針を削除するために使用する配列。

    Criteria.repeat(配列)

    最長の列の長さと一致するまで、配列内の項目を繰り返します。

    • array-必須、繰り返す配列。

    Criteria.unique(針)

    needles配列から一意の値のみを返します。

    • needles-必須、すべての重複値を削除する配列を渡します。

    Data.countFilesDownloaded()

    ダウンロードしたファイルの総数を数えます。


    Data.log(メッセージ)

    メッセージをスクレイプログに書き込みます。

    • メッセージ-必須、ログに書き込むメッセージ。

    Data.pad(padValue、dataSet)

    特定のデータセットのすべての列のセル数が同じになるまで、列の最後に空のセルを追加することにより、データセットに存在するすべての列を埋め込みます。

    • padValue- 任意、セルを埋め込む値。 何も指定しない場合、空の値が使用されます。
    • dataSet- 任意、パディングするデータセット。

    Data.readColumn(dataSet、column)

    指定したデータセットから指定した列の列を読み取ります。

    • dataSet- 任意、値を読み取るデータセット。
    • 列- 任意、値を読み取るデータセットの列。

    データ。save(値s、dataSet、column)

    Saves指定されたデータセットおよび列の値。

    • 値-必須、目的の値または値の配列を渡す save.
    • dataSet- 任意、データセットへ save 値 into.
    • 列- 任意、データセット内の列 save 値 into.

    データ。saveDOCXScreenshot(htmlOrUrls、オプション、データセット、列)

    HTML、URL、またはURLのDOCXスクリーンショットを撮り、オプションで、指定したデータセットと列にファイルへのリンクを配置します。

    • url-必須。DOCXスクリーンショットを撮りたいURLまたはURLの配列を渡します。
    • オプション- 任意、スクリーンショットのオプション。
    • dataSet- 任意、データセットへ save DOCXスクリーンショットリンク into.
    • 列- 任意、データセット内の列 save DOCXスクリーンショットリンク into.

    データ。saveImageScreenshot(htmlOrUrls、オプション、データセット、列)

    HTML、URL、またはURLの画像スクリーンショットを撮り、オプションで、指定したデータセットと列にファイルへのリンクを配置します。

    • url-必須。画像のスクリーンショットを撮りたいURLまたはURLの配列を渡します。
    • オプション- 任意、スクリーンショットのオプション。
    • dataSet- 任意、データセットへ save 画像のスクリーンショットのリンク into.
    • 列- 任意、データセット内の列 save 画像のスクリーンショットのリンク into.

    データ。savePDFScreenshot(htmlOrUrls、オプション、データセット、列)

    HTML、URL、またはURLのPDFスクリーンショットを取得し、オプションで、指定したデータセットと列にファイルへのリンクを配置します。

    • url-必須。PDFスクリーンショットを撮りたいURLまたはURLの配列を渡します。
    • オプション- 任意、スクリーンショットのオプション。
    • dataSet- 任意、データセットへ save PDFスクリーンショットのリンク into.
    • 列- 任意、データセット内の列 save PDFスクリーンショットのリンク into.

    データ。saveTableScreenshot(htmlOrUrls、オプション、データセット、列)

    HTML、URL、またはURLの表のスクリーンショットを撮り、オプションで、指定したデータセットと列にファイルへのリンクを配置します。

    • url-必須、テーブルのスクリーンショットを撮りたい任意のURLまたはURLの配列を渡します。
    • オプション- 任意、スクリーンショットのオプション。
    • dataSet- 任意、データセットへ save 表のスクリーンショットのリンク into.
    • 列- 任意、データセット内の列 save 表のスクリーンショットのリンク into.

    データ。saveファイル(urls、ファイル名、データセット、列)

    Save■ファイルとしての1つ以上のURL。オプションで、指定したデータセットと列にファイルへのリンクを配置します。

    • url-必須、有効にするURLまたはURLの配列を渡す intoaファイル。
    • ファイル名 - 任意、生成されたファイル名の代わりに使用するファイル名を渡します。
    • dataSet-オプション、データセット save ファイルリンク into.
    • 列- 任意、データセット内の列 save ファイルリンク into.

    データ。saveToFile(データ、ファイル名、データセット、列)

    Save■データまたはデータ項目をファイルとして指定し、オプションで、指定したデータセットと列にファイルへのリンクを配置します。

    • データ-必須、任意のデータまたはデータの配列を渡す save ファイル内。
    • ファイル名 - 任意、生成されたファイル名の代わりに使用するファイル名を渡します。
    • dataSet-オプション、データセット save ファイルリンク into.
    • 列- 任意、データセット内の列 save ファイルリンク into.

    データ。save一意(値s、dataSet、column)

    Save■指定されたデータセットと列に対する一意の値。 同じデータセットと列の重複する値は無視されます。

    • 値-必須、目的の値または値の配列を渡す save.
    • dataSet- 任意、データセットへ save 値 into.
    • 列- 任意、データセット内の列 save 値 into.

    データ。saveUniqueFile(urls、ファイル名、データセット、列)

    Save■ファイルとしての1つまたは複数のURL。オプションで、指定されたデータセットと列にファイルへのリンクを配置します。 このメソッドは save 指定されたデータセットと列に一意の値、またはスクレイプ全体に一意のデータセットと列のURLがない場合。

    • url-必須、有効にするURLまたはURLの配列を渡す intoaファイル。
    • ファイル名 - 任意、生成されたファイル名の代わりに使用するファイル名を渡します。
    • dataSet- 任意、データセットへ save ファイルリンク into.
    • 列- 任意、データセット内の列 save ファイルリンク into.

    データ。saveVideoAnimation(videoUrls、オプション、データセット、列)

    オンラインビデオを変換する intoアニメーションGIF、およびオプションで、指定したデータセットと列にファイルへのリンクを配置します。

    • videoUrl-必須、変換したい動画のURLまたはURLの配列を渡す intoアニメーションGIF。
    • オプション- 任意、アニメーションオプション。
    • dataSet- 任意、データセットへ save アニメーションリンク into.
    • 列- 任意、データセット内の列 save アニメーションリンク into.

    Global.get(name)

    を取得 saved変数値。

    • name-必須、返す変数の名前。

    Global.set(名前、値s、持続)

    Save■スクレイプされたページ間の値。

    • name-必須、変数の名前 save.
    • 値-必須、変数値 save.
    • persist-オプション。trueの場合、変数はスクレイプ間で保持されます。

    Navigation.addTemplate(urls、 テンプレート)

    指定されたテンプレートに属するURLを定義します。 これにより、スクレイプ命令を特定のURLでのみ実行するように制限できます。

    • url-必須。テンプレートを定義するURLまたはURLの配列を渡します。
    • テンプレート-必須。

    Navigation.clearCookies()

    現在のスクレイプのすべてのCookieを削除します。


    Navigation.navigate(フィルター、テンプレート)

    1つ以上のHTML要素をクリックします。

    • filter-必須。クリックするHTML要素を識別するために使用されるフィルター。
    • template-選択したHTML要素にナビゲートするときに割り当てるテンプレート。

    Navigation.goTo(url)

    指定されたURLにすぐに移動します。

    • url-必須、ナビゲートするURL。

    Navigation.hover(filter)

    1つ以上のHTML要素にカーソルを合わせます。

    • filter-必須。ホバーするHTML要素を識別するために使用されるフィルター。

    Navigation.isTemplate(template)

    現在のページが指定されたテンプレートに属する場合、trueを返します。

    • テンプレート-必須、ページが属しているかどうかを確認するテンプレート。

    Navigation.paginate(filter、seconds)

    指定された要素をページ分割します。

    • filter-必須、ページ編集するHTML要素を識別するために使用されるフィルター。
    • seconds-必須、ページ分割された結果に移動するまでの秒数。

    Navigation.remove(filter)

    1つ以上のHTML要素を削除します。

    • filter-必須。削除するHTML要素を識別するために使用されるフィルター。

    Navigation.scroll(filter)

    選択した要素またはWebページ全体をスクロールします。

    • filter-オプション。スクロールする要素を識別するために使用されるフィルター。指定しない場合、Webページ全体がスクロールされます。

    Navigation.select(values、フィルター)

    select要素で1つ以上の有効な値を選択します。

    • 値-必須、選択する1つ以上の値。
    • filter-必須、選択する選択要素を識別するために使用されるフィルター。

    Navigation.stopScraping(abort)

    すぐにこするのを止めてください。

    • abort-オプション。trueの場合、処理を停止し、結果をエクスポートまたは送信しません。

    Navigation.type(texts、フィルター)

    テキストを入力 intoa要素。

    • テキスト-必須、入力するテキストの1つ以上のアイテム。
    • filter-必須、入力する要素を識別するために使用されるフィルター into.

    Navigation.wait(seconds)

    数秒待ってから続行します。 これは、このクリック、選択、およびコマンドの使用時に最も役立ちます。

    • seconds-必須、待機する秒数。

    Page.contains(検索、属性、フィルター)

    ページに検索するテキストが含まれている場合、trueを返します。

    • 検索-必須、検索するテキスト。
    • 属性-オプション、検索する属性。
    • filter-オプション。検索する要素を識別するために使用されるフィルター。

    Page.exists(フィルター)

    ページに検索フィルターに一致する要素が含まれている場合、trueを返します。

    • filter-必須、検索する要素を識別するために使用されるフィルター。

    Page.getAuthor()

    指定されている場合、ページの作成者を取得します。


    Page.getDescription()

    指定されている場合、ページの説明を取得します。


    Page.getFavIconUrl()

    ページのFavIcon URLを取得します。


    Page.getHtml()

    生のページのHTMLを取得します。


    Page.getKeywords()

    スクレイピングされているページのキーワードを取得します。


    Page.getLastModified()

    ページのメタデータまたは応答ヘッダーからWebページが最後に変更された時刻を取得します。


    Page.getPageNumber()

    スクレイピングされている現在のURLのページ番号を取得します。


    Page.getPreviousUrl(index)

    前のURLを取得します。-1は最後のURLを示し、数字が小さいほど以前のURLを示します。

    • index-オプション、返す前のページのインデックス。 デフォルトは-1です。

    Page.getTagAttribute(属性、フィルター)

    一致する属性値を返します。

    • 属性-必須、検索する属性。
    • filter-オプション。検索する要素を識別するために使用されるフィルター。

    Page.getTagAttributes(属性、フィルター、linkedTo)

    一致するCSS値を返します。

    • 属性-必須、検索するCSS属性。
    • filter-オプション。検索する要素を識別するために使用されるフィルター。
    • linkedTo-オプション。これはリンクされる列によって、相対値が一緒に保持されるようにします。

    Page.getTagCSSAttribute(属性、フィルター)

    一致するCSS値を返します。

    • 属性-必須、検索するCSS属性。
    • filter-オプション。検索する要素を識別するために使用されるフィルター。

    Page.getTagCSSAttributes(属性、フィルター、linkedTo)

    一致する属性値を返します。

    • 属性-必須、検索する属性。
    • filter-オプション。検索する要素を識別するために使用されるフィルター。
    • linkedTo-オプション。これはリンクされる列によって、相対値が一緒に保持されるようにします。

    Page.getTagValue(filter)

    一致する要素値を返します。

    • filter-オプション。検索する要素を識別するために使用されるフィルター。

    Page.getTagValues(filter、linkedTo)

    一致する要素値を返します。

    • filter-オプション。検索する要素を識別するために使用されるフィルター。
    • linkedTo-オプション。これはリンクされる列によって、相対値が一緒に保持されるようにします。

    Page.getText()

    ページから表示テキストを取得します。


    Page.getTitle()

    ページのタイトルを取得します。


    Page.getUrl()

    ページのURLを取得します。


    Page.getValueXPath(xpath)

    指定されたXPATHに一致する値を返します。

    • xpath-必須、要素の値または属性に一致するXPATH。

    Page.getValuesXPath(xpath)

    指定されたXPATHに一致する値を返します。

    • xpath-必須、要素の値または属性に一致するXPATH。

    Page.valid()

    現在スクレイピングされているURLが有効なWebページである場合、trueを返します。


    Utility.Array.clean(値s)

    値配列からすべての非ヌルおよび空の値を返します。

    • 値-必須。クリーンにする値の配列を渡します。

    Utility.Array.contains(values)

    針がhaystack配列にある場合、trueを返します。

    • needle-必須。検索する値または値の配列を渡します。
    • haystack-必須、針を検索するための配列。

    Utility.Array.merge(array1、array2)

    2つの配列をマージします into空の値またはnull値を2番目の配列の値で置き換えるもの。 両方の配列は同じサイズでなければなりません。

    • array1-必須、マージする値の配列を渡します。
    • array2-必須、マージする値の配列を渡します。

    Utility.Array.unique(values)

    値配列から一意の値を返します。

    • 値-必須、値の配列を渡して一意にします。

    Utility.Text.extractAddress(text)

    指定されたテキストパラメータ内の最初の電子メールアドレスを抽出します。

    • text-必須、メールアドレスを抽出するためのテキスト。

    Utility.Text.extractAddresses(text)

    指定したテキストパラメーター内からすべての電子メールアドレスを抽出します。

    • text-必須。すべての電子メールアドレスを抽出するためのテキスト。

    Utility.Text.extractLocation(テキスト、言語)

    指定されたテキストパラメータ内から最初の場所を自動的に抽出します。

    • text-必須、場所を抽出するテキスト。
    • language-オプション、2文字のISO 639-1形式で抽出するテキストの言語。 デフォルトは「en」です。 「auto」を使用して、テキスト言語を自動的に検出しようとします。

    Utility.Text.extractLocations(テキスト、言語)

    指定されたテキストパラメータ内から場所を自動的に抽出します。

    • text-必須。場所を抽出するテキスト。
    • language-オプション、2文字のISO 639-1形式で抽出するテキストの言語。 デフォルトは「en」です。 「auto」を使用して、テキスト言語を自動的に検出しようとします。

    Utility.Text.extractLanguageName(text)

    textパラメーター内から指定された言語を自動的に抽出します。

    • text-必須、言語の抽出元のテキスト。

    Utility.Text.extractLanguageCode(text)

    textパラメーター内から指定された言語を自動的に抽出します。

    • text-必須、言語の抽出元のテキスト。

    Utility.Text.extractName(テキスト、言語)

    指定されたテキストパラメータ内から名を自動的に抽出します。

    • text-必須、名前を抽出するテキスト。
    • language-オプション、2文字のISO 639-1形式で抽出するテキストの言語。 デフォルトは「en」です。 「auto」を使用して、テキスト言語を自動的に検出しようとします。

    Utility.Text.extractNames(テキスト、言語)

    指定されたテキストパラメータ内から名前を自動的に抽出します。

    • text-必須、名前を抽出するテキスト。
    • language-オプション、2文字のISO 639-1形式で抽出するテキストの言語。 デフォルトは「en」です。 「auto」を使用して、テキスト言語を自動的に検出しようとします。

    Utility.Text.extractOrganization(テキスト、言語)

    指定されたテキストパラメータ内から最初の組織を自動的に抽出します。

    • text-必須、組織を抽出するテキスト。
    • language-オプション、2文字のISO 639-1形式で抽出するテキストの言語。 デフォルトは「en」です。 「auto」を使用して、テキスト言語を自動的に検出しようとします。

    Utility.Text.extractOrganizations(テキスト、言語)

    指定されたテキストパラメータ内から組織を自動的に抽出します。

    • テキスト-必須、組織を抽出するためのテキスト。
    • language-オプション、2文字のISO 639-1形式で抽出するテキストの言語。 デフォルトは「en」です。 「auto」を使用して、テキスト言語を自動的に検出しようとします。

    Utility.Text.extractSentiment(text)

    指定されたテキストパラメータ内から感情を自動的に抽出します。

    • text-必須、感情を抽出するテキスト。

    Utility.Image.extractText(urls、言語)

    光学式文字認識を使用して、指定された画像からテキストを抽出しようとします。

    • url-必須。テキストを抽出する画像のURLまたはURLの配列を渡します。
    • language-オプション、2文字のISO 639-1形式で抽出するテキストの言語。 デフォルトは「en」です。

    Utility.URL.addQueryStringパラメータ(urls、キー、値)

    クエリを追加するstring 任意のURLへのパラメーター。

    • url-必須、クエリを追加するURLまたはURLの配列を渡す string パラメータへ。
    • key-必須、追加するパラメーターのキー。
    • value-必須、追加するパラメーターの値。

    Utility.URL.getQueryStringパラメータ(urls、キー)

    クエリの値を取得しますstring 任意のURLからのパラメーター。

    • url-必須、クエリを読みたいURLまたはURLの配列を渡すstring パラメータから。
    • key-必須、読み取るパラメーターのキー。

    Utility.URL.removeQueryStringパラメータ(urls、キー)

    クエリを削除するstring 任意のURLからのパラメーター。

    • url-必須、クエリを削除するURLまたはURLの配列を渡すstring パラメータから。
    • key-必須、削除するパラメーターのキー。

    Utility.URL.exists(urls)

    各URLを呼び出して、URLが実際に存在するかどうかを確認します。

    • url-必須。存在を確認したいURLまたはURLの配列を渡します。