Webをキャプチャして変換するツール

ウェブサイトからメールアドレスを削る

次の2つの例は同じものの一部です template.

GrabzItのWebスクレーパー Webサイトから電子メールアドレスを簡単に抽出できるようにするいくつかの特別なユーティリティメソッドを提供します。 以下の例では、WebページからすべてのHTMLコンテンツを取得してから、 Utility.Text.extractAddresses アドレスを保存する前にすべての有効なメールアドレスを見つける方法 intoaデータセット。ユーザーに送信されます。

または、最初に一致する電子メールアドレスのみを抽出して、 Utility.Text.extractAddress 方法。

Data.save(Utility.Text.extractAddresses(Page.getHtml()));

PDFドキュメントから電子メールアドレスを削除する

PDF文書もスクレイピングすることができます 上記のWebページがスクレイピングされる方法と同様の方法で電子メールアドレスを取得します。 以下の例でわかるように、プロセスはまったく同じですが、 PDF.getText() メソッドの代わりに使用されます Page.getHtml() 方法。

Data.save(Utility.Text.extractAddresses(PDF.getText()));

画像からメールアドレスを削る

GrabzItには次の機能があります 画像からテキストを抽出する つまり、この機能を利用して、画像から電子メールアドレスを抽出することもできます。 以下の例では、Webページ上のすべての画像から電子メールアドレスを抽出します。

Data.save(Utility.Text.extractAddresses(Utility.Image.extractText(Page.getTagAttributes('src', {"tag":{"equals":"img"}}))));

以下のスクレイプの手順では、PDFドキュメントで見つかった画像から電子メールアドレスを抽出します。

Data.save(Utility.Text.extractAddresses(Utility.Image.extractText(PDF.getValue({"type":"image"}))));