GrabzItのWebスクレーパー Webサイトから電子メールアドレスを簡単に抽出できるようにするいくつかの特別なユーティリティメソッドを提供します。 以下の例では、WebページからすべてのHTMLコンテンツを取得してから、 Utility.Text.extractAddresses
アドレスを保存する前にすべての有効なメールアドレスを見つける方法 intoaデータセット。ユーザーに送信されます。
または、最初に一致する電子メールアドレスのみを抽出して、 Utility.Text.extractAddress
方法。
Data.save(Utility.Text.extractAddresses(Page.getHtml()));
PDF文書もスクレイピングすることができます 上記のWebページがスクレイピングされる方法と同様の方法で電子メールアドレスを取得します。 以下の例でわかるように、プロセスはまったく同じですが、 PDF.getText()
メソッドの代わりに使用されます Page.getHtml()
方法。
Data.save(Utility.Text.extractAddresses(PDF.getText()));
GrabzItには次の機能があります 画像からテキストを抽出する つまり、この機能を利用して、画像から電子メールアドレスを抽出することもできます。 以下の例では、Webページ上のすべての画像から電子メールアドレスを抽出します。
Data.save(Utility.Text.extractAddresses(Utility.Image.extractText(Page.getTagAttributes('src', {"tag":{"equals":"img"}}))));
以下のスクレイプの手順では、PDFドキュメントで見つかった画像から電子メールアドレスを抽出します。
Data.save(Utility.Text.extractAddresses(Utility.Image.extractText(PDF.getValue({"type":"image"}))));