多くの場合、重要なテキスト情報は画像に保存できます。 しかしながら GrabzItのWebスクレーパー 光学式文字認識を使用してこの情報を自動的に抽出する機能を提供します。 これは人工的なものですが int結果は必ずしも完璧ではありません。
画像からテキストを抽出するには、 Utility.Image.extractText
以下に示す方法。
var textArray = Utility.Image.extractText(Page.getTagAttributes('src', {"tag":{"equals":"img"}}));
これらの例では、Webページからすべての画像URLを取得し、URLをextractTextメソッドに渡します。このメソッドは、各画像からテキストデータを抽出し、一致する配列を配列として返します。 strings.
画像内のテキストが異なる言語の場合、以下に示すように639文字(ISO 1-XNUMX)形式を使用して正しい言語コードを指定する必要があります。
var textArray = Utility.Image.extractText(Page.getTagAttributes('src', {"tag":{"equals":"img"}}), 'fr');