Webをキャプチャして変換するツール

PDFドキュメントからデータを抽出する

PDFドキュメントのコンテンツからデータをスクレイピングすることは、HTMLドキュメントから行うほど柔軟ではありませんが、これを使用して達成できる方法はまだいくつかあります GrabzItのWebスクレーパー。 使用するPDFコンテンツを最初に取得する PDF 機能ではなく Page 関数ですが、それ以外は一般的に同じ方法で機能します。

PDFドキュメントのフィルターは、HTMLドキュメントのフィルターよりもはるかに簡単です。まず、抽出するコンテンツの種類(リンク、画像、テキスト)を指定する必要があります。

//Extract images
PDF.getValue({"type":"image"});
//Extract links
PDF.getValue({"type":"link"});
//Extract text
PDF.getValue({"type":"text"});

リンクと画像の場合、位置を指定することにより、返される画像またはリンクを制限できます。

PDF.getValue({"type":"image","position":"2"});

ドキュメントの2番目の画像を取得します。 テキスト、画像、リンクの場合、ページ番号を指定することにより、返されるデータをさらに制限できます。

PDF.getValue({"type":"image","position":"2","page":"5"});

これにより、5ページ目の2番目の画像が返されます。 テキストには行番号のオプションが追加されていますが、テキストは位置をサポートしていません。

PDF.getValue({"type":"text","page":"5","line":"10"});

これにより、5ページ目から10行目のテキストが取得されます。 これらのフィルターオプションの違いを除いて、PDFドキュメントからデータをスクレイピングすると、非常によく似た方法で機能します。 HTMLドキュメントからデータをスクレイピングする、ただし、PDFフィルターで抽出するものほど具体的になることはできないため、 パターン テキストから正しい情報を抽出します。