PDFドキュメントのコンテンツからデータをスクレイピングすることは、HTMLドキュメントから行うほど柔軟ではありませんが、これを使用して達成できる方法はまだいくつかあります GrabzItのWebスクレーパー。 使用するPDFコンテンツを最初に取得する PDF
機能ではなく Page
関数ですが、それ以外は一般的に同じ方法で機能します。
PDFドキュメントのフィルターは、HTMLドキュメントのフィルターよりもはるかに簡単です。まず、抽出するコンテンツの種類(リンク、画像、テキスト)を指定する必要があります。
//Extract images PDF.getValue({"type":"image"}); //Extract links PDF.getValue({"type":"link"}); //Extract text PDF.getValue({"type":"text"});
リンクと画像の場合、位置を指定することにより、返される画像またはリンクを制限できます。
PDF.getValue({"type":"image","position":"2"});
ドキュメントの2番目の画像を取得します。 テキスト、画像、リンクの場合、ページ番号を指定することにより、返されるデータをさらに制限できます。
PDF.getValue({"type":"image","position":"2","page":"5"});
これにより、5ページ目の2番目の画像が返されます。 テキストには行番号のオプションが追加されていますが、テキストは位置をサポートしていません。
PDF.getValue({"type":"text","page":"5","line":"10"});
これにより、5ページ目から10行目のテキストが取得されます。 これらのフィルターオプションの違いを除いて、PDFドキュメントからデータをスクレイピングすると、非常によく似た方法で機能します。 HTMLドキュメントからデータをスクレイピングする、ただし、PDFフィルターで抽出するものほど具体的になることはできないため、 パターン テキストから正しい情報を抽出します。