Webをキャプチャして変換するツール

非構造化テキストから構造化情報を自動的に抽出する方法

通常のテキストには、簡単に抽出できない多くの情報が含まれる場合があります。 たとえば、文は会社についてのレビューかもしれませんが、それが良いレビューか悪いレビューかをどのように知るのですか?

通常のWebスクレイパーでは、この情報を抽出できません。 ただし、GrabzItを使用すると、自然言語処理機能が組み込まれています。 以下の例に示すように、ページテキストが分析され、次の値である非常に負、負、中立、正、および非常に正のいずれかが返されます。

Data.save(Utility.Text.extractSentiment(Page.getText()), 'Dataset', 'Sentiment');

しかし GrabzItのWebスクレーパー 言語検出、場所の名前、人の名前、組織の名前など、テキストからさらに多くを抽出できます。 以下に例を示します。

//Language Detection
Data.save(Utility.Text.extractLanguageName(Page.getText()), 'Dataset', 'Language');
//Identify Geographic Locations
Data.save(Utility.Text.extractLocations(Page.getText()), 'Dataset', 'Locations');
//Identify People's Names
Data.save(Utility.Text.extractNames(Page.getText()), 'Dataset', 'Names');
//Identify Organizations Names
Data.save(Utility.Text.extractOrganizations(Page.getText()), 'Dataset', 'Organizations');

スクレイパーウィザードで該当するHTML要素を選択すると自動的に表示されるため、これらのスクレイプの説明を自分で記述する必要はありません。