Web Scraperは、websites robots.txtファイルにあるルールを尊重する必要があります。 この主な理由の1つは、すばらしいこと以外に、robots.txtファイルに従わないWebスクレイパーがハニーポットサービスによってブラックリストに登録されていることを発見できることです。
これらのサービスはrobots.txtを使用して、Webスクレイパーに、Webサイトからリンクされている特定のファイルにアクセスしないように指示します。 Webスクレイパーが引き続きファイルにアクセスする場合、WebスクレイパーのIPアドレスはブラックリストに登録され、Webスクレイパーが将来Webサイトにアクセスするのを防ぎます。