別のWebサイトからコンテンツを「取得」する方法

archive web-crawler
別のWebサイトからコンテンツを「取得」する方法

友人がこれを私に尋ねました、そして、私は答えることができませんでした。

彼は尋ねた:あなたのサイトをアーカイブできるこのサイトを作っている…​

このように機能し、something.comのようにサイトに入ると、当社のサイトはそのウェブサイトの画像などのコンテンツを取得し、それを当社のサイトにアップロードします。 そうすれば、something.comを保持しているサーバーがダウンしている場合でも、oursite.com / something.comでサイトの正確なコピーを表示できます。

彼はどうしてこれをすることができますか? (php?)そして、いくつかの要件は何でしょうか?

  0  0


ベストアンサー

Webクローラーを作成する必要があるようです。 Webクローラーは任意の言語で作成できますが、C ++(cURLを使用)、Java(URLConnectionを使用)、またはPython(w / urrlib2)を使用することをお勧めします。 また、curlまたはwgetコマンドとBASHを使用して何かをすばやくハッキングすることもできますが、それはおそらく最善の長期的な解決策ではありません。 また、誰かのWebサイトをクロールするたびに「robots.txt」ファイルが存在する場合は、ダウンロードして解析し、尊重する必要があることを忘れないでください。

1


タイトルとURLをコピーしました