WgetでWebサイトをクローリングしてみる!WgetコマンドでWebサイトの情報を取得するまで!!

Python, スクレイピング, クローリング

Wgetで任意のWebサイトをクローリングするための手順を解説をします。Wgetをコマンドで操作してWebサイトの情報をダウンロードします。Wgetならコマンド操作だけなので簡単です。

WebサイトをWgetを使ってクローリングしてみよう

今回は実際にWgetでクローリングしていきます。

クローリングについてやWgetコマンドを使うための事前準備については前回の記事、Wgetのコマンドでクローリングを見てください。

末尾に/がついていないと、実行した際に「/portfolio-of-us.herokuapp.com/」以下のファイルがダウンロードされる際に「portfolio-of-us.herokuapp.com」という名前のディレクトリが作られて、「/portfolio-of-us.herokuapp.com」に対応するファイルが失われてしまうのです。

以上のことに注意しつつ先程のコードを実行すると、以下のようになります。

ファイルをダウンロードするたびにズラーっと文字が出てきますが正常に動いている証拠なので安心してください。

ダウンロードが終了すると、「ダウンロード完了」と表示されます。

これでWgetによるクローリングは完了です。

02.　実際にWgetでクローリングしてみる

treeコマンドを使って、ダウンロードしたサイトのディレクトリ構造を見てみましょう。

treeコマンドは、macOSでは「brew install tree」、Ubuntuでは「sudo apt install -y tree」でインストールできます。

実行のコードは簡単です。以下のコードでできます。

$ tree portfolio-of-us.herokuapp.com/

実行結果は以下のようになります。（長すぎたので下部は省略しました）

04.　まとめ

お疲れ様でした。

ここまで読んでいただきありがとうございました。

今回はWgetでWebサイトをクローリングをしてみることができたと思います。

クローリングのイメージを掴んでプログラムコードでもクローリングを実装できるようにしましょう。

Unixコマンドを使って文字列を出力するしてみる!正規表現を学ぼう!!

ayaka 2021年2月23日15:57

Wgetのコマンドでクローリングをしてみよう!コマンドだけでクローリング!!

ayaka 2021年2月15日2:55