【Pythonの始め方】Pythonでスクレイピングしてみよう

更新日：2019年6月2日

「スクレイピングを使って作業を自動化させたい」

本記事はそんな方に向けられた書かれています。

pythonを勉強していると、「スクレイピング」というものを知ることもあるでしょう。

スクレイピングの内容について知って、「自分もやってみたい！」と思った方も多いのではないでしょうか？

スクレイピングができるようになると、普段の仕事の業務も効率化できるようになるかもしれません。

プログラマーとしてやれることが広がり、あなたのスキルが一段階アップするような感じになります。

とはいえ、いきなり本格的なスクレイピングをやろうとすると躓く人は多いでしょう。

本記事ではスクレイピングの「最も基本的なやり方」についてご紹介していきます。

python学んでからまだ１週間ぐらいしか経っていない人でも分かるように説明していきますので、ご安心ください。

1 スクレイピングとは？
2 Pythonでwebページをスクレイピングする方法を学ぶ
3 まとめ

スクレイピングとは？

スクレイピングとは、webページの情報を取得することです。

PythonではWebページにアクセスすればことによって、Webページの中身を取得することができます。

Webページの中身を取得し、そのデータを分析することによって、様々なことができるようになります。

例えば本日の天気を記録したWebサイトを取得することで、毎日の天気の情報を纏められるようになります。

webページを手動で取得しようとすると、webページにアクセスしてコピーアンドペーストを繰り返すことになり、とてもめんどくさいです。

しかしPythonで自動化してしまえば、一瞬でwebページの情報を取得できます。

取得したwebページの情報は、見やすいように整えた後にエクセルに表示したりして、始めて実用化できます。

ただし、初心者でそこまでするのは難しいです。

本記事ではひとまず、webページの内容を何も変えず丸ごと取得して、ファイルに保存する所まで解説します。

Pythonでwebページをスクレイピングする方法を学ぶ

それでは、pythonでwebページを取得する方法を学んでいきましょう。

本記事に書かれた通りに行えば、誰でも簡単にスクレイピングできます。

requestsモジュールをインストールしてインポートできるようにする

まずはrequestsモジュールをインストールしましょう。

Webサイトの情報を取得する際には、requestsモジュールが必要です。

モジュールとは「ある機能を実現するためのプログラムの纏まり」のことで、requestsモジュールはwebサイトを取得するためのプログラムが纏まっています。

モジュールを使えるようにするためには、お使いのパソコンにインストールする必要があります。

requestsモジュールをインストールするには、コマンドプロンプトから以下のコマンドを打つ必要があります。

pip3 install requests

インストールに成功したら、ソースコードの１番上に以下のように記述しましょう。

import requests

「import モジュール名」と書くことで指定したモジュールをコード内で利用できるようになります。

これでrequestsモジュールが使えるようになりました。

Webページのデータを取得

次にPythonでwebページのデータを取得します。

Webページにアクセスするには、GETメソッドを使います。

GETメソッドを使うことで、サーバーからのレスポンスを受け取れるようになります。

ここでは「プログラミングスクール比較サイト」のトップページのデータを取得してみます。

import requests
requests.get('https://websites-manual.com/')

requests.get({URL})と記述することで、指定したURLのデータが取得できるようになります。

たったこれだけのコードでwebページのデータは取得できるのです。

後は取得したデータを取り出して保存するだけです。

getメソッドの戻り値からwebページのデータのみを取り出す

getメソッドを使って、データは取得できましたが、これをこのまま表示してもwebページの情報は表示されません。

import requests
data = requests.get('https://websites-manual.com/')
print(data)

上記のコードを実行すると以下のように出力されます。

この「200」という数字は、サイトのステータスコードです。

getメソッドはそのまま出力するとステータスコードを返すだけで、情報は返しません。

requestsオブジェクトの中からテキスト属性だけを抽出する必要があります。

そのためには「.text」とつける必要があります。

import requests
data = requests.get('https://websites-manual.com/')
print(data.text)

こうすることでrequestsオブジェクトの中のテキスト属性だけが表示されます。

これでwebページの情報が出力されるようになりました。

htmlファイルに保存する

後は取得したデータをファイルに保存するだけです。

書き込む用のhtmlファイルにアクセスするには「open」というメソッドを使います。

そしてファイルに保存するには、「write」というメソッドを使います。

import requests
data = requests.get('https://websites-manual.com/')
print(data.text)

with open('website.html', 'w') as file:
    file.write(res.text)

これで、webページのデータが丸ごとファイルに保存されるようになりました。

保存したhtmlファイルをダブルクリックして見て下さい。

(ファイルはソースコードが置いてあるフォルダと同じ場所に保存されます)

立ち上がったブラウザに、「プログラミングスクール比較サイト」のトップがそのまま表示されると思います。

以上が、基本的なスクレイピングのやり方となります。

AIも学べる！Pythonでオススメのプログラミングスクール10選

まとめ

本記事ではスクレイピングの基本的なやり方について説明しました。

本記事で書いたことはあくまでスクレイピングの初歩的なやり方に過ぎず、とても実用的ではありません。

後はhtmlタグを削除したり、データをエクセルに書き込んだりする処理を学んでいけば、高度なスクレイピングができるようになっていくでしょう。

ぜひこれからどんどんPythonを勉強していって、自由自在にスクレイピングができるプログラマーになってくださいね。

【PR】

TECH CAMP エンジニア転職

主催：株式会社div
期間： 10週間 or 6ヶ月
料金： 19,600円〜（分割払い）
主な言語・技術： HTML、Ruby / Ruby on Rails

『TECH CAMP エンジニア転職』は転職保証付きのプログラミングスクールです。もし転職できなかったら受講料を全額返済する保証サービスが付いています。コースは「10週間の短期集中スタイル」と「半年間の夜間・休日スタイル」があります。ご自身のワークライフに合わせて受講期間を選ぶことができます。本気でエンジニア転職したい人のためのプログラミングスクールです。

無料相談を予約する

DMM WEBCAMP

割引：最大56万円OFF
主催：株式会社Infratop（DMMグループ）
期間： 3ヶ月〜
料金： 38,706円〜（分割払い）
主な言語・技術： HTML、Ruby / Ruby on Rails

DMM WEBCAMPは転職保証付きのプログラミングスクールです。３ヶ月間のプログラミング学習と転職を支援するキャリアサポートで未経験からのエンジニア転職を実現します。HTMLからRubyまでWeb系開発に必要なプログラミング言語を総合的に学ぶことができるカリキュラムです。キャリアチェンジしたい人にオススメのスクールです。

無料相談を予約する

-Python

: Python

【画像付き】対話モードでPythonに指示するには？起動方法から実行例まで解説！

今回はコマンドを使って、pythonを対話モードで動かしてみましょう。コマンドを使うための前提条件を確認し、実際にコマンドに処理内容を入力し、結果出力画面でpythonを学習していきます。コマンド …

: Python

【Pythonの始め方】Pythonのリストの使い方・リストの関数について学ぼう

Pythonで複数のデータを同時に使えるようになる『リスト』を紹介しましょう。リストを使いこなせるようになればプログラムのコード量が減ります。リストは基礎的な文法なのでpythonを勉強している方 …

: Python

【Pythonの始め方】Pythonの変数・条件分岐の使い方を学ぼう

Pythonの変数と条件分岐の基礎を学習していきましょう。プログラムは数値や文字列の入力によって出力結果が異なってくるため、変数の理解が重要になります。条件分岐は場合分けをすることであり、常に一意 …

: Python

【Pythonの始め方】Pythonでファイルの入出力をしてみよう

本記事ではPythonでファイルを読み書きする方法について学習していきます。プログラムを使ってファイルの操作ができるようになると、普段の作業を自動化することができます。毎日更新しなくてはいけないフ …

: Python

Pythonが学べる学習サイト8選【初心者におすすめ】

Pythonは数あるプログラミング言語の中でも、近年需要が際立って高くなっているプログラミング言語です。なぜPythonの人気が高くなってきたのかというと、特徴として統計処理や機械学習、科学計算など …

PREV: パソナキャリアの口コミ・評判を調査｜丁寧で親身な対応
NEXT: 【Pythonの始め方】Pythonのリストの使い方・リストの関数について学ぼう