投稿日: | 最終更新日:
cheerio-httpcliモジュールでスレイピングをする(Node.js)
Node.jsのモジュールを使って、Webスクレイピングをしてみます。
Webスクレイピングとは?
WebサイトからWebページのHTMLデータを収集して、特定のデータを抽出、整形することです。Webスクレイピングを行えば、簡単にWebページのデータを効率的に取得・収集することが可能です。
用途の例
部分的にコンテンツを取り出して携帯電話向けのコンテンツを生成したり、小見出しの一覧を生成したりできます。Webスクレイピングはnode.js以外の手段でも実現可能です。特に、PHPやPerlといったスクリプト言語を使用して行われることが多いです。
準備
①vagrantインストール済みです。
→Vagrantをインストールしてテスト環境を作る for Ubuntu
②NVMとNode.jsもインストール済みです。
※もしvagrant1.8.5でエラーが発生する場合はアップグレードしましょう。
→Vagrant 1.8.6にアップグレードしてvagrant sshのバグを解決
③コードの記述に便利です。
nodeの実行テスト。
私の環境
ホストOS | Ubuntu 16.04.2 LTS 64bit |
---|---|
ゲストOS | CentOS7 64bit |
CPU | Core i5 2520M 2.50GHz |
vagrant | 1.8.6 |
cheerio-httpcliモジュールのインストール
①以下の手順でコマンドを入力し、前回インストールしたvagrant環境にログインします。
cd vagrant vagrant up vagrant ssh
②モジュールをインストールし、ファイルを設置する作業用のローカルディレクトリを作成します。ここではとりあえず「work_sample」とします。
mkdir work_sample cd work_sample
③「npm」でモジュールをインストールします。
npm install cheerio-httpcli
④ローカルディレクトリにモジュールがインストールされたか確認します。
ls ../node_modules/
ダウンロードが成功していれば、以下のように表示されます。
cheerio-httpcli
HTMLファイルをダウンロードする
cheerio-httpcliモジュールのテストを兼ねて、HTMLをダウンロードしてみたいと思います。
①以下のコードを記述し、保存します。
//モジュール読み込み var client = require('cheerio-httpcli'); //ダウンロード var url = "https://hombre-nuevo.com/" var param = {}; client.fetch(url, param, function(err, $, res) { //エラーがんあいかチェック if (err) { console.log("Error:", err); return; } // ダウンロードした結果を画面に表示 var body = $.html(); console.log(body); });
・var url = “https://hombre-nuevo.com/”
ここに、ダウンロード先のホームページのURLを記述します。
②保存したファイルを、vagrantの共有フォルダに「getpage.js」を配置します。ホストのsrcディレクトリに配置すると、ゲストOSのwork_sampleディレクトリに反映されます。
・ホストOS(ubuntu)側
- home/
- user/
- vagrant/
- src/
- getpage.js
・ゲストOS(centos7)側
- home/
- vagrant/
- work_sample/
- getpage.js
③以下の手順でコマンドを入力し、「download-node.js」を実行します。成功すれば「OK」と表示されます。
node download-node.js
成功すれば、以下のようにhtmlのソースが表示されます。
<!DOCTYPE html> <!--[if lt IE 7]> <html class="no-js lt-ie9 lt-ie8 lt-ie7" lang="ja"> <![endif]--> <!--[if IE 7]> <html class="no-js lt-ie9 lt-ie8" lang="ja"> <![endif]--> <!--[if IE 8]> <html class="no-js lt-ie9" lang="ja"> <![endif]--> <!--[if gt IE 8]><!--> <html class="no-js" lang="ja"> <!--<![endif]--> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8"> <meta http-equiv="Content-Language" content="ja"> <meta http-equiv="Content-Style-Type" content="text/css"> <meta http-equiv="Content-Script-Type" content="text/javascript"> 〜(省略)〜
- Python 114
- 制作 54
- RaspberryPi 41
- Django 40
- WordPress 40
- Linux 27
- VPS 22
- JavaScript 21
- PHP 20
- HTML・CSS 19
- AWS 16
- 仮想環境 15
- レスポンシブデザイン 13
- マイコン 11
- WEB全般 11
- 動画製作 9
- Webサービス 8
- 統合開発環境 8
- 機械学習 8
- PyCharm 7
- jQuery 7
- AfterEffects 7
- 起業・設立 7
- Django REST framework 6
- C# 6
- デザイン 6
- SEO 6
- pydata 6
- Visual Studio 5
- 数学 5
- 携帯サイト 5
- heroku 5
- Mac 5
- illustrator 5
- node.js 5
- Anaconda 5
- Nginx 4
- Jupyter Notebook 4
- インフラ 4
- Google Colaboratory 4
- symfony 4
- Webスクレイピング 3
- photoshop 3
- Go言語 3
- PC 3
- ツール 3
- Docker 3
- facebook 3
- 作業効率化 3
- データベース 3
- Cloud9 3
- コマンド 2
- micro:bit 2
- Kali Linux 2
- Webサーバー 2
- MariaDB 2
- ドローン 2
- コンテナ 2
- DaVinci Resolve 2
- ネットワーク 2
- Java 2
- movie 2
- PCDJ 2
- 音楽 2
- XSERVER 2
- Ansible 1
- Vue.js 1
- JSON 1
- Bootstrap 1
- バージョン管理システム 1
- SSL 1
- S3 1
- ムームードメイン 1
- ネットワーク 1
- アニメーション 1
- D3.js 1
- Rhino 1
- アニメ 1
- git 1
- windows 1
- アクセス解析 1
- スマートフォン 1
- アフィリエイトノウハウ 1
- 知識 1
- TypeScript 1
- 役立つ本・書籍 1
- データサイエンス 1
- ESP32 1
- AI 1
- ownCloud 1
- API 1