投稿日: | 最終更新日:
google検索の仕組みとクローラー・インデックスとは?
Google検索、Yahoo検索、スマートフォンが普及した現在、ほとんどの人が使います。しかし、いまいちどのような仕組みかわかりづらいと思います。
検索エンジンはどんな仕組みで成り立っているのか、Googleを参考に解説します。
検索順位は検索エンジンによって決められている
日本で有名な検索エンジンと言えば「Google(グーグル)」と「Yahoo(ヤフー)」です。一昔前までは、GoogleとYahooは別々の検索エンジンの仕組みを使用していました。このことは、映画「アキハバラ@DEEP」でも語られています。
しかし、2010年11月末に、YahooもGoogleの検索エンジンのシステムを導入しました。
GoogleとYahooの検索結果が違うのは何故?
GoogleもYahooも同じ検索エンジンを使っているのに、検索結果が違います。結果が異なる理由は、Yahooが特殊なフィルターとアルゴリズムを施しているからです。
たとえば、Yahooの表示順はYahoo!カテゴリの登録サイトが有利です。また、Googleはパーソナライズ検索を使っているため、ユーザーによって検索結果が変わります。一方、Yahooのパーソナライズ検索は一つのリンクに限定されます。
そのほかにもYahooは独自のフィルターをかけて、検索結果を変えています。
検索エンジンの2つの仕組み
検索エンジンは、膨大で複雑なプログラムで作られていますが、我々が知っておくべき仕組みはたったの二つです。1つが「クロール」で、もう1つが「インデックス」です。
クロールとは?
Googleなど検索エンジンは、データベースを作成します。そのため世界中のありとあらゆるサイトの情報を収集します。この情報収集作業をクロールと呼びます。
また、この情報収集するプログラムのことをクローラー(Crawler)と呼びます。最もよく知られているクローラーは「Googlebot」という巡回ロボットです。
検索エンジンは、クローラー(ロボット)に仕事を依頼します。クローラーロボットの仕事は、世界中のWEBサイトの情報を集める作業を開始します。
クローラーは、世界中に張り巡らされたリンクを巡回し、それぞれのWEBサイトの情報をかき集めてきます。
クローラーは1回来ただけでは意味がない
クローラーロボットは、そこまでハイスペックではありません。一回巡回した程度では、ページ情報の一部しか収集することができません。だから、ページの情報を持ち帰ってもらうため、何度もクローラーに来てもらう必要があります。
インデックスとは?
インデックスとは日本語で索引という意味ですが、googleでは検索エンジンに記録された世界中のWEBサイトの情報を意味します。
インデックスは、クローラーが集めてきたWEBサイトの情報を記録します。
ロボットが持ち帰った情報を、インデックスに登録されるされることを「インデックスされる」と言います。インデックスに登録されるデータとは、「どのWEBサイトが」「どんな情報を持っていて」「どんな話題を扱っているのか」です。
インデックスされなければ意味がない
ユーザーが検索をしたとき、検索エンジンは検索に使われたキーワードと関係するWEBサイトをインデックスから見つけます。そして、最適な検索結果を表示します。
つまり、索結果に表示されるWEBサイトは、インデックスに記録されたWEBサイトだけであり、インデックスされていなければ検索結果には出ません。
次回は、インデックスされたか調べる方法と対処方法を紹介します。
- Python 114
- 制作 54
- RaspberryPi 41
- Django 40
- WordPress 40
- Linux 27
- VPS 22
- JavaScript 21
- PHP 20
- HTML・CSS 19
- AWS 16
- 仮想環境 15
- レスポンシブデザイン 13
- マイコン 11
- WEB全般 11
- 動画製作 9
- Webサービス 8
- 統合開発環境 8
- 機械学習 8
- PyCharm 7
- jQuery 7
- AfterEffects 7
- 起業・設立 7
- Django REST framework 6
- C# 6
- デザイン 6
- SEO 6
- pydata 6
- Visual Studio 5
- 数学 5
- 携帯サイト 5
- heroku 5
- Mac 5
- illustrator 5
- node.js 5
- Anaconda 5
- Nginx 4
- Jupyter Notebook 4
- インフラ 4
- Google Colaboratory 4
- symfony 4
- Webスクレイピング 3
- photoshop 3
- Go言語 3
- PC 3
- ツール 3
- Docker 3
- facebook 3
- 作業効率化 3
- データベース 3
- Cloud9 3
- コマンド 2
- micro:bit 2
- Kali Linux 2
- Webサーバー 2
- MariaDB 2
- ドローン 2
- コンテナ 2
- DaVinci Resolve 2
- ネットワーク 2
- Java 2
- movie 2
- PCDJ 2
- 音楽 2
- XSERVER 2
- Ansible 1
- Vue.js 1
- JSON 1
- Bootstrap 1
- バージョン管理システム 1
- SSL 1
- S3 1
- ムームードメイン 1
- ネットワーク 1
- アニメーション 1
- D3.js 1
- Rhino 1
- アニメ 1
- git 1
- windows 1
- アクセス解析 1
- スマートフォン 1
- アフィリエイトノウハウ 1
- 知識 1
- TypeScript 1
- 役立つ本・書籍 1
- データサイエンス 1
- ESP32 1
- AI 1
- ownCloud 1
- API 1