クローラとは、検索エンジンがインターネット上にある、テキストや画像に対して周期的に情報取得をし、データベース化するシステムを言います。一般には、スパイダーと言われたり、ロボットと呼ばれる事もあります。
検索エンジンは、登録されているURLをもとにして、WWW上にあるWebサイトの情報を常に収集しています。より高い精度の情報収集を行う為に、各検索エンジンは独自のクローラーを開発しています。基本的には、検索エンジンのデータベース作成や、統計調査を目的に行われていますが、近年は電子メールアドレスなどにもクローラを使用されており、迷惑メールを防止する事に役立てています。
クローラーでは、テキストファイル以外にも、Excelファイル等も検索する事が可能です。Webサイトはクローラーに対して、適切なステータスコードを返すことが、SEO対策の基礎となります。ステータスコードには、200、301、また404があります。基本的に200を返すと検索エンジンはサイトのURLを保存し、ページのURLを変更する場合には301を返します。
検索エンジンで特定のキーワードを検索した時に、検索結果にはタイトルが表示されているのに、サイトをクリックすると404 Not Foundとページに表示された事があると思います。基本的に検索エンジンは404のステータスコードが返されると、そのURLを登録から削除します。
しかし、404 Not Foundと表示される時は、ステータスコードには404ではなく200が返されており、サイトを取り扱わなくなった時には、ステータスコードも変更するようにしましょう。
スポンサードリンク