大量の404エラーログの謎

日々大量の404エラーログが残っている。

他所からアクセスしにきたけど無かったよ、ということだ。 それが存在しないファイル、ページに対して頻繁に発生していた。

一つ目。

157.82.156.131 crawl131.tkl.iis.u-tokyo.ac.jp
207.46.13.82 msnbot-207-46-13-82.search.msn.com
66.249.79.4 crawl-66-249-79-4.googlebot.com

GoogleBotなんて、表に出していないドメインまでクロールするって、どういうことなんだろう。 記事中で紹介している設定ファイルは、ドメイン名とかディレクトリ名を架空のものに変えているのに。

まぁ流石にGoogleはお行儀良くrobots.txtを確認しているので、公開していないドメインは全拒否でrootに設置して様子を見る。

内容はこう。

$ sudo vim robots.txt

User-Agent:*
Disallow: /

自分のサーバからも404があった。 それはどうも、pagespeedに関連するものだ。 なぜなら多くの404エラーには、アクセスしてくるファイル名に必ず.pagespeed.が含まれているから。

古いWebページの情報が更新されないことが原因だろうから、Simplicityテーマのカスタマイズ項目にあった下記を更新日に変更して、検索エンジン側でキャッシュを削除するようにしたら改善するだろうか。

検索エンジンに伝える日付(推奨:公開日)

それ以外の404エラーは何故だろう? カスタムパーマリンクの設定なのだろうか?

どちらにしても、もう少しログをしっかり見ないと駄目だけど、ちょっと時間が取れないので放置気味。

他に、テーマに由来するものも。 これは特定プロバイダとかに依らないエラーなので、こちら側の問題ってことは間違いない。

"GET /wp-content/themes/simplicity/webfonts/boogaloo/Boogaloo-Regular.ttf)%20format(%22truetype%22 HTTP/1.1"

ファイルはあるんだけど、呼び出し方の問題なのだろうか。 制作者の方にはご連絡したが、もう少しこちらでも再現性を確認したい。

奥が深い。