最近、主催をするアンソロジー用にホームページを用意していて、色々と調べなおしになったのが面倒くさかったので、自分用の備忘録がてら検索避けについてまとめました。
環境は、Wordpressを使用。テーマでCocoonを使っている前提の記載です。
細心の注意を払ってはいますが、素人独学のため、誤った情報に気づかれた方がいれば訂正いただけると嬉しいです!
【簡単】サイトをインデックスしないように設定
まずは、ファイルとかいじらずにできる一番お手軽な方法から。
- ログインして、管理画面の「設定」>「表示設定」をクリックする
- 「検索エンジンがサイトをインデックスしないようにする」にチェックをする
- 「変更を保存」ボタンをクリックする
これだけでも、良心に従っているクローラーは検索登録しないで帰ってくれるはず。
より頑丈な対策をするには以降の見出しの設定が必要になります(あと、生成AIの無断学習をガッツリ拒否したい場合なども)。
【やや簡単】headに検索避けのタグをたくさん出すよう設定
やっていることはほとんど1つ目の対策に近いけれど、ちょっと手間をかけた強化版のイメージです。
生成AIの一種であるCopilotの学習を避けるために必要な内容を含んでいます。
- Cocoonの子テーマをダウンロードし、管理画面の「外観」>「テーマ」>「新しいテーマを追加」>「テーマのアップロード」にアップロードする
- 管理画面の「外観」>「テーマ」でアップロードしたCocoon-Childを有効化する
- 管理画面の「外観」>「テーマファイルエディタ」をクリック。警告画面で「理解しました」を選択する
※警告はおそらく初回のみ - 右上「編集するテーマを選択」がCocoon-Childになっていることを確認する
- 右側テーマファイルの「tmp-user」>「head-insert.php」をクリックする
- 1行目から3行目に以下のコードを追加(下2行はどちらかというと生成AI無断学習対策)
<meta name="robots" content="noindex,nofollow,noarchive,noimageindex">
<meta name="bingbot" content="noindex,noarchive,noimageindex">
<meta name="msnbot" content="noindex,noarchive,noimageindex">
- 「ファイルを更新」をクリックする。
手順が多い。
備忘録作成が段々面倒になってきたけれど、調べなおして面倒くさかったのは、ここから先なので続けます~!
【検索避けでは非推奨】robot.txtを使用する
これ、調べるとちょこちょこ紹介しているサイトをみかけるのですが、上2つのメタタグとの併用が非推奨なので、検索避けの目的では使わないほうが良いです!
※検索避けの目的と書いたのは、生成AIの無断学習を避ける目的であればOKだからです。
ただまあ、私は使っていなくてよくわからないので、非推奨理由がわかるサイトと、生成AIの無断学習を避ける方法書いてあるページだけリンク集代わりに張っておこう。
非推奨理由がわかるサイト:https://keywordmap.jp/academy/robots-txt/
生成AIの無断学習を避ける方法がわかるサイト:https://do.gt-gt.org/save-my-work-from-ai/
【ある程度分かる人向け】.htaccessを使用する
該当するところからのアクセス拒否設定になるので、クローラーの良心に任せるよりは強度の高い検索避けが可能な方法です(ちょっと負荷がかかってサイトが重くなるらしい)。
ただ、失敗するとサイトを表示できなくなったり、セキュリティリスク作りこんだりするので、記述を見て何をしているのかがさっぱりわからない場合は使わないほうがいいかもしれません。
あと、最近生成AIの無断学習避けの方法調べているときに知ったのですが、これApacheでしか使えないので、最近増えてきているnginxのWebサーバだとそもそも手段として選べないらしいです(ちょっと賢くなった)。
Twitterの相互さん情報だと、レンタルサーバ借りてても機能制限で使えないところもあるそう。
ので、まあ使えたら使ってもいいかもねくらいの方法ですかね。
前置きが長くなりましたが手順書きます。
5~6の手順は、レンタルサーバが直接編集に対応している場合、すっ飛ばして直接編集でもOKです。
1~3も要らないといえば要らないけど、バックアップ残しておくとミスった時に元に戻せるので、実施推奨します。どうにもならなくなったら、複製したファイルで上書きして元に戻しましょう。
- レンタルサーバのマネージャやFFFTP等から、wpのインストールフォルダを開く
- 「.htaccess」というファイルがあるはずなので、ダウンロードする
- ダウンロードしたファイルを別名で複製してから、元の名称のファイルを編集する
- 「#BEGIN WordPress」より手前に以下の内容を記述する(1行目に挿入すればOK)
SetEnvIf User-Agent "Googlebot" shutout
SetEnvIf User-Agent "Applebot" shutout
SetEnvIf User-Agent "Slurp" shutout
SetEnvIf User-Agent "msnbot" shutout
SetEnvIf User-Agent "bingbot" shutout
order Allow,Deny
Allow from all
Deny from env=shutout
- 保存してテキストエディタを閉じる
- 「.htaccess」をアップロードして上書きする
ちなみに、生成AIの無断学習も避けるなら、「SetEnvIf User-Agent “bingbot” shutout」の続きに以下も付け足しておくと良いと思います。
SetEnvIf User-Agent "CCBot" shutout
SetEnvIf User-Agent "GPTBot" shutout
SetEnvIf User-Agent "ChatGPT-User" shutout
SetEnvIf User-Agent "Google-Extended" shutout
SetEnvIf User-Agent "Applebot-Extended" shutout
ザックリ解説すると、「SetEnvIf」から始まる行は、アクセスしてほしくないクローラーの名前を書いて、アクセス拒否リストを作っています。
最後の3行で、基本はAllow(許可)だけど、アクセス拒否リストに合致する場合はDeny(拒否)だよ~と言っています。
ちなみに、shutoutの文字は好きなものに変えても機能します。
以上! 未来の私、備忘録あってよかったね!!
でも、書いた当時の情報だから横着せず調べなおそうね。