こんにちは。
グーグルアナリティクスは無料ブログやWordPressによって有料ブログを作成しているなら、おそらく使っている人は多いでしょう。
なかなか使いこなすのは難しいツールといえるかもしれませんが、アクセス状況のチェックくらいなら一部の機能だけでも十分だと思います。
今回は正確にブログのアクセス状況を把握するのに必要な設定について取り上げました。
ボット・スパイダーを除外する
アナリティクスの管理画面にて既知のボットを除外することができます。
スパイダー…ボットの一種で、ウェブサイトを巡回してデータベースを収集するプログラム。クローラやウェブボットなどの呼び方があります。
「管理」→「ビューの設定」
「ボットのフィルタリング」にチェックを入れる
(既知のボットやスパイダーからのヒットをすべて除外します)
今までこの設定はリファラスパムを遮断する方法だと信じてきました。
(リファラスパムとボットやスパイダーをごっちゃに考えていました)
説明にもあるようにボットとスパイダーを除外する方法にすぎませんでした。
その説明が下記のサイトにて解説されています。
サイトにアクセスしてスパイダー・ボットリストを参照したのですが、最終更新が2010年で止まっていました。
つぎは個別にフィルタを登録していく方法です。
上記で紹介した方法だけでは除外しきれません。
さらに精度を高めるためにも次のように追加でフィルタに登録していくとよいです。
not setを除外する
言語、ブラウザ、ホスト名をそれぞれ除外する項目を作成します。
まず言語のnot setから。
本来ならjaやen-usなど表示されるのですが、not setでアクセスされるケースもあります。
ブラウザとホスト名のフィルタリングも同様の手順で。
semaltタイプのリファラを除外
Semalt.comとは、ウクライナにある企業でSEO分析のツールを開発しています。
「カスタム」「除外」「キャンペーンのソース」
^(.*\.semalt\.com|semalt\.com)を入力して保存。
^…直後の文字の先頭を表す
()…ひとつのグループにまとめる
.…任意の1文字
.\…正規表現の.ではなく、単なる1文字としての.という意味
*…0回以上の繰り返し
|…文字列の区切り
(任意の文字)+semalt.comあるいはsemalt.com
Semalt.comからのアクセスを遮断
アナリティクスの分析結果から除外するだけでなく、アクセス自体を遮断する方法もとるべきです。
①WordPressのプラグインで遮断
WordPressのプラグインにはSemalt.comからのアクセスを遮断してくれるものがあるのでリンクを張っておきます。
(ただし、プラグインの更新が止まっているのでオススメできません)
②.htaccessに記入して遮断
サーバ内にある.htaccessファイルに記入して遮断する方法もあります。
プラグインを使うよりも手軽でしょう。
Order allow,deny
Allow from all
Deny from env=spammer
SetEnvIfNoCase Referer xxxxxxx spammer=yesのx部分をsemalt.com以外のURLを記述して他のリファラスパムを遮断することができます。
voxility.comを除外
Voxility.comとはハードウェア・ネットワーク機器・インターネットアクセス・セキュリティサービスを提供する会社とのことです。(情報がないので、この程度だけ)
aguse.jpで調べると、ブラックリスト入りはしてません。
サーバの位置情報では所在地はルーマニアとなっていますが、会社はアメリカのサンフランシスコです。
除外をするのが「参照」ではなく「ISP(=Internet Service Provider)」となっているのはVoxility.comが上記の説明も含めプロバイダ業者だからです。
「定義済み」「除外」「ISPドメインからのトラフィック」「次を含む」
voxility.comを入力して保存。
トラッキングコードを除外
「カスタム」「除外」「参照」
各人のアナリティクスコードのUA-xxxxxxxx-1のx部分の数字を入力して保存。
言語設定のリファラスパムを除外
言語系は実在するサイトのURLを偽装して「言語」表示してアクセスしてくるスパムです。
「カスタム」「除外」「言語設定」
\s[^\s]*\s|.{15,}|\.|,を入力して保存。
\s…空白
^\s…空白文字以外
*\s…空白が連続以外
{15,}…15文字以上
自分のホスト名だけを計測
「定義済み」「右のみを含む」「ホスト名へのトラフィック」「次を含む」
自分のサイトのURLを入力して保存。
Vitaly rules googleを除外
ロシアから流入してきた言語系のリファラスパムです。ソーシャル(ツイッターからのアクセスを偽装)
ページタイトルや言語が偽装された状態でアクセスしてきました。
人によってはロシアだけでなくカザフスタンからアクセスを偽装してきたタイプも。
「カスタム」「除外」「言語設定」
Vitaly rules googleを入力して保存。
lifehacĸer.comを除外
2016年11月ごろから急激に増加が確認されたロシアからのリファラスパムです。
注意しておきたいのは、lifehacĸer.comのĸという文字。
アルファベットではなくロシア語のキリル文字が使われています。
「カスタム」「除外」「参照」
lifehacĸer.comを入力。
調べてみると人によってはフィルタフィールドが「参照」派と「キャンペーンのソース」派に分かれているのです。
どちらで設定するのが正しいのか、いまのところ分かっていません。
私は「参照」にしていますが、状況によっては「キャンペーンのソース」で登録し直して様子を見るかも。
Secret.ɢoogle.comを除外
これもlifehacĸer.comと同じく2016年11月ごろ確認されたロシアからのリファラスパム。
2016年に行われたアメリカ大統領選挙に関連したスパムです。
これもSecret.ɢoogle.comのɢに注意。
ラテン文字にあるスモールキャピタルのひとつで、小文字と同じ高さで作られた大文字。
本家google.comとはまったく違います。
「カスタム」「除外」「言語設定」
Secret.ɢoogle.com You are invited! Enter only with this ticket URL. Copy it. Vote for Trump!と入力。
まとめ
リファラスパムを100%除外するのは不可能ですが、大部分をはじくことは可能です。
ちなみに過去にさかのぼってスパム除去をすることができないことも理解しておく必要があります。
グーグルアナリティクスで、できるだけ正確な測定をするには必要な設定なのでサイト登録したらすぐにやるとよいでしょう。
解説されているサイトによって設定方法がまちまちなこともあるので、その点にも注意した方がよさそうです。
正規表現の説明については、不正確な部分があるかと思いますのでご了承ください。
2023年7月2日からGoogleアナリティクスはユニバーサルアナリティクス(通称UA)からGoogleアナリティクス4プロパティ(通称GA4)に移行することになりました。(UAは2023年7月1日で計測終了)
それにともなって、今までフィルターに数々のスパイダーやボットを登録したかと思いますが、GA4では反映されなくなくります。
コメントをどうぞ