PR

グーグルアナリティクスでリファラスパムを除外する方法

アナリティクス

こんにちは。

グーグルアナリティクスは無料ブログやWordPressによって有料ブログを作成しているなら、おそらく使っている人は多いでしょう。

なかなか使いこなすのは難しいツールといえるかもしれませんが、アクセス状況のチェックくらいなら一部の機能だけでも十分だと思います。

今回は正確にブログのアクセス状況を把握するのに必要な設定について取り上げました。

スポンサーリンク

ボット・スパイダーを除外する

アナリティクスの管理画面にて既知のボットを除外することができます。

ボット…ここでは攻撃者が外部から遠隔操作してサーバ攻撃やウイルス感染、ハッキングなどを行うアプリやプログラムを指します。Siri(Appleのアシスタント)やCortana(Microsoftのアシスタント)もボットの一種。ボットとはロボット(Robot)の略。

スパイダー…ボットの一種で、ウェブサイトを巡回してデータベースを収集するプログラム。クローラやウェブボットなどの呼び方があります。

「管理」→「ビューの設定」
アナリティクス フィルタリング
「ボットのフィルタリング」にチェックを入れる
(既知のボットやスパイダーからのヒットをすべて除外します)
アナリティクス bot
今までこの設定はリファラスパムを遮断する方法だと信じてきました。
(リファラスパムとボットやスパイダーをごっちゃに考えていました)

説明にもあるようにボットとスパイダーを除外する方法にすぎませんでした。

その説明が下記のサイトにて解説されています。

急増するGAのリファラースパムを撃退! スパム業者の手口とは? | <特集>ユニバーサルアナリティクスの新しい仕組み「Measurement Protocol」とは?
昨今急増するリファラ―スパムの仕組みと対策を解説する。実はMeasurement Protocolが関係している。

サイトにアクセスしてスパイダー・ボットリストを参照したのですが、最終更新が2010年で止まっていました。

つぎは個別にフィルタを登録していく方法です。

上記で紹介した方法だけでは除外しきれません。

さらに精度を高めるためにも次のように追加でフィルタに登録していくとよいです。

not setを除外する

言語、ブラウザ、ホスト名をそれぞれ除外する項目を作成します。

まず言語のnot setから。

本来ならjaやen-usなど表示されるのですが、not setでアクセスされるケースもあります。
フィルタ
ブラウザとホスト名のフィルタリングも同様の手順で。
フィルタ

semaltタイプのリファラを除外

Semalt.comとは、ウクライナにある企業でSEO分析のツールを開発しています。

「カスタム」「除外」「キャンペーンのソース」
^(.*\.semalt\.com|semalt\.com)を入力して保存。

^…直後の文字の先頭を表す
()…ひとつのグループにまとめる
.…任意の1文字
.\…正規表現の.ではなく、単なる1文字としての.という意味
*…0回以上の繰り返し
|…文字列の区切り

(任意の文字)+semalt.comあるいはsemalt.com

Semalt.comからのアクセスを遮断

アナリティクスの分析結果から除外するだけでなく、アクセス自体を遮断する方法もとるべきです。
①WordPressのプラグインで遮断
WordPressのプラグインにはSemalt.comからのアクセスを遮断してくれるものがあるのでリンクを張っておきます。
(ただし、プラグインの更新が止まっているのでオススメできません)

「semalt」カテゴリーのプラグイン | WordPress.org 日本語

②.htaccessに記入して遮断
サーバ内にある.htaccessファイルに記入して遮断する方法もあります。

プラグインを使うよりも手軽でしょう。

SetEnvIfNoCase Referer semalt.com spammer=yes

Order allow,deny
Allow from all
Deny from env=spammer

SetEnvIfNoCase Referer xxxxxxx spammer=yesのx部分をsemalt.com以外のURLを記述して他のリファラスパムを遮断することができます。

voxility.comを除外

Voxility.comとはハードウェア・ネットワーク機器・インターネットアクセス・セキュリティサービスを提供する会社とのことです。(情報がないので、この程度だけ)

aguse.jpで調べると、ブラックリスト入りはしてません。

サーバの位置情報では所在地はルーマニアとなっていますが、会社はアメリカのサンフランシスコです。

除外をするのが「参照」ではなく「ISP(=Internet Service Provider)」となっているのはVoxility.comが上記の説明も含めプロバイダ業者だからです。

「定義済み」「除外」「ISPドメインからのトラフィック」「次を含む」
voxility.comを入力して保存。

トラッキングコードを除外

「カスタム」「除外」「参照」

各人のアナリティクスコードのUA-xxxxxxxx-1のx部分の数字を入力して保存。

言語設定のリファラスパムを除外

言語系は実在するサイトのURLを偽装して「言語」表示してアクセスしてくるスパムです。

「カスタム」「除外」「言語設定」

\s[^\s]*\s|.{15,}|\.|,を入力して保存。

\s…空白
^\s…空白文字以外
*\s…空白が連続以外
{15,}…15文字以上

自分のホスト名だけを計測

「定義済み」「右のみを含む」「ホスト名へのトラフィック」「次を含む」

自分のサイトのURLを入力して保存。

Vitaly rules googleを除外

ロシアから流入してきた言語系のリファラスパムです。ソーシャル(ツイッターからのアクセスを偽装)

ページタイトルや言語が偽装された状態でアクセスしてきました。

人によってはロシアだけでなくカザフスタンからアクセスを偽装してきたタイプも。

「カスタム」「除外」「言語設定」

Vitaly rules googleを入力して保存。

lifehacĸer.comを除外

2016年11月ごろから急激に増加が確認されたロシアからのリファラスパムです。

注意しておきたいのは、lifehacĸer.comのĸという文字。

アルファベットではなくロシア語のキリル文字が使われています。

「カスタム」「除外」「参照」

lifehacĸer.comを入力。

調べてみると人によってはフィルタフィールドが「参照」派と「キャンペーンのソース」派に分かれているのです。

どちらで設定するのが正しいのか、いまのところ分かっていません。

私は「参照」にしていますが、状況によっては「キャンペーンのソース」で登録し直して様子を見るかも。

Secret.ɢoogle.comを除外

これもlifehacĸer.comと同じく2016年11月ごろ確認されたロシアからのリファラスパム。

2016年に行われたアメリカ大統領選挙に関連したスパムです。

これもSecret.ɢoogle.comのɢに注意。

ラテン文字にあるスモールキャピタルのひとつで、小文字と同じ高さで作られた大文字。

本家google.comとはまったく違います。

「カスタム」「除外」「言語設定」

Secret.ɢoogle.com You are invited! Enter only with this ticket URL. Copy it. Vote for Trump!と入力。

まとめ

リファラスパムを100%除外するのは不可能ですが、大部分をはじくことは可能です。

ちなみに過去にさかのぼってスパム除去をすることができないことも理解しておく必要があります。

グーグルアナリティクスで、できるだけ正確な測定をするには必要な設定なのでサイト登録したらすぐにやるとよいでしょう。

解説されているサイトによって設定方法がまちまちなこともあるので、その点にも注意した方がよさそうです。

正規表現の説明については、不正確な部分があるかと思いますのでご了承ください。

2023年7月2日からGoogleアナリティクスはユニバーサルアナリティクス(通称UA)からGoogleアナリティクス4プロパティ(通称GA4)に移行することになりました。(UAは2023年7月1日で計測終了)

それにともなって、今までフィルターに数々のスパイダーやボットを登録したかと思いますが、GA4では反映されなくなくります。

コメントをどうぞ

タイトルとURLをコピーしました