Як виключити реферальний спам у Google Analytics

Все частіше під час входу до облікових записів Google Analytics у звітах про переходи можна побачити безліч відвідувань з незрозумілих джерел зі 100%-м показником відмов і нульовою тривалістю відвідування. Як правило, це так званий реферальний спам.

Ось як це виглядає у звітах Google Analytics:

реф. спам

Реферальний спам – це трафік, який ніколи не потрапляв на ваш сайт. Наприклад, переходи із darodar.com, priceg.com. Такий трафік може генеруватися програмою, яка надсилає HTTP запити у різні уявлення Google Analytics, і для цього навіть не потрібно відвідувати сайт. Надсилання таких HTTP запитів здійснюється за допомогою Measurement Protocol. Так як цих переходів на ваш сайт в реальності ніколи не було, ви їх не зможете заблокувати, використовуючи винятки в .htaccess. Тут допоможе лише налаштування фільтрів у Google Analytics.

Як правильно налаштувати фільтри в такому випадку?

Пропоную два варіанти розв’язання задачі.

1 варіант налаштування

Розглянемо перший варіант виключення реферального трафіку. Грунтуючись на тому, що цей трафік “не проходить” через наш сайт, а, відповідно, має інше ім’я хоста, ми можемо легко позбутися всіх спамних переходів, налаштувавши фільтр включення трафіку тільки власного хоста. Тут потрібно бути обережними, щоб помилково не забути включити потрібний хостнейм і не втратити дорогоцінний трафік. Отже, заходимо у звіт з переходів, вибираємо максимально можливий період часу в аналітиці та як додатковий параметр додаємо “Ім’я хоста”.

реф. спам

Серед усіх результатів вибираємо ті, що належать до нашого сайту. У прикладі це лише “odesseo.com.ua”, але у Вас можуть бути інші. Наприклад, найчастіше це ще домени з www та піддомени.

Далі налаштовуємо фільтр таким чином:

добавление фильтра

У шаблоні фільтра необхідно прописати регулярний вираз, який включатиме трафік з усіх ваших хостів. У моєму випадку воно вийшло простим, але якщо хостів кілька, шаблон регулярного виразу зміниться.

Мінусом такого рішення є те, що є можливість включити не всі потрібні хости до звіту та отримати таким чином спотворені дані.

Якщо перший варіант полягав у включенні до звітів потрібного трафіку, другий полягає у виключенні непотрібного.

2 варіант налаштування

Тобто необхідно налаштувати фільтр такого вигляду:

добавление фильтра

У шаблоні фільтра необхідно прописати регулярний вираз, який унеможливить трафік усіх спам-ботів. На скріншоті показано вираз для виключення трафіку з darodar та priceg.

.(darodar|priceg).

Однак його легко можна розширити на інші джерела переходів, додавши їх у круглі дужки через вертикальний сліш.

Мінусом цього рішення є те, що список таких рефералів постійно поповнюється, і потрібно періодично моніторити звіти щодо виникнення нових рефералів, щоб уникнути спотворення статистики.

Постає закономірне питання, як визначити, якого виду реферального спаму ставляться ті чи інші реферали. Помічено, що спамним рефералам другого типу при виборі додаткового параметра “Ім’я хоста” відповідають значення “co.lumb.co”, “apple.com”, “message60073399.cenokos.ru” та ін., в той час у рефералів першого типу в якості імені хоста виступає. Якщо все ж таки виникає труднощі з визначенням походження рефспаму (наприклад, джерелу відповідає значення (not set) поля “Ім’я хоста”), то краще цей реферал виключити і за допомогою .htacces, і налаштувати фільтр в аналітиці.

При налаштуванні фільтрів в аналітиці дані, що відповідають виключеним критеріям, не надходитимуть до звітів, але історичні дані не зміняться, що є неприємним, особливо якщо надходження спамного трафіку було помічено не відразу. У такому випадку проаналізувати чисті дані вам допоможе сегмент користувача:

фильтрация спама

Нова функція Google Analytics для фільтрації роботів та павуків

Нагадаю, що з минулого року в Google Analytics стала доступна функція “Виключення звернень роботів та павуків”. Активація цієї настройки дозволяє виключити всі відвідування роботів і павуків зі списку IAB, тобто всіх ботів, відомих Google.

Підключення цієї можливості реалізується в панелі “Адміністратор” у налаштуваннях подання активацією чекбоксу “Виключення звернень роботів та павуків”

фильтрация роботов

Також дуже рекомендую дні сплесків трафіку, викликані реферальними атаками, позначати анотаціями, щоб через рік, аналізуючи загальну відвідуваність сайту, не згадувати, що це були за напливи трафіку.

Додати інструкцію можна на рівні представлення в розділі «Анотації».

Аннотации

Це дозволить на діаграмах у місцях сплесків трафіку додати такі корисні записочки:

І насамкінець, нагадую, якщо ви використовуєте фільтри, то, по-перше, завжди необхідно перевіряти фільтри спочатку в тестовому поданні, щоб не допустити помилок в основному, і по-друге, потрібно залишати одне уявлення без фільтрів, щоб завжди можна було подивитися на дані в необробленому вигляді і перевірити, чи не відсікається якийсь.