Анализ данных в Keitaro
Последнее время люди часто пишут, мол рекламу апрувнули, но после определенного спенда - сходу policy , либо домен по политике вылетает и наш РК благополучно падает.
Потому я решил чисто для себя разобраться в чем может заключаться проблема (хоть и отчасти теоретически).
В нашем эксперименте будет использоваться трекер Keitaro.
Стоит сразу заметить - что у каждого человека может попадаться отдельный вид ботов и их спецификации.
Так что подобные действия желательно делать изначально - чтобы всегда можно было ужесточить наш отбор, кому показывать блек.
Для начала далеко не будет идти.
Соберем с паблика список UserAgent'ов, которые заранее уже были обнаружены:
https://developers.whatismybrowser.com/useragents/explore/software_name/facebook-bot/
Я добавил их на стороне IMKLO - для фильтрации на стороне имкло. И продублировал в Keitaro.
Для чего это сделано? -
Часто видел что 1 и тот же IP бота. Заходил как 2 разных клика. В 1 клике - пустой UserAgent, а во 2ом клике - уже есть UserAgent.
Предположение: Я думаю что первое время для разгона вашей личной базы ботов в ситуациях подобным выше. Нужно покрутить и собрать IP и UserAgent'и чтобы в будущем они фильтровались без проблем.
Ранее я использовал подобную раскладу фильтров в Keitaro :
Она и сейчас нормально работает в плане сортировки. Но я решил пойти дальше.
Keitaro как и любой другой трекер - очень обширный в плане настроек велосипед.
И многие думаю - "зачем лезть внутрь, если он едет". Зря.
Давайте разберем детали "этого велосипеда" чтобы понимать что мы можем вообще использовать в ловле ботов.
Там есть как не очень полезные для нас фильтры:
- Интервалы дат, Расписание, Лимит кликов, Сайты, Ключевики, Поисковики, IP, IPv6, Сотовые операторы, Провайдеры (если ГЕО баз нету), ОС. Версии ОС, Языки.
Так и очень интересные для нас:
-Рефереры, Ad Campaign ID, Creative ID, Пустой реферер, Прокси, ГЕО (Город\Старана), Проверка IMKLO, Проверка HideClick, БОТ, Уникальность, Типы соединения, Браузеры (и версии) , Тип и модель устройств, UserAgent'ы и Sub'и.
А для тех, кто знает:
-Параметр, X-Requested-With.
С помощью этих запчастей можно собрать отличный апгрейд вашего велика. Главное знать что делать и понимать что получим в конечном итоге.
Сегодня хочу детальнее поглядеть на интересные для нас фильтры - исходя с уже отлитого трафика. Часть переменных есть там и это нам поможет в будущем.
При использовании ДОП параметров, которые передают с фб - ссылка подобная:
https://домен/ключ?utm_creative={{ad.name}}&utm_campaign={{campaign.name}}&utm_source={{site_source_name}}&utm_placement={{placement}}&campaign_id={{campaign.id}}&adset_id={{adset.id}}&ad_id={{ad.id}}&adset_name={{adset.name}}
Рефереры - сайты с которых был осуществлен переход на ваш сайт.
Placements, Ad Campaign ID, Creative ID - данные с фб. Точнее их ID и имя
UserAgnet'ы - отпечаток браузера, ну и Sub'ы понятно что это.
А теперь глянем на история трафика.
И так если мы глянем горизонтальные прямоугольники то увидим. Что 2\3 переходов было вполне с адекватными юзерагентами, даже с ОС и браузером.
Но что самое интересное - то ГЕО другое - и пустые переменные - {{campaign.name}} и другие.
Стоит учитывать что пустые {{}} переменные - это не всегда боты.
Как видно выше. Очень много идет юзерагентов:
facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)
это краулер фейсбука - которые GET запросом выгружает весь HTML код вашей страницы.
Более детально можно глянуть здесь:
https://developers.facebook.com/docs/sharing/webmasters/crawler?locale=ru_RU#identify
Анализ отчетов:
Если смотреть - более подробно то картина выглядит следующим образом:
Самые ярко выраженные у нас выступают следующие боты (они отмечены)
facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)
Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534+ (KHTML, like Gecko) BingPreview/1.0b
Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.89 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.188 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.88 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
так же если разбить еще и на Creative ID выходит подобное:
так же стоит учитывать что в боты записываются все клики которые заходят не с нашего ГЕО.
Выводы:
Используя этот список ботов фб:
https://developers.whatismybrowser.com/useragents/explore/software_name/facebook-bot/
httpx - Open-source project (github.com/projectdiscovery/httpx)
Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.89 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Mozilla/5.0 (Linux; Android 6.0.1; Nexus 6P Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.83 Mobile Safari/537.36
Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534+ (KHTML, like Gecko) BingPreview/1.0b
вот полный список UA - https://pastebin.com/MHLPZCNY
whois -h whois.radb.net -- '-i origin AS32934' | grep ^route
и IP4 айпишки добавляю в кейтаро для ботов
IPv6 отключаю (хотя идет через cloudfare - и отключены там IPv6 вход)
На этом пока все. Но сразу хочу вас предупредить.
Не копируйте 1в1 настройки - зачастую это может просто даже не помочь. А наоборот сделать хуже.
Потому пробуйте и находите свои настройки, которые подходят вам.
Ps обновляйте айпишники краулеров FB.