Nếu Google Analytics của bạn nhận được lưu lượng truy cập giới thiệu spam, hoặc bất kể hình thức giả mạo traffic nào khác, thì bài viết này sẽ chỉ cho bạn cách giảm thiểu hoặc thậm chí loại bỏ hoàn toàn tác động tiêu cực đến báo cáo GA của bạn do lưu lượng truy cập giả mạo gây ra.
Loại bỏ Nguồn Giới thiệu Giả mạo trong Google Analytics |
Giới thiệu về lưu lượng truy cập giả mạo
Trong Google Analytics lưu lượng truy cập giả mạo được định nghĩa là một hoặc nhiều lần truy cập giả mạo được gửi đến thuộc tính GA của bạn. Một truy cập hay HIT là tương tác người dùng với trang web khi đó dữ liệu sẽ được gửi đến thuộc tính của Google Analytics. HIT có thể là pageview, screenview, event hay transaction, vv
Một HIT giả được tạo ra bởi một chương trình hay một spambot thay vì như một người dùng thật tương tác với website của bạn. Thực tế có thể giả mạo bất kỳ lần truy cập GA nào. Điều đó có nghĩa các spammer có thể gửi lưu lượng truy cập giới thiệu giả mạo, giả mạo lưu lượng tự nhiên, giả mạo lưu lượng truy cập trực tiếp, giả mạo lưu lượng truy cập từ mạng xã hội, … Spammer có thể giả mạo các Event, pageview ảo, screenview, hostname, URI request, từ khóa thậm chí cả các giao dịch và mục dữ liệu.
Spammer chỉ cần thuộc tính ID của GA bất kỳ để thực hiện những hành động ma thuật bẩn thỉu, sau đó anh ta có thể ghi lại dữ liệu phân tích của bạn từ bất kỳ vị trí nào trên thế giới mà không cần bất kỳ truy cập tài khoản GA nào. Đây là một nguy cơ bảo mật dữ liệu lớn mà nhiều người không biết. Ngay cả những phiên bản cao cấp của Google Analytics cũng không bảo vệ bạn khỏi những tấn công / spam.
Chương trình tự động truy cập tới trang qua nguồn giới thiệu là một chương trình thực hiện nhiệm vụ lặp đi lặp lại chương trình này gọi là BOT SPAM sử dụng cho mục đích độc hại như sau:
- Tạo người dùng giả mạo
- Gian lận nhấp chuột tăng doanh thu quảng cáo của đối thủ cạnh tranh
- Gửi ý kiến cho mục đích spam
- Lấy nội dung trang web (tạo trang web spam để quảng cáo adsense)
- Phát tán phần mềm độc hại
- Lấy Id Google Analytics để gửi lưu lượng truy cập giả mạo
- Gửi lưu lượng truy cập web giả mạo
Tùy thuộc vào cách BOT được sử dụng, có 2 loại bot tốt và bot spam. Ví dụ về bot tốt là googlebot được Google sử dụng để thu thập thông tin và lập chỉ mục trang web. Bot spam có thể sử dụng phương pháp khác nhau để che giấu bản chất để chúng không bị dễ dàng phát hiện bằng bất kỳ biện pháp bảo mật nào. Chúng có thể giả mạo trình duyệt web như Chrome, IE, Firefox, … Chúng có thể giả mạo truy cập đến từ một trang web hợp pháp.
Không phải tất cả các chương trình bot spam được phát triển để gửi lưu lượng truy cập giả mạo tới GA, chúng có thể tạo ra để chiếm hết băng thông website của bạn và ảnh hưởng tiêu cực tới hiệu suất trang web. Trường hợp xấu nhất, chúng có thể được sử dụng để tấn công trang web hoặc cài đặt phần mềm độc hại lên trang web của bạn.
Mục đích của các spammer là gì?
- Gây sự tò mò của các web masters khác khi nhìn thấy trong Google Analytics – Real time dẫn đến muốn tìm hiểu và truy cập vào các domain đó, spammer đạt được mục đích tăng view, traffic
- Nhận được hoa hồng từ việc truy cập giả mạo
- Các SEOer tăng truy cập giả mạo trong GA sau đó tự hào với những nỗ lực tiếp thị của họ, báo cáo thành tích với khách hàng/ông chủ về kết quả chiến dịch SEO họ thực hiện.
- Và một số mục đích khác nữa chỉ spammer mới biết :D
Bạn website của bạn bị ảnh hưởng như thế nào?
- Nguồn giới thiệu SPAM đã trở nên phổ biến và cuối cùng bạn sẽ tìm thấy một URL độc hại xuất hiện trong cơ sở dữ liệu của bạn hoặc trong file log.
- Miễn là file log hoặc bản ghi dữ liệu không hiển thị public và trình thu thập thông tin, nó sẽ không ảnh hưởng đến xếp hạng của công cụ tìm kiếm của bạn.
- Hãy cẩn thận với các trang web nếu bạn truy cập xem các trang web giới thiệu đó rất có thể bị dính phần mềm độc hại.
Các chương trình Spam truy cập website
Các chương trình này ghé thăm website để gửi lưu lượng truy cập giả mạo, nó có thể thu thập hàng trăm nghìn trang web mỗi ngày và gửi HTTP Request đến các trang với các Header referrer giả mạo, chúng tạo các referrer giả mạo để tránh bị phát hiện là chương trình tự động. Header giả mạo chứa URL trang web mà spammer muốn gửi quảng cáo hoặc xây dựng backlink.
Ví dụ các chương trình spam có thể sử dụng bbc.com.uk để làm nguồn giới thiệu giả mạo, bở BBC là một trang web lớn và hợp pháp, khi bạn thấy nguồn giới thiệu trong báo cáo GA, bạn thậm chí sẽ không nghĩ rằng lưu lượng truy cập đến từ trang web đó có thể là giả mạo, và ai thực sự truy cập trang web của bạn từ BBC?
Khi trang web của bạn nhận được yêu cầu HTTP từ bot spam với Header giả mạo, nó sẽ được ghi lại trong server log. Nhiều SEOer sử dụng chương trình spam này cho mục đích xây dựng backlink. Họ làm spam với niềm tin rằng nhận được những truy cập công khai thì Google sẽ coi giá trị giới thiệu như là một backlink vì thế sẽ ảnh hưởng tích cực tới thứ hạng của trang web trong công cụ tìm kiếm. Nhưng tôi tin tưởng rằng Google đủ thông minh để phát hiện ra nó đang thu thập thông tin là file log và không phải là một trang web thực, do đó Google sẽ làm giảm giá trị backlink từ website giả mạo.
Cách tìm kiếm ra những referrer spam trong GA
Thực hiện theo các bước dưới đây để phát hiện referrer spam
Bước 1: Điều hướng đến Báo cáo “Referrals” trong GA
Bước 2: Thay đổi phạm vi ngày báo cáo Referrals đến 2 tháng trước
Bước 3: Sắp xếp báo cáo theo tỷ lệ thoát giảm dần (bounce rate) hoặc có thể sử dụng regex để lọc tất cả các referrer spam trong báo cáo Referrals.
Bước 4: Tìm các nguồn giới thiệu có tỷ lệ thoát 100% hoặc 0% với 10 session hoặc nhiều hơn. Có thể đó là những referrer spam.
Bước 5: Nếu không thể phát hiện ra những trang referrer nghi ngờ là spam thì cần phải chấp nhận rủi ro là truy cập vào trang web đó để đảm bảo đó có phải là trang web hợp pháp hay không, và nó thực sự có đặt liên kết với trang web của bạn không. Đảm bảo rằng máy tính của bạn đã được cài các phần mềm chống virut trước khi truy cập những trang web nghi ngờ vì có thể bị lây nhiễm virut khi truy cập chúng.
Bước 6: Ghi lại tất cả các referrer spam có lưu lượng truy cập bạn muốn chặn khỏi chế độ xem trong GA.
Bước 7: Chuyển danh sách referrer spam thành:
Regex có thể là:
Semalt|buttons|blackhatworth|7makemoneyonline(\.com)+
Sau đó sử dụng regex này trong khi thiết lập bộ lọc chế độ xem GA. Tạo regex có thể xác định chính xác tất cả các giới thiệu spam có lưu lượng truy cập bạn muốn loại trừ trong GA.
Cách chặn nguồn giới thiệu spam (referrer spam)
Khi xác định được nguồn giới thiệu spam hãy chặn chúng truy cập vào trang của bạn. Vì lượt truy cập được bot ghi lại trong server log của bạn, có thể chặn các chương trình thông qua file .htaccess.
Dưới đây là các phương pháp bạn có thể sử dụng để chặn Referrer spam:
- Chặn nguồn referrer được sử dụng bởi spambot
- Chặn địa chỉ IP của các bot spam
- Chặn dải địa chỉ IP của spambots
- Chặn các user agent được sử dụng bởi spambots
- Chặn referrer spam thông qua bộ lọc nâng cao trong tùy chỉnh của GA (chỉ khi không thể truy cập vào máy chủ)
- Sử dụng tính năng “Bot filtering” của Google Analytics
Phương pháp 1: Chặn nguồn referrer được sử dụng bởi spambot
Truy cập file .htaccess thêm đoạn code sau để chặn tất cả các giới thiệu HTTP và HTTPs của domain và tên miền con của domain spam (ví dụ domain là semalt.com)
Lưu ý: Không phải tất cả các chương trình spam đều gửi Header liên kết refferal. Trong trường hợp đó lưu lượng truy cập từ các chương trình sẽ không xuất hiện lưu lượng truy cập giới thiệu trong báo cáo GA. Spambot có thể tạo ra hàng chục tiêu đề giới thiệu giả mạo. Vì vậy nếu bạn chặn một domain giới thiệu này thì chúng có thể gửi tới trang của bạn một domain giới thiệu giả mạo khác. Vì vậy cho dù đã chặn các liên kết giới thiệu spam theo bộ lọc GA hay trong file .htaccess thì cũng không có gì bảo đảm rằng trang web của bạn đã chặn hoàn toàn được các spambot.
Phương pháp 2: Chặn địa chỉ IP được spambot sử dụng.
Truy cập file .htaccess thêm đoạn code dưới đây
Lưu ý: nhớ thay đổi địa chỉ IP của spambot sử dụng, IP 234.45.12.33 trên chỉ là ví dụ, spambot có thể sử dụng nhiều IP khác nhau vì vậy cần phải tiếp tục cập nhật IP mà các spambot sử dụng.
Phương pháp 3: Chặn dải IP mà spambot sử dụng.
Nếu bạn chắc chắn giải IP cụ thể được spambot sử dụng thì có thể chặn toàn bọ phạm vi giải IP như dưới đây:
Phương pháp 4:
Phương pháp 5:
Vì lý do nào đó bạn không được phép chỉnh sửa file .htaccess thì bạn có thể chặn các liên kết spam thông qua bộ lọc nâng cao tùy chỉnh trong GA. Tuy nhiên không sử dụng phương pháp này nếu bạn có thể chỉnh sửa file .htaccess. Theo dõi log server ít nhất mỗi tuần 1 lần. Chiến đấu với các chương trình spam thu thập dữ liệu trang web của bạn.
Nếu bạn có thể ngăn chặn họ truy cập vào trang web của mình trước tiên không cần phải loại trừ chúng sau đó từ các báo cáo GA của mình. Chặn các chương trình spam ở cấp độ máy chủ luôn hiệu quả hơn, vì bạn đạng chặn họ truy cập trang và không chỉ loại trừ lưu lượng truy cập của họ khỏi GA. Nên hạn chế sử dụng bộ lọc GA bởi nó ảnh hưởng tới vấn đề báo cáo dữ liệu trong GA.
Bước 1: Vào trang GA quản lý truy cập. Click vào phần Quản trị viên sau đó chọn Tất cả bộ lọc
Bước 2: Chọn Thêm Bộ Lọc
Bước 3: Tên bộ lọc : là tên trang web referral spam đến site của bạn. Ở đây các bạn gõ lifehacĸer.com vào tên bộ lọc.
- Chọn tiếp tùy chỉnh.
- Trong phần trường bộ lọc: chọn là nguồn chiến dịch.
- Dạng bộ lọc: đánh vào là lifehacĸer.com – tên trang web spam
Nhập domain spam xong chọn OK là hoàn thành.
Phương pháp 6: Sử dụng tính năng lọc “Bot filtering” của Google Analytics.
Thực hiện theo các bước dưới đây:
Bước 1: điều hướng đến phần “Admin” trong GA sau đó click vào “view setting”
Bước 2: Cuộn xuống trang và chọn checkbox “Exclude all hits from know bots and spiders”
Tạm kết
Các chương trình SPAM mà các Spammer sử dụng với ý đồ xấu triệt hạ đối thủ là hành động không fairplay và đáng bị lên án, do vậy cá nhân tôi tha thiết kêu gọi chúng ta hãy chơi Fair với nhau, giúp đỡ nhau để cùng tiến thì sẽ tốt đẹp biết bao.
Dung Hoàng