Bài viết này sẽ đưa bạn đi sâu vào thế giới của khoa học dữ liệu và học máy, giải mã những điểm tương đồng và khác biệt giữa hai "người khổng lồ" trong kỷ nguyên số, từ đó giúp bạn hiểu rõ hơn về bản chất và ứng dụng của từng lĩnh vực.
Hướng dẫn Loại bỏ Spam Traffic trong Google Analytics
Nếu Google Analytics của bạn nhận được lưu lượng truy cập giới thiệu spam, hoặc bất kể hình thức giả mạo traffic nào khác, thì bài viết này sẽ chỉ cho bạn cách giảm thiểu hoặc thậm chí loại bỏ hoàn toàn tác động tiêu cực đến báo cáo GA của bạn do lưu lượng truy cập giả mạo gây ra.
Giới thiệu về lưu lượng truy cập giả mạo
Trong Google Analytics lưu lượng truy cập giả mạo được định nghĩa là một hoặc nhiều lần truy cập giả mạo được gửi đến thuộc tính GA của bạn. Một truy cập hay HIT là tương tác người dùng với trang web khi đó dữ liệu sẽ được gửi đến thuộc tính của Google Analytics. HIT có thể là pageview, screenview, event hay transaction, vv
Chương trình tự động truy cập tới trang qua nguồn giới thiệu là một chương trình thực hiện nhiệm vụ lặp đi lặp lại chương trình này gọi là BOT SPAM sử dụng cho mục đích độc hại như sau:
- Tạo người dùng giả mạo
- Gian lận nhấp chuột tăng doanh thu quảng cáo của đối thủ cạnh tranh
- Gửi ý kiến cho mục đích spam
- Lấy nội dung trang web (tạo trang web spam để quảng cáo adsense)
- Phát tán phần mềm độc hại
- Lấy Id Google Analytics để gửi lưu lượng truy cập giả mạo
- Gửi lưu lượng truy cập web giả mạo
Không phải tất cả các chương trình bot spam được phát triển để gửi lưu lượng truy cập giả mạo tới GA, chúng có thể tạo ra để chiếm hết băng thông website của bạn và ảnh hưởng tiêu cực tới hiệu suất trang web. Trường hợp xấu nhất, chúng có thể được sử dụng để tấn công trang web hoặc cài đặt phần mềm độc hại lên trang web của bạn.
Mục đích của các spammer là gì?
- Gây sự tò mò của các web masters khác khi nhìn thấy trong Google Analytics – Real time dẫn đến muốn tìm hiểu và truy cập vào các domain đó, spammer đạt được mục đích tăng view, traffic
- Nhận được hoa hồng từ việc truy cập giả mạo
- Các SEOer tăng truy cập giả mạo trong GA sau đó tự hào với những nỗ lực tiếp thị của họ, báo cáo thành tích với khách hàng/ông chủ về kết quả chiến dịch SEO họ thực hiện.
- Và một số mục đích khác nữa chỉ spammer mới biết :D
Bạn website của bạn bị ảnh hưởng như thế nào?
- Nguồn giới thiệu SPAM đã trở nên phổ biến và cuối cùng bạn sẽ tìm thấy một URL độc hại xuất hiện trong cơ sở dữ liệu của bạn hoặc trong file log.
- Miễn là file log hoặc bản ghi dữ liệu không hiển thị public và trình thu thập thông tin, nó sẽ không ảnh hưởng đến xếp hạng của công cụ tìm kiếm của bạn.
- Hãy cẩn thận với các trang web nếu bạn truy cập xem các trang web giới thiệu đó rất có thể bị dính phần mềm độc hại.
Các chương trình Spam truy cập website
Các chương trình này ghé thăm website để gửi lưu lượng truy cập giả mạo, nó có thể thu thập hàng trăm nghìn trang web mỗi ngày và gửi HTTP Request đến các trang với các Header referrer giả mạo, chúng tạo các referrer giả mạo để tránh bị phát hiện là chương trình tự động. Header giả mạo chứa URL trang web mà spammer muốn gửi quảng cáo hoặc xây dựng backlink.
Ví dụ các chương trình spam có thể sử dụng bbc.com.uk để làm nguồn giới thiệu giả mạo, bở BBC là một trang web lớn và hợp pháp, khi bạn thấy nguồn giới thiệu trong báo cáo GA, bạn thậm chí sẽ không nghĩ rằng lưu lượng truy cập đến từ trang web đó có thể là giả mạo, và ai thực sự truy cập trang web của bạn từ BBC?
Khi trang web của bạn nhận được yêu cầu HTTP từ bot spam với Header giả mạo, nó sẽ được ghi lại trong server log. Nhiều SEOer sử dụng chương trình spam này cho mục đích xây dựng backlink. Họ làm spam với niềm tin rằng nhận được những truy cập công khai thì Google sẽ coi giá trị giới thiệu như là một backlink vì thế sẽ ảnh hưởng tích cực tới thứ hạng của trang web trong công cụ tìm kiếm. Nhưng tôi tin tưởng rằng Google đủ thông minh để phát hiện ra nó đang thu thập thông tin là file log và không phải là một trang web thực, do đó Google sẽ làm giảm giá trị backlink từ website giả mạo.
Cách tìm kiếm ra những referrer spam trong GA
Thực hiện theo các bước dưới đây để phát hiện referrer spam
Bước 1: Điều hướng đến Báo cáo “Referrals” trong GA
Bước 2: Thay đổi phạm vi ngày báo cáo Referrals đến 2 tháng trước
Bước 3: Sắp xếp báo cáo theo tỷ lệ thoát giảm dần (bounce rate) hoặc có thể sử dụng regex để lọc tất cả các referrer spam trong báo cáo Referrals.
Bước 4: Tìm các nguồn giới thiệu có tỷ lệ thoát 100% hoặc 0% với 10 session hoặc nhiều hơn. Có thể đó là những referrer spam.
Bước 5: Nếu không thể phát hiện ra những trang referrer nghi ngờ là spam thì cần phải chấp nhận rủi ro là truy cập vào trang web đó để đảm bảo đó có phải là trang web hợp pháp hay không, và nó thực sự có đặt liên kết với trang web của bạn không. Đảm bảo rằng máy tính của bạn đã được cài các phần mềm chống virut trước khi truy cập những trang web nghi ngờ vì có thể bị lây nhiễm virut khi truy cập chúng.
Bước 6: Ghi lại tất cả các referrer spam có lưu lượng truy cập bạn muốn chặn khỏi chế độ xem trong GA.
Bước 7: Chuyển danh sách referrer spam thành:
Semalt|buttons|blackhatworth|7makemoneyonline(\.com)+
Sau đó sử dụng regex này trong khi thiết lập bộ lọc chế độ xem GA. Tạo regex có thể xác định chính xác tất cả các giới thiệu spam có lưu lượng truy cập bạn muốn loại trừ trong GA.
Cách chặn nguồn giới thiệu spam (referrer spam)
Khi xác định được nguồn giới thiệu spam hãy chặn chúng truy cập vào trang của bạn. Vì lượt truy cập được bot ghi lại trong server log của bạn, có thể chặn các chương trình thông qua file .htaccess.
Dưới đây là các phương pháp bạn có thể sử dụng để chặn Referrer spam:
- Chặn nguồn referrer được sử dụng bởi spambot
- Chặn địa chỉ IP của các bot spam
- Chặn dải địa chỉ IP của spambots
- Chặn các user agent được sử dụng bởi spambots
- Chặn referrer spam thông qua bộ lọc nâng cao trong tùy chỉnh của GA (chỉ khi không thể truy cập vào máy chủ)
- Sử dụng tính năng “Bot filtering” của Google Analytics
Phương pháp 1: Chặn nguồn referrer được sử dụng bởi spambot
Truy cập file .htaccess thêm đoạn code sau để chặn tất cả các giới thiệu HTTP và HTTPs của domain và tên miền con của domain spam (ví dụ domain là semalt.com)
Phương pháp 2: Chặn địa chỉ IP được spambot sử dụng.
Truy cập file .htaccess thêm đoạn code dưới đây
Lưu ý: nhớ thay đổi địa chỉ IP của spambot sử dụng, IP 234.45.12.33 trên chỉ là ví dụ, spambot có thể sử dụng nhiều IP khác nhau vì vậy cần phải tiếp tục cập nhật IP mà các spambot sử dụng.
Phương pháp 3: Chặn dải IP mà spambot sử dụng.
Nếu bạn chắc chắn giải IP cụ thể được spambot sử dụng thì có thể chặn toàn bọ phạm vi giải IP như dưới đây:
Phương pháp 4:
Phương pháp 5:
Vì lý do nào đó bạn không được phép chỉnh sửa file .htaccess thì bạn có thể chặn các liên kết spam thông qua bộ lọc nâng cao tùy chỉnh trong GA. Tuy nhiên không sử dụng phương pháp này nếu bạn có thể chỉnh sửa file .htaccess. Theo dõi log server ít nhất mỗi tuần 1 lần. Chiến đấu với các chương trình spam thu thập dữ liệu trang web của bạn.
Nếu bạn có thể ngăn chặn họ truy cập vào trang web của mình trước tiên không cần phải loại trừ chúng sau đó từ các báo cáo GA của mình. Chặn các chương trình spam ở cấp độ máy chủ luôn hiệu quả hơn, vì bạn đạng chặn họ truy cập trang và không chỉ loại trừ lưu lượng truy cập của họ khỏi GA. Nên hạn chế sử dụng bộ lọc GA bởi nó ảnh hưởng tới vấn đề báo cáo dữ liệu trong GA.
Bước 1: Vào trang GA quản lý truy cập. Click vào phần Quản trị viên sau đó chọn Tất cả bộ lọc
- Chọn tiếp tùy chỉnh.
- Trong phần trường bộ lọc: chọn là nguồn chiến dịch.
- Dạng bộ lọc: đánh vào là lifehacĸer.com – tên trang web spam
Phương pháp 6: Sử dụng tính năng lọc “Bot filtering” của Google Analytics.
Thực hiện theo các bước dưới đây:
Bước 1: điều hướng đến phần “Admin” trong GA sau đó click vào “view setting”
Bước 2: Cuộn xuống trang và chọn checkbox “Exclude all hits from know bots and spiders”
Các chương trình SPAM mà các Spammer sử dụng với ý đồ xấu triệt hạ đối thủ là hành động không fairplay và đáng bị lên án, do vậy cá nhân tôi tha thiết kêu gọi chúng ta hãy chơi Fair với nhau, giúp đỡ nhau để cùng tiến thì sẽ tốt đẹp biết bao.
Dung Hoàng
Nguồn: Wordfence Referrer Spam
Tin khác
Tin và Bài trong Báo chí: Các thể loại, mẫu cấu trúc +ví dụ minh họa
Tin và Bài là hai thể loại quan trọng trong báo chí, đóng vai trò thiết yếu trong việc cung cấp thông tin, kiến thức và giải trí tới công chúng. Hiểu rõ về bản chất, đặc điểm và sự khác biệt của 2 thể loại này sẽ giúp bạn đọc tiếp thu thông tin hiệu quả hơn và đánh giá giá trị nội dung một cách chín
Cách thiết lập và đạt được Mục tiêu OKR cá nhân
Ngày nay, việc thiết lập mục tiêu là điều cần thiết để đạt được thành công. Mục tiêu giúp chúng ta tập trung, định hướng và đo lường hiệu suất của mình.
7 Kỹ Năng Cần Thiết cho Nghệ thuật viết Prompt Engineering
Để thiết kế Prompt Engineering tốt bạn cần hiểu biết về nhiều lĩnh vực và tận dụng kỹ năng sáng tạo, giao tiếp, kiến thức chuyên môn về chủ đề, ngôn ngữ, tư duy phản biện và sự sáng tạo.
ChatGPT là gì? Lợi ích, Cách hoạt động và ứng dụng thực tế
ChatGPT là một trong những tiến bộ nổi bật của trí tuệ nhân tạo (AI) trong việc tạo ra trải nghiệm trò chuyện vô cùng độc đáo. Trong bài viết này, chúng ta sẽ khám phá ChatGPT là gì, cách nó hoạt động, cũng như những lợi ích và ứng dụng thú vị mà chatbot này mang lại.
OKR Alignment: 6 bước để Liên kết mục tiêu trong tổ chức
Tại sao việc liên kết OKR lại có sự quan trọng đối với sự thành công của bạn? Khám phá về OKR Alignment và tầm quan trọng của nó trong việc tạo nên sự hợp nhất và hiệu quả trong quá trình triển khai OKR của tổ chức
Quy trình Triển khai OKR 10 bước để thành công!
OKR (Objectives and Key Results), một công cụ mạnh mẽ giúp định hướng và đo lường tiến độ trong tổ chức. Trong thế giới kinh doanh đầy thách thức ngày nay, việc biết cách triển khai OKR một cách hiệu quả có thể là chìa khóa dẫn đến sự thành công và đạt được những mục tiêu đầy tham vọng.
Brand Mention là gì? Đề cập thương hiệu có ý nghĩa gì với SEO
Brand mention hay đề cập thương hiệu tích cực có ý nghĩa và mang lại nhiều lợi ích không chỉ riêng SEO nó giúp bạn tăng nhận diện thương hiệu và sự tin tưởng, hãy đọc để tìm cách hưởng lợi nhiều hơn cho cả 2 phía.
10 Loại tấn công SEO tiêu cực vào Website và cách khắc phục
Bài viết này sẽ Seothetop sẽ cung cấp tới bạn các hình thức tấn công SEO tiêu cực mà đối thủ có thể sử dụng để làm giảm xếp hạng trang web của bạn. Hãy đọc và tìm ra giải pháp khắc phục nó.
OKR Brainstorming: Cách thực hiện Phiên Động não để lấy Sáng kiến tuyệt vời
Trong bài viết này, chúng ta sẽ tìm hiểu các bước cơ bản để thực hiện một Phiên Động não OKR và tạo ra các sáng kiến đơn giản, giúp bạn thực hiện hướng tới đạt được mục tiêu đề ra.