Duplicate Content là nội dung trùng lặp có trên nhiều nơi trong hoặc ngoài website của bạn. Nó thường tồn tại trên các URL khác nhau và đôi khi ngay cả trên một tên miền khác. Hầu hết các nội dung trùng lặp xảy ra vô tình hoặc là kết quả của việc lỗ do kỹ thuật thực hiện.
Chẳng hạn, trang web của bạn có thể có sẵn trên cả www và không www hoặc HTTP và HTTPS - hoặc cả hai cùng một lúc, thật kinh khủng! Hoặc có thể CMS của bạn sử dụng các tham số URL động quá mức gây nhầm lẫn cho các công cụ tìm kiếm. Ngay cả các trang AMP của bạn cũng có thể được tính là nội dung trùng lặp nếu không được liên kết chính xác.
Nội dung trùng lặp ở khắp mọi nơi.
Định nghĩa Duplicate Content của Google như sau:
“Nội dung trùng lặp thường đề cập đến các khối nội dung đáng kể trong hoặc trên các miền hoàn toàn khớp với nội dung khác hoặc tương tự nhau. Hầu hết, đây không phải là lừa đảo trong nguồn gốc.”
Đó là điều rất quan trọng. Nếu bạn cạo, sao chép và quay nội dung hiện có - Google gọi nội dung được sao chép này - với mục đích đánh lừa công cụ tìm kiếm để có thứ hạng cao hơn, bạn sẽ gặp nguy hiểm.
Google cho biết loại ý định độc hại này có thể kích hoạt một hành động:
Nội dung trùng lặp trên một trang web không phải là căn cứ để hành động trên trang web đó trừ khi có vẻ như mục đích của nội dung trùng lặp là lừa đảo và thao túng kết quả của công cụ tìm kiếm
Michiel có một số mẹo hay để khám phá nội dung trùng lặp trên trang web của bạn trong phần kiểm tra nội dung trùng lặp DIY của anh ấy và phải làm gì nếu ai đó sao chép nội dung của bạn. Tài liệu của Google cũng là một mỏ vàng để làm việc với nội dung trùng lặp.
Tại sao nội dung trùng lặp lại vấn đề?
Đối với công cụ tìm kiếm
Nội dung trùng lặp có thể trình bày ba vấn đề chính cho các công cụ tìm kiếm:
- Họ không biết (các) phiên bản nào sẽ bao gồm/loại trừ khỏi các chỉ số của họ.
- Họ không biết có nên hướng số liệu liên kết (tin cậy, authority, anchor text, link equity, v.v.) đến một trang hoặc giữ nó tách biệt giữa nhiều phiên bản.
- Họ không biết nên xếp hạng phiên bản nào cho kết quả truy vấn.
Ví dụ minh họa về Duplicate Content |
Nội dung trùng lặp vs Nội dung được sao chép vs Nội dung mỏng
Chủ đề của nội dung trùng lặp gây nhầm lẫn cho rất nhiều người. Đối với Google, hầu hết các nội dung trùng lặp đều có nguồn gốc kỹ thuật, nhưng nó cũng sẽ xem xét chính nội dung đó. Tôi có hai URL cho cùng một bài viết, tôi nên chọn URL nào?
Trong khi hầu hết những người bình thường có thể sẽ nghĩ về những phần nội dung tương tự xuất hiện ở nơi khác trên một trang web. Tôi đã sử dụng đoạn văn bản này ở một số nơi khác, có tệ không? Đây là tất cả nội dung trùng lặp, nhưng để xác định thứ hạng, công cụ tìm kiếm phân biệt giữa nội dung trùng lặp, nội dung sao chép và nội dung mỏng.
Nội dung trùng lặp của bạn có thể phân loại là nội dung được sao chép (Copied Content) nếu bạn sử dụng một văn bản hiện có và nhanh chóng thử lại nó để sử dụng lại trên trang web của bạn. Nó không thành vấn đề nếu bạn cho nó một chút quay hoặc đặt một vài từ khóa, hành vi này không được chấp nhận. Ném vào một vài trang nội dung mỏng (Thin Content) - những trang có ít hoặc không có nội dung chất lượng - và bạn ở trong vùng nguy hiểm. Chất lượng trang web là một vấn đề và những chiến thuật này có thể mang lại tác hại nghiêm trọng cho trang web của bạn. Thuật toán Panda sẽ hỏi thăm trang của bạn.
Đừng chặn nội dung trùng lặp trên trang web của bạn
Google khá thích hợp trong việc khám phá và xử lý nội dung trùng lặp. Công cụ tìm kiếm đủ thông minh để tìm ra phải làm gì với hầu hết các nội dung trùng lặp mà nó tìm thấy. Nếu nó tìm thấy nhiều phiên bản của một trang, nó sẽ xếp chúng thành phiên bản mà nó tìm thấy tốt nhất - trong hầu hết các trường hợp, đây sẽ là bài viết/trang gốc.
Tuy nhiên, những gì nó cần là truy cập đầy đủ vào các URL này. Nếu bạn chặn Googlebot trong tệp robots.txt của bạn để thu thập các URL này, nó không thể tự tìm ra những điều này và bạn sẽ gặp rủi ro khi Google coi các trang này là các trường hợp riêng biệt. Dưới đây là một số điều bạn nên làm:
- Cho phép robot thu thập dữ liệu các URL này
- Đánh dấu nội dung là trùng lặp bằng cách sử dụng rel = canonical
- Sử dụng công cụ URL Parametter của Google để xác định cách xử lý các tham số
- Sử dụng chuyển hướng 301 để gửi người dùng và trình thu thập thông tin đến URL chuẩn
Có nhiều điều bạn có thể làm để chống lại nội dung trùng lặp trên trang web của mình như Joost mô tả trong bài viết của mình về nội dung trùng lặp: nguyên nhân và giải pháp.
Sử dụng rel = canonical!
Một trong những công cụ thiết yếu trong bộ công cụ chiến đấu nội dung trùng lặp của bạn là rel=”canonical”. Bạn có thể sử dụng đoạn mã này để xác định URL gốc của một phần nội dung là gì, chúng tôi gọi là URL chính tắc. Chúng tôi có một hướng dẫn cuối cùng tuyệt vời về rel=”canonical” cho bạn thấy mọi thứ cần biết về nó.
Tập trung vào nội dung gốc, tươi mới và có thẩm quyền
Một công cụ khác trong kho vũ khí của bạn để chống lại nội dung trùng lặp, sao chép và không nguyên bản là kỹ năng viết của bạn. Google tập trung vào chất lượng. Nó luôn luôn tìm kiếm những nội dung tốt nhất có thể phù hợp với mục đích của người dùng nhất. Mục tiêu của bạn không phải là kiếm tiền nhanh mà để lại ấn tượng lâu dài. Xem ra cho nội dung mỏng và đảm bảo làm cho nó nguyên bản và chất lượng cao.
Điều tương tự cũng xảy ra với nội dung tương tự trên trang web của bạn. Chúng tôi đã nói về việc ăn cắp từ khóa (keyword cannibalization) trước đây và đây là một phần mở rộng của điều đó. Gấp một số bài viết có thể so sánh thành một có thể đạt được kết quả tốt hơn nhiều, cả về thứ hạng cũng như chống lại nội dung trùng lặp.
Tại đây Google có nội dung hướng dẫn:
“Tối thiểu hóa nội dung tương tự: Nếu bạn có nhiều trang tương tự nhau, hãy xem xét mở rộng từng trang hoặc hợp nhất các trang thành một. Ví dụ: nếu bạn có một trang web du lịch với các trang riêng biệt cho hai thành phố, nhưng cùng một thông tin trên cả hai trang, bạn có thể hợp nhất các trang thành một trang về cả hai thành phố hoặc bạn có thể mở rộng từng trang để chứa nội dung duy nhất về mỗi thành phố”.
Nội dung trùng lặp ở khắp mọi nơi - biết phải làm gì về nội dung đó
Matt Cutts từng nổi tiếng nói rằng 20% đến 30% web bao gồm các nội dung trùng lặp. Mặc dù tôi không chắc những con số này vẫn chính xác; nội dung trùng lặp tiếp tục xuất hiện trên mỗi trang web. Đây không phải là tin xấu. Sửa những gì bạn có thể và không nên thử và biến nội dung trùng lặp và bản sao nội dung và nội dung mỏng thành một chiến lược SEO khả thi.
SeoTheTop, nguồn YoastSeo