Duplicate Content là gì? Tìm hiểu Nội dung trùng lặp, sao chép, mỏng

Duplicate Content là nội dung trùng lặp có trên nhiều nơi trong hoặc ngoài website của bạn. Nó thường tồn tại trên các URL khác nhau và đôi khi ngay cả trên một tên miền khác. Hầu hết các nội dung trùng lặp xảy ra vô tình hoặc là kết quả của việc lỗ do kỹ thuật thực hiện.

Chẳng hạn, trang web của bạn có thể có sẵn trên cả www và không www hoặc HTTP và HTTPS - hoặc cả hai cùng một lúc, thật kinh khủng! Hoặc có thể CMS của bạn sử dụng các tham số URL động quá mức gây nhầm lẫn cho các công cụ tìm kiếm. Ngay cả các trang AMP của bạn cũng có thể được tính là nội dung trùng lặp nếu không được liên kết chính xác.

Nội dung trùng lặp ở khắp mọi nơi.

Định nghĩa Duplicate Content của Google như sau:

“Nội dung trùng lặp thường đề cập đến các khối nội dung đáng kể trong hoặc trên các miền hoàn toàn khớp với nội dung khác hoặc tương tự nhau. Hầu hết, đây không phải là lừa đảo trong nguồn gốc.”

Đó là điều rất quan trọng. Nếu bạn cạo, sao chép và quay nội dung hiện có - Google gọi nội dung được sao chép này - với mục đích đánh lừa công cụ tìm kiếm để có thứ hạng cao hơn, bạn sẽ gặp nguy hiểm.

Google cho biết loại ý định độc hại này có thể kích hoạt một hành động:

Nội dung trùng lặp trên một trang web không phải là căn cứ để hành động trên trang web đó trừ khi có vẻ như mục đích của nội dung trùng lặp là lừa đảo và thao túng kết quả của công cụ tìm kiếm

Michiel có một số mẹo hay để khám phá nội dung trùng lặp trên trang web của bạn trong phần kiểm tra nội dung trùng lặp DIY của anh ấy và phải làm gì nếu ai đó sao chép nội dung của bạn. Tài liệu của Google cũng là một mỏ vàng để làm việc với nội dung trùng lặp.

Tại sao nội dung trùng lặp lại vấn đề?

Đối với công cụ tìm kiếm

Nội dung trùng lặp có thể trình bày ba vấn đề chính cho các công cụ tìm kiếm:

Họ không biết (các) phiên bản nào sẽ bao gồm/loại trừ khỏi các chỉ số của họ.
Họ không biết có nên hướng số liệu liên kết (tin cậy, authority, anchor text, link equity, v.v.) đến một trang hoặc giữ nó tách biệt giữa nhiều phiên bản.
Họ không biết nên xếp hạng phiên bản nào cho kết quả truy vấn.

Ví dụ minh họa về Duplicate Content

Nội dung trùng lặp vs Nội dung được sao chép vs Nội dung mỏng

Chủ đề của nội dung trùng lặp gây nhầm lẫn cho rất nhiều người. Đối với Google, hầu hết các nội dung trùng lặp đều có nguồn gốc kỹ thuật, nhưng nó cũng sẽ xem xét chính nội dung đó. Tôi có hai URL cho cùng một bài viết, tôi nên chọn URL nào?

Trong khi hầu hết những người bình thường có thể sẽ nghĩ về những phần nội dung tương tự xuất hiện ở nơi khác trên một trang web. Tôi đã sử dụng đoạn văn bản này ở một số nơi khác, có tệ không? Đây là tất cả nội dung trùng lặp, nhưng để xác định thứ hạng, công cụ tìm kiếm phân biệt giữa nội dung trùng lặp, nội dung sao chép và nội dung mỏng.

Nội dung trùng lặp của bạn có thể phân loại là nội dung được sao chép (Copied Content) nếu bạn sử dụng một văn bản hiện có và nhanh chóng thử lại nó để sử dụng lại trên trang web của bạn. Nó không thành vấn đề nếu bạn cho nó một chút quay hoặc đặt một vài từ khóa, hành vi này không được chấp nhận. Ném vào một vài trang nội dung mỏng (Thin Content) - những trang có ít hoặc không có nội dung chất lượng - và bạn ở trong vùng nguy hiểm. Chất lượng trang web là một vấn đề và những chiến thuật này có thể mang lại tác hại nghiêm trọng cho trang web của bạn. Thuật toán Panda sẽ hỏi thăm trang của bạn.

Đừng chặn nội dung trùng lặp trên trang web của bạn

Google khá thích hợp trong việc khám phá và xử lý nội dung trùng lặp. Công cụ tìm kiếm đủ thông minh để tìm ra phải làm gì với hầu hết các nội dung trùng lặp mà nó tìm thấy. Nếu nó tìm thấy nhiều phiên bản của một trang, nó sẽ xếp chúng thành phiên bản mà nó tìm thấy tốt nhất - trong hầu hết các trường hợp, đây sẽ là bài viết/trang gốc.

Tuy nhiên, những gì nó cần là truy cập đầy đủ vào các URL này. Nếu bạn chặn Googlebot trong tệp robots.txt của bạn để thu thập các URL này, nó không thể tự tìm ra những điều này và bạn sẽ gặp rủi ro khi Google coi các trang này là các trường hợp riêng biệt. Dưới đây là một số điều bạn nên làm:

Cho phép robot thu thập dữ liệu các URL này
Đánh dấu nội dung là trùng lặp bằng cách sử dụng rel = canonical
Sử dụng công cụ URL Parametter của Google để xác định cách xử lý các tham số
Sử dụng chuyển hướng 301 để gửi người dùng và trình thu thập thông tin đến URL chuẩn

Có nhiều điều bạn có thể làm để chống lại nội dung trùng lặp trên trang web của mình như Joost mô tả trong bài viết của mình về nội dung trùng lặp: nguyên nhân và giải pháp.

Sử dụng rel = canonical!

Một trong những công cụ thiết yếu trong bộ công cụ chiến đấu nội dung trùng lặp của bạn là rel=”canonical”. Bạn có thể sử dụng đoạn mã này để xác định URL gốc của một phần nội dung là gì, chúng tôi gọi là URL chính tắc. Chúng tôi có một hướng dẫn cuối cùng tuyệt vời về rel=”canonical” cho bạn thấy mọi thứ cần biết về nó.

Tập trung vào nội dung gốc, tươi mới và có thẩm quyền

Một công cụ khác trong kho vũ khí của bạn để chống lại nội dung trùng lặp, sao chép và không nguyên bản là kỹ năng viết của bạn. Google tập trung vào chất lượng. Nó luôn luôn tìm kiếm những nội dung tốt nhất có thể phù hợp với mục đích của người dùng nhất. Mục tiêu của bạn không phải là kiếm tiền nhanh mà để lại ấn tượng lâu dài. Xem ra cho nội dung mỏng và đảm bảo làm cho nó nguyên bản và chất lượng cao.

Điều tương tự cũng xảy ra với nội dung tương tự trên trang web của bạn. Chúng tôi đã nói về việc ăn cắp từ khóa (keyword cannibalization) trước đây và đây là một phần mở rộng của điều đó. Gấp một số bài viết có thể so sánh thành một có thể đạt được kết quả tốt hơn nhiều, cả về thứ hạng cũng như chống lại nội dung trùng lặp.

Tại đây Google có nội dung hướng dẫn:

“Tối thiểu hóa nội dung tương tự: Nếu bạn có nhiều trang tương tự nhau, hãy xem xét mở rộng từng trang hoặc hợp nhất các trang thành một. Ví dụ: nếu bạn có một trang web du lịch với các trang riêng biệt cho hai thành phố, nhưng cùng một thông tin trên cả hai trang, bạn có thể hợp nhất các trang thành một trang về cả hai thành phố hoặc bạn có thể mở rộng từng trang để chứa nội dung duy nhất về mỗi thành phố”.

Nội dung trùng lặp ở khắp mọi nơi - biết phải làm gì về nội dung đó

Matt Cutts từng nổi tiếng nói rằng 20% đến 30% web bao gồm các nội dung trùng lặp. Mặc dù tôi không chắc những con số này vẫn chính xác; nội dung trùng lặp tiếp tục xuất hiện trên mỗi trang web. Đây không phải là tin xấu. Sửa những gì bạn có thể và không nên thử và biến nội dung trùng lặp và bản sao nội dung và nội dung mỏng thành một chiến lược SEO khả thi.

SeoTheTop, nguồn YoastSeo

>> DOWNLOAD: Bộ tài liệu hướng dẫn tự học và làm SEO trong 9 ngày

Chia sẻ tin này lên

Tin liên quan

Prompt Engineering: Thành phần, Các loại và Ví dụ mẫu lời nhắc dành cho Marketer và Content Creator

Prompt Engineering là quy trình công phu của việc tạo và điều chỉnh hướng dẫn hoặc truy vấn được cung cấp cho các công cụ trí tuệ nhân tạo để tạo ra nội dung cụ thể.

by Seothetop | 29/10/2023

7 Kỹ Năng Cần Thiết cho Nghệ thuật viết Prompt Engineering

Để thiết kế Prompt Engineering tốt bạn cần hiểu biết về nhiều lĩnh vực và tận dụng kỹ năng sáng tạo, giao tiếp, kiến thức chuyên môn về chủ đề, ngôn ngữ, tư duy phản biện và sự sáng tạo.

by Seothetop | 08/10/2023

19 Mẫu Lời nhắc ChatGPT để tạo Content Hữu ích

Khám phá nghệ thuật sử dụng ChatGPT để viết nội dung và copywriting, từ đó nâng cao khả năng sáng tạo của bạn. Seothetop đã thực hiện tạo một số Content sử dụng ChatGPT và cho kết quả khả quan. Hãy cùng khám phá cách sử dụng ChatGPT để tạo nội dung hữu ích.

by Seothetop | 28/09/2023

56 Mẫu Lời nhắc ChatGPT dành cho Chiến lược SEO của bạn

Khám phá gần 60 mẫu lời nhắc ChatGPT dành cho SEO, tìm hiểu cách chúng hoạt động và những lợi ích mà chúng mang lại cho những trang web đang tìm cách cải thiện khả năng hiển thị trực tuyến của mình.

by Seothetop | 26/09/2023

Sử dụng ChatGPT để SEO thống trị cộng cụ tìm kiếm

Khám phá cách sử dụng ChatGPT một cách thông minh trong chiến lược SEO của bạn để thống trị cảnh tìm kiếm. Bài viết này sẽ chỉ bạn cách tận dụng AI để cải thiện hiệu suất SEO của bạn và đạt được kết quả đột phá

by Seothetop | 27/09/2023

Cách Sử dụng ChatGPT để viết Content bài đăng blog/website

Khám phá cách sử dụng ChatGPT, một công cụ trí tuệ nhân tạo, để tạo nội dung sáng tạo và hấp dẫn. Bài viết này hướng dẫn cách tận dụng ChatGPT hiệu quả trong việc viết nội dung cho blog, website, hoặc dự án cá nhân của bạn.

by Seothetop | 27/09/2023

Content AI là gì? Cơ hội và Thách thức của nội dung do AI tạo ra

Ngày nay, Trí tuệ nhân tạo (AI) đã phát triển mạnh mẽ, mang theo nhiều cơ hội và thách thức. AI không chỉ giới hạn trong việc tạo hình ảnh mà còn mở rộng sự ứng dụng đa dạng, từ tạo nội dung văn bản cho đến chatbot thông minh. Tuy nhiên, dù có sự tiến bộ đáng kể, AI vẫn không thể hoàn toàn thay thế

by Seothetop | 09/04/2024

Black Hat SEO: 18 thủ thuật SEO mũ đen rủi ro cần tránh

Hãy cùng Seothetpo khám phá những nhiều liên quan đến SEO Mũ Đen và lý do tại sao hầu hết các chuyên gia SEO nói không với những phương pháp này.

by Seothetop | 18/09/2023

19 Lỗi SEO Kỹ thuật thường gặp và Cách khắc phục

Xem xét 19 lỗi SEO kỹ thuật phổ biến mà ngay cả những người làm chuyên nghiệp cũng thường gặp phải. Hãy khám phá từng lỗi một và khắc phục nó.

by Seothetop | 02/09/2023

Brand Mention là gì? Đề cập thương hiệu có ý nghĩa gì với SEO

Brand mention hay đề cập thương hiệu tích cực có ý nghĩa và mang lại nhiều lợi ích không chỉ riêng SEO nó giúp bạn tăng nhận diện thương hiệu và sự tin tưởng, hãy đọc để tìm cách hưởng lợi nhiều hơn cho cả 2 phía.

by Seothetop | 13/08/2023

Xem thêm