Nếu bạn có thể hiểu những gì công cụ tìm kiếm đang tìm kiếm, bạn cần xác định Topic mục tiêu và xếp hạng Content cho các cụm từ tìm kiếm phù hợp nhất

Entity salience là một chủ đề kỹ thuật có ý nghĩa quan trọng đối với cách các công cụ tìm kiếm hiểu nội dung. Khi được thảo luận trong bối cảnh SEO, nó đề cập đến quá trình Google sử dụng học máy để dự đoán những gì người đọc sẽ thấy là những điều quan trọng nhất được đề cập trong một văn bản.

Nếu những người làm việc về SEO và viết quảng cáo có thể hiểu công cụ tìm kiếm đang tìm kiếm gì, chúng tôi sẽ có thể đảm bảo họ xác định chủ đề mục tiêu của mình và xếp hạng Content cho các cụm từ tìm kiếm phù hợp nhất.

Entity Salience là gì?

Hai định nghĩa rất quan trọng để hiểu về Saliencecủa thực thể:

  • Entity: Một thực thể là một thứ có thể xác định được. Nó bao gồm con người, địa điểm, đối tượng, số và khái niệm trừu tượng. Trong ngôn ngữ, chúng thường được gọi bằng danh từ và đại từ (như 'cô ấy' hoặc 'nó'). Nhiều từ có thể đề cập đến cùng một thực thể, tùy thuộc vào ngữ cảnh. Ví dụ, cầu thủ bóng đá người Anh ‘Lucy Bronze’ cũng có thể được gọi là 'defender' hoặc 'she'.
  • Salience: Đây là một khái niệm thể hiện tầm quan trọng của một tính năng ngôn ngữ trong một văn bản lớn hơn. Một tính năng nổi bật có khả năng nổi bật với người đọc hoặc cho thấy chúng quan trọng hơn các từ khác.

Do đó, Salience của thực thể là một số liệu để xác định mức độ mà các thực thể khác nhau nổi bật so với văn bản xung quanh.

Entity là bất cứ thứ gì trong tài liệu được phân biệt và định nghĩa lại tốt hơn

Bộ xử lý ngôn ngữ tự nhiên, được sử dụng bởi các tổ chức như Google để tự động hóa hiểu văn bản, sử dụng công nghệ máy học để dự đoán các thực thể trong một văn bản mà người đọc sẽ thấy là quan trọng.

Công cụ trích xuất thực thể thuận tiện nhất mà các nhà tiếp thị kỹ thuật số hiện đang sử dụng là bản demo của API xử lý ngôn ngữ tự nhiên của Google. Như được hiển thị trong ảnh chụp màn hình bên dưới, công cụ này có thể xử lý văn bản, xác định các thực thể khác nhau và gán cho mỗi điểm số Salience từ 0 tới 1. Điểm số là xác suất của mỗi thực thể là quan trọng nhất trong văn bản.
 

 

Giống như tất cả các mô hình học máy, bộ xử lý ngôn ngữ tự nhiên cung cấp năng lượng cho công cụ này sẽ được đào tạo với dữ liệu được dán nhãn. Các kỹ sư sẽ cung cấp cho nó các văn bản trên quy mô lớn với các thực thể nổi bật được đánh dấu, cho phép cỗ máy tìm hiểu các xu hướng và yếu tố khác nhau từ đó sẽ đưa ra dự đoán về các văn bản không nhìn thấy, không ghi nhãn. 

Chúng ta sẽ đến với những yếu tố cụ thể hơn trong suốt bài viết này.

Tại sao phải chú ý đến chủ đề này bây giờ?

Trình diễn khả năng xử lý ngôn ngữ tự nhiên của Google, bản demo API là dấu hiệu rõ ràng nhất mà chúng tôi nhận thấy cách Google thực sự hiểu một văn bản. Chúng tôi biết rằng các kỹ sư của Google đã quan tâm đến việc phát triển các tính toán salience của thực thể vào đầu năm 2014, nhờ vào một bài báo mà họ phát hành chi tiết về tiến trình ban đầu của họ.

Bài viết đã tập trung vào entity salience. Nó đã sử dụng một loạt các cân nhắc về ngôn ngữ và cơ sở dữ liệu now-deprecated của các thực thể được kết nối, Freebase. API là bằng chứng rõ ràng cho thấy các khả năng của Google hiện đã tiến lên để đối phó với bất kỳ thực thể nào, có thể là một người hoặc một thứ gì đó hoàn toàn khác.

Chúng tôi biết rằng có thể kết nối công nghệ này với tìm kiếm của Google nhờ một tuyên bố trên trang demo: "API ngôn ngữ tự nhiên cung cấp cho bạn cùng một công nghệ học máy sâu, hỗ trợ cả khả năng của Google Search để trả lời các câu hỏi cụ thể của người dùng và hệ thống hiểu ngôn ngữ đằng sau Google Assistant."

Với bản demo theo ý kiến của chúng tôi, SEOs và người tạo nội dung cuối cùng cũng có thể có được cái nhìn tổng quát về cách Google hiểu văn bản. Hơn nữa, nếu chúng tôi có thể sử dụng những hiểu biết đó để cải thiện mức độ nổi bật của các thực thể quan trọng nhất trong Content website của mình, chúng tôi có thể chắc chắn rằng chúng tôi sẽ cung cấp cho Google các biển chỉ dẫn rõ ràng, dễ hiểu đối với các topic mà các trang đó nên xếp hạng.

Salience Entity so với nhắm mục tiêu từ khóa

Các thực thể không phải là từ khóa. Bằng cách mở rộng, salience của thực thể không nhất thiết là việc xem xét nhắm mục tiêu từ khóa. Các thực thể riêng lẻ có thể là từ khóa hoặc chúng có thể là một phần của từ khóa dài hơn.

Mặc dù hầu hết các trang web không nên có nhiều hơn một số từ khóa mục tiêu (các tìm kiếm mà bạn muốn trang xuất hiện nhất), chúng sẽ có đầy đủ các thực thể. Các thực thể là một tính năng phổ biến của ngôn ngữ và không thể được 'nhắm mục tiêu' theo một cách có ý nghĩa.  

Thay vào đó, SEOs có thể sử dụng các công cụ như bản demo API của Google để đảm bảo rằng các thực thể nổi bật nhất trong văn bản của họ là những thực thể có mối liên hệ rõ ràng với các từ khóa mục tiêu của họ

Trong trường hợp từ khóa là một thực thể riêng lẻ, như ‘Nike trainers’ bạn có thể cải thiện trực tiếp mức độ nổi bật của từ khóa mục tiêu của mình. Nếu trang của bạn là một hướng dẫn nhắm mục tiêu ‘best trainers for running a marathon,' các thực thể nổi bật nhất của bạn sẽ là một nhóm những thứ có thể bao gồm các loại trainers, 'marathon,' 'running' và các thuật ngữ liên quan khác.

Tôi không ủng hộ salience của thực thể để thay thế các kỹ thuật SEO On-page đã thử và đúng khác, cũng không nhất thiết phải được coi là một yếu tố xếp hạng. Thay vào đó, theo dõi salience thực thể trong văn bản là một cách để đảm bảo rằng Google sẽ xem xét nội dung cho các điều khoản phù hợp và sẽ nhận ra các chủ đề mà bạn muốn mỗi trang được biết đến.

Một cảnh báo cuối cùng là làm việc trên salience của thực thể sẽ không bao giờ làm giảm chất lượng của văn bản. Tất cả các yếu tố mà Google đang tìm kiếm là các tính năng của văn bản thông thường. Trong một thế giới lý tưởng, các nhà văn nội dung sẽ nội tâm hóa các tính năng của thực thể và tạo ra nội dung của họ để làm cho các công cụ tìm kiếm rõ ràng và thực sự hữu ích cho người đọc

Hãy nhớ rằng, mục tiêu của Google là các thành phần AI tự động hóa việc đọc ở cấp độ con người.

Làm thế nào để cải thiện Salience của các focus topics

Có một số tính năng báo hiệu salience của một thực thể đối với Google. Tầm quan trọng của mỗi loại có thể được thể hiện bằng cách đưa chúng vào bài báo gốc năm 2014 của các kỹ sư hoặc bằng các tín hiệu từ chính bản demo API.

1. Vị trí văn bản & chức năng ngữ pháp

Tầm quan trọng của vị trí văn bản của thực thể được đưa ra bởi một số số liệu liên quan trong bài nghiên cứu và bằng các thử nghiệm đơn giản trong bản demo. Theo lý thuyết ngôn ngữ, vị trí quan trọng nhất trong một đơn vị văn bản là sự khởi đầu. Trong tiếng Anh, phần trước của câu (hoặc mệnh đề) thường là nơi bạn tìm thấy chủ ngữ, đây là thuật ngữ ngữ pháp cho tiêu điểm hoạt động của câu.

Câu nói, “Frodo took the ring to Mordor”, cho thấy cách một công trình đơn giản chuyển thành sự khác biệt rõ ràng về Salience của thực thể:


'Frodo' (0,63) ở đầu câu và cũng là chủ ngữ của động từ, ‘took' bởi vì Frodo đang thực hiện. 'Ring' (0,32) là đối tượng của động từ - điều mà hành động đang được thực hiện - và do đó có tầm quan trọng thứ yếu. Không có gì đặc biệt nổi bật về giữa câu.

Cuối cùng, 'Mordor' (0,06) là một phần của cụm từ giới từ: một thông tin bổ sung cung cấp cho bạn nhiều bối cảnh hơn về hoạt động trong đó 'Frodo' và 'ring' có liên quan. Vì lý do này, sự bao gồm của nó chỉ là bổ sung và cho đến nay nó là thực thể ít nổi bật nhất.

Bạn có thể sử dụng trật tự từ và thủ thuật ngữ pháp để lợi thế nếu bạn muốn tăng cường sự nổi bật của các thực thể cụ thể. Nếu chủ đề trọng tâm (focus topic) của bạn là ring, chứ không phải Frodo, bạn có thể viết lại câu đó là “The ring was taken to Mordor by Frodo”. Ý nghĩa hoàn toàn giống nhau, nhưng salience được chuyển hoàn toàn:

 

Định vị câu không thể tự mình giải thích các điểm số trên, mặc dù đó chắc chắn là một yếu tố. Trong ví dụ thứ hai này, 'Frodo'(0.11) tham gia 'Mordor' (0.15) như một phần của cụm từ giới từ và thấy salience của anh ta giảm theo. ring(0,74) hiện là trọng tâm duy nhất của câu. Bạn có thể sử dụng các chiến thuật tương tự để đảm bảo rằng các thực thể tập trung của bạn được xem là phù hợp nhất.

2. Phụ thuộc ngôn ngữ (Linguistic dependance)

Salience của thực thể đã có một bước tiến vượt bậc trong những năm gần đây, cùng với các ứng dụng xử lý ngôn ngữ tự nhiên khác. Điều này là do sự phát triển của các cơ chế chú ý, cho phép AI hiểu toàn bộ câu. Trước sự phát triển này, AI sẽ xử lý các văn bản theo kiểu tuyến tính, không thể sử dụng bối cảnh sau này để giúp sửa đổi cách hiểu của chúng về các từ trước đó.

Các bộ xử lý như Google giờ đây có thể hiểu các mối quan hệ ngôn ngữ ăn sâu vào điểm số salience. Mối quan hệ chủ ngữ / động từ / đối tượng được đề cập ở trên là một ví dụ đơn giản. Google có thể giải nén tất cả các loại mối quan hệ phức tạp trong bid(giá thầu) của mình để hiểu thực thể nào là quan trọng nhất đối với ý nghĩa của văn bản.

Tab Syntax của bản demo API, được hiển thị trong phần bên dưới với câu, “Frodo took the ring to Mordor, but he couldn’t have done it without the help of Sam,” (Frodo đã đưa chiếc nhẫn cho Mordor, nhưng anh ta không thể làm điều đó mà không có sự trợ giúp của Sam), cho thấy việc xử lý này nằm trong khả năng của Google. Nó cũng cho thấy các chức năng ngữ pháp phức tạp mà Google có thể hiểu được.

 

Chúng tôi thấy Google hiểu một số tính năng ngữ pháp ấn tượng, hầu hết trong số đó dựa vào các phần khác của văn bản để có ý nghĩa. Điều quan trọng, các mũi tên màu xanh lá cây cho thấy các tính năng phụ thuộc vào ý nghĩa của từ khác. Số mũi tên đi ra từ 'took' cho thấy tầm quan trọng của động từ đối với phần thứ hai của câu, điều này bổ sung thêm thông tin cho quá trình động từ mô tả.

Sự phức tạp của câu làm giảm Salience của 'Frodo', nhưng anh ta vẫn là thực thể nổi bật nhất cho đến nay (0,47) nhờ mối quan hệ chủ đề của anh ta với động từ chính. Trong thực tế, tôi đã thấy rằng làm cho các thực thể trở thành trọng tâm của các câu dài hơn là một cách đáng tin cậy để tăng điểm số chung của họ.

3. Các entity tham chiếu

Số lượng tham chiếu cho một thực thể là một yếu tố nổi bật được đề cập trong bài nghiên cứu ban đầu nhưng dường như không mạnh mẽ như vậy. Điều quan trọng, đề cập không tên(unnamed) của thực thể có thể đóng góp vào số lượng đề cập của nó. Miễn là chúng có thể được xác định là cùng một thứ, được đặt tên ('Lucy Bronze'), danh nghĩa ('defender ') và đại từ tham chiếu ('she') sẽ được công nhận là cùng một thực thể.

Một lưu ý quan trọng: không dựa vào số lượng đề cập quá nhiều. Trong tất cả các yếu tố nổi bật, đó là yếu tố có khả năng làm giảm chất lượng văn bản của bạn nếu sử dụng kém. Nếu có mối quan hệ chặt chẽ giữa các thực thể tập trung và từ khóa mục tiêu, bạn cũng có thể gặp rủi ro 'nhồi nhét từ khóa' và làm mất giá trị nội dung của bạn trong kết quả tìm kiếm.

4. Biểu đồ thực thể (entity graph)

Trong bài báo của họ, các kỹ sư của Google Dunietz và Gillick thảo luận về 'entity graph', một cách hiểu về sự kết nối của các thực thể dựa trên cùng các ý tưởng như PageRank. PageRank là một tính năng xác định của Google để đánh giá thẩm quyền của một website dựa trên số lượng và chất lượng của các liên kết trỏ đến nó. Theo cách tương tự, biểu đồ thực thể cho phép AI của Google đánh giá tầm quan trọng của một thực thể trong một văn bản - dựa trên mối quan hệ của nó với các thực thể khác được đề cập.

Ví dụ minh họa Kết nối thực thể với Sơ đồ tri thức

Bài viết sử dụng ví dụ về tên của một thượng nghị sĩ Hoa Kỳ được coi là salience hơn trong các bài báo mà các nhân vật chính trị và các tổ chức chính phủ khác nhau được đề cập. Mặc dù rất khó để kiểm tra nó trong bản demo API, tôi không thể thấy bất kỳ lý do nào khiến Google loại bỏ tính kết nối thực thể như một yếu tố nổi bật trong tìm kiếm không phải trả tiền.

Hành động duy nhất để thực hiện với kiến thức này là đảm bảo rằng các thực thể tập trung của bạn được hỗ trợ bởi đề cập đến các thực thể liên quan chặt chẽ. Trong văn bản tốt, bản sao thông tin này nên đã được trường hợp. Đó là một ví dụ khác về việc Google đang tìm cách thưởng cho nội dung hữu ích.

Hạn chế của công nghệ

Tính hữu dụng của bản demo API xử lý ngôn ngữ tự nhiên làm giảm thời gian bạn nhập văn bản. Không có cách nào để nó xử lý tất cả các tín hiệu được đưa ra trên nhiều phần văn bản, đặc biệt là chúng sẽ bị chia nhỏ bởi các tiêu đề trên trang web.

Đối với các trang sản phẩm, trang dịch vụ và danh mục ngắn, mô tả meta và thậm chí là đoạn văn quảng cáo, bản demo API là một công cụ mạnh mẽ giúp chúng tôi hiểu rõ hơn về trọng tâm của văn bản. Đối với các trang dài hơn, bạn có thể muốn phân tích các phần duy nhất. Ví dụ, có thể hữu ích để phân tích đoạn đầu tiên, đây sẽ là một phần quan trọng của văn bản cho các yếu tố xếp hạng khác.

Phân tích salience của thực thể cũng không nên thay thế các thực tiễn tốt nhất về SEO hoặc copywriting tốt. Bản demo API cung cấp cho chúng tôi thông tin có thể giúp chúng tôi tạo nội dung thân thiện với SEO, nhưng mục tiêu của Content đó phải luôn là thu hút người dùng.

Hiện tại, rất khó để mở rộng quy mô sử dụng phân tích thực thể được cung cấp bởi bản demo API. Nó chỉ có thể ghi một văn bản tại một thời điểm và bạn không thể xuất kết quả. Điều này được mong đợi, vì nó chỉ là một bản demo, không phải là một công cụ như vậy.

Tôi đã tìm thấy bản demo hữu ích nhất để kiểm tra các thay đổi tôi đang thực hiện trên trang theo từng trang hoặc để phân tích một số trang của đối thủ cạnh tranh để xem liệu chúng có được xem là phù hợp hơn so với khách hàng của tôi không (như thường thấy với các trang được xếp hạng cao hơn). Tôi đã thấy những cải tiến xếp hạng từ khóa tốt nhất khi thực hiện các chỉnh sửa nổi bật cho các trang đã được xếp hạng trong top 10, vì các kỹ thuật SEO được thiết lập nhiều hơn là chất xúc tác mạnh mẽ hơn cho những thay đổi quan trọng hơn.

Nếu phân tích salience thực thể là một tính năng của một công cụ tiêu chuẩn ngành SEO, tôi hy vọng việc sử dụng nó sẽ trở nên phổ biến hơn và có thể mở rộng hơn. Như bây giờ, nó đại diện cho một cơ hội cho các copywriter có tư duy tiến bộ để hiểu được cách Google hiểu công việc của họ.

SeoTheTop, Nguồn: smartinsights