Thứ Sáu, 7 tháng 3, 2014

Nội dung trùng lặp là gì?

Chúng ta đều biết nội dung trùng lặp là không tốt. Nhưng nội dung trùng lặp là gì? Và tại sao nó lại không tốt?
Để hiểu đầy đủ về vấn đề này, chúng ta cần phải xem xét điều này không phải từ ngữ cảnh của một người sở hữu trang web, mà đúng hơn là từ quan điểm của một công cụ tìm kiếm đang cố gắng cung cấp một trải nghiệm tốt nhất có thể cho các người dùng. Từ quan điểm chính này mà sau đó chúng ta có thể đưa ra các nguyên tắc để xem xét việc này có thể ảnh hưởng như thế nào đến một trang web và lưu lượng truy cập tự nhiên của nó .



Tìm hiểu nội dung trùng lặp


Đây là một bài viết cơ bản nên chúng ta sẽ làm cho mọi thứ thật đơn giản (hoặc ít nhất là đơn giản như bất cứ điều gì có thể có được trong quá trình SEO):

Nội dung trùng lặp là nội dung xuất hiện nhiều hơn một địa điểm trên Internet.

Nội dung trùng lặp vốn dĩ không có gì là sai trái.

Hãy lấy ví dụ về một bài viết nói về các đồ dùng do Bill viết tại trang abcwidgets.com. Tôi đọc trang xyzwidgets.com và thực sự thích bài viết này. Với sự cho phép của Bill, tôi sao chép bài viết về site mình và cung cấp nguồn tài liệu tham khảo thích hợp. Điều này có gì sai trái? Về mặt pháp lý, đạo đức, và thậm chí từ một quan điểm kinh doanh? Chẳng có gì sai cả .

Trong ví dụ này, tôi đã quyết định nội dung đó là rất hữu ích và tôi muốn chia sẻ nó với những khách hàng truy cập của mình, nhưng muốn giữ chúng trên site của tôi. Nhưng chuyện gì xảy ra khi tôi xem xét cùng một kịch bản từ quan điểm của một công cụ tìm kiếm?

Một câu hỏi sau đó đã được đặt ra, bài nào của hai bài báo trên xứng đáng để xếp hạng và làm thế nào mà công cụ tìm kiếm biết được?

Có nhiều yếu tố liên quan ở đây – lượng nội dung bị trùng lặp trên trang gốc và trên một site khác là toàn bộ, sức mạnh tương đồng của các site, và bản sao nào được nhìn thấy đầu tiên. Nhưng cốt lõi ở đây, tôi luôn cho rằng yếu tố cuối cùng (việc nhìn thấy đầu tiên) sẽ được công nhận. Không phải lúc nào cũng như vậy, nhưng nếu chúng ta phải chọn theo kinh nghiệm thì điều này lại đúng.

Vậy thì điều gì xảy ra với site của tôi có trang bị trùng lặp nội dung?
• Công cụ tìm kiếm sẽ không xếp hạng trang đó.
• Chất lượng của trang đó sẽ không đáng kể.
• Điểm cho site có nội dung gốc như là một nguồn tin cậy về chất lượng, nội dung duy nhất sẽ được đăng ký.

Giờ đây, điều này có vẻ không công bằng nhưng chúng ta phải nhớ rằng trong ví dụ trên không phải bao gồm tất cả mọi thứ mà các công cụ tìm kiếm phải đối phó. Chúng ta sẽ thảo luận bên dưới một vài vấn đề về nội dung trùng lấp mang tính "đạo đức" phổ biến hơn nhưng điều quan trọng cần lưu ý đó là không phải tất cả các chiến lược đã được sử dụng đều vì lợi ích tốt nhất của người tìm kiếm hoặc thậm chí là khách truy cập.

Toàn bộ mạng lưới các trang web đã được tạo ra chỉ tập trung sao chép nội dung được tìm thấy trên các trang web khác với hy vọng giành được lưu lượng tìm kiếm. Chúng không được tạo ra để làm tăng thêm giá trị và nhìn chung là không có .

Để đối phó với tất cả những vấn đề này, các công cụ tìm kiếm đã phải điều chỉnh cách đánh giá nội dung trùng lặp. Hãy nhớ rằng, chúng phải sử dụng thuật toán, và các thuật toán không giỏi tạo ra những ngoại lệ .

Vì vậy, cần biết rằng chúng ta không phải ở đây để tranh luận với các công cụ tìm kiếm về việc bên nào đúng và biết rằng dù đúng hay sai cũng không kiếm được cho bạn lưu lượng truy cập trong hoàn cảnh này, chúng ta cần phải đảm bảo rằng ngay cả khi chúng ta đang làm những gì đúng đắn đối với các khách hàng truy cập của mình, thì việc đó không thể bị nhầm lẫn với một điều gì đó ngược lại. May mắn thay có những phương pháp để đối phó với sự đa dạng của các loại nội dung trùng lặp. Vì vậy, hãy cùng nhau tìm hiểu chúng.

Ở đây chúng ta sẽ xem xét các loại nội dung trùng lặp phổ biến nhất và thảo luận làm thế nào để giải quyết chúng và điều này có ý nghĩa gì đối với người sở hữu site.

Các trang sao chép


Tình huống: Hãy bắt đầu với ví dụ mà chúng tôi đề cập đến ở trên. Tôi là một người sở hữu site và tìm thấy một nội dung rất hay trên một trang site khác mà tôi muốn chia sẻ trên site của tôi.

Vấn đề: Vấn đề mà bạn sẽ phải đối mặt là nội dung này sẽ bị đánh giá không hay về site của bạn và có thể góp phần làm giảm chất lượng điểm domain tổng thể.

Cách khắc phục: Một domain gắn thẻ canonical là cách sửa chữa duy nhất ở đây. Bạn sẽ cần phải thêm một thẻ canonical vào trang để chỉ ra nguồn gốc của nội dung là của một trang khác. Cú pháp như sau:

<link rel="canonical" href="http://www.abcwidgets.com/copied-article.html"/>

Điều này sẽ cho các công cụ biết rằng bạn biết bài viết được sao chép, nó được cố tình đặt trên site của bạn và tất cả trọng số các liên kết đến trang này sẽ đó chuyển sang trang gốc của bài viết.

Nhược điểm: Tất cả trọng số liên kết sẽ được chuyển sang trang gốc của bài viết. Pagerank có thể vì thế mà giảm theo. Tuy nhiên, nếu nội dung hữu ích cho khách hàng truy cập của bạn và sau đó thời gian họ lưu lại site tăng lên và sự trung thành của khách hàng sẽ vượt qua bất kỳ sự giảm sút nào của PageRank.

Thông tin sản phẩm trùng lặp


Tình huống: Bạn chạy một site thương mại điện tử bán các đồ dùng từ nhiều nhà sản xuất. Các nhà sản xuất cung cấp cho bạn thông tin sản phẩm (các tiêu đề, mô tả, thông số kỹ thuật và hình ảnh) để đăng bài trên site của bạn.

Vấn đề: Các nhà sản xuất cũng cung cấp các thông tin giống nhau cho những người đang bán sản phẩm của họ.

Cách khắc phục: Trong khi các thông số kỹ thuật vẫn giống nhau và sự trùng lặp có thể được chấp nhận trên nhiều site, bạn cũng cần những thông tin dành riêng cho site của mình. Điều này nói chung sẽ liên quan việc viết thông tin mô tả sản phẩm mới, chụp các hình ảnh mới, và thêm nội dung duy nhất cho site của bạn: chẳng hạn như những bài viết đánh giá.

Các Nhược điểm: Nhược điểm duy nhất ở đây là thời gian. Phải mất rất nhiều thời gian để viết các mô tả sản phẩm do khách hàng đặt mua, nhưng nếu việc này không đáng bỏ thời gian để viết, thì có một điều phải tự hỏi, có đáng để đưa sản phẩm đó lên site của bạn hay không (ví dụ, nếu tỷ lệ hoàn vốn - ROI quá thấp, sản phẩm đó thực sự sẽ mang lại lợi nhuận?)

Sau đây là một thông tin đáng tin cậy từ Matt Cutts của Google nói chính xác về chủ đề này:

Sự phân loại và các danh sách sản phẩm trên nhiều trang 


Tình huống: Bạn chạy một site thương mại điện tử và site đó có những lựa chọn phân loại tạo ra các URL duy nhất hoặc nhiều trang sản phẩm cốt lõi giống nhau. Một ví dụ về điều này là eBay, website có một số lượng lớn các trang sản phẩm mà trong đó hầu hết danh mục sẽ thay đổi theo đơn đặt hàng (hoặc các sản phẩm trong danh sách) tùy thuộc vào danh sách được đặt hàng như thế nào hoặc bạn đang ở trang nào của danh mục.

Vấn đề: Nếu bạn có một trang với 20 mặt hàng và một URL khác được tạo ra khi những mặt hàng đó được phân loại theo giá, ví dụ như sắp xếp ngược thứ tự chữ cái, sau đó cuối cùng về cơ bản bạn có 2 trang có cùng một nội dung với các URL khác nhau.

Cách khắc phục: Một lần nữa, giải pháp ở đây là thẻ canonical. Đối với mỗi trang là một trang phụ của URL danh mục ban đầu, bạn sẽ thêm thẻ canonical vào URL danh mục ban đầu. Điều này sẽ đảm bảo rằng các công cụ tìm kiếm không tìm nội dung trùng lặp và hơn nữa  đảm bảo trọng số liên kết được chuyển đi theo hướng chính xác.

Các Nhược điểm: Trường hợp này không có nhược điểm. Theo cách giải quyết trên, chiến lược này cũng sẽ đảm bảo rằng bất kỳ trọng số liên kết nào chuyển đến các trang phụ theo cách lựa chọn phân loại (hoặc từ các liên kết bên ngoài) sẽ được chuyển lại cho các trang danh mục cốt lõi dẫn đến một trang đích mạnh hơn.

www - non www và các trang chủ trùng lặp


Tình huống: Site của bạn có thể được tìm thấy ở cả hai URL www và non www (ví dụ www.abcbluewidets.com và abcbluewidets.com) và/ hoặc trang chủ của bạn có thể được tìm thấy ở trang gốc (www.abcbluewidets.com) và trang trong (www.abcbluewidgets.com/index.html).

Vấn đề: Điều này có thể tạo ra vấn đề nội dung trùng lặp và làm cho các liên kết dẫn đến “sai” địa chỉ URL và không được công nhận trên site bạn mong muốn.

Cách khắc phục: Trong khi một thẻ canonical sẽ sửa lỗi này, cách tốt hơn là khai báo 301 và chuyển hướng vĩnh viễn đến địa chỉ thích hợp. Điều này sẽ đảm bảo tất cả các yêu cầu đều chuyền nguồn đến một địa chỉ giống nhau.
Các máy chủ khác nhau có phương pháp khác nhau để hoàn thành việc này. Vì có nhiều vấn đề khác nhau mà bạn muốn hoàn thành (chuyển hướng index.html về địa chỉ gốc và đơn giản vào trang chủ chẳng hạn), bạn có thể truy cập http://www.seobook.com/archives/001714.shtml. Hầu hết các mã code có thể được tìm thấy ở đó.
Các mã code này dành cho các máy chủ Apache. Nếu trang web của bạn được lưu trữ trên một máy chủ Windows, tôi khuyên bạn nên nói chuyện với quản trị hệ thống vì điều này sẽ yêu cầu truy cập IIS đối với các chức năng cao hơn.

Nhược điểm: Có một lượng nhỏ các liên kết đó mất đi thông qua việc chuyển hướng 301 về trang mục tiêu nên làm giảm trọng số liên kết. Vì lý do đó, ngay cả với tất cả các thẻ canonical và thực hiện báo 301, điều quan trọng là phải đảm bảo rằng tất cả các liên kết nội bộ hoặc các liên kết bạn tạo ra luôn chuyển đến chính xác URL mong muốn.

Kết luận


Miễn là bạn đang nhận thức được các vấn đề về trùng lặp nội dung thì không có gì phải e ngại. Trùng lặp nội dung xảy ra rất nhiều, và Google biết điều đó.

Giải quyết nội dung trùng lặp sẽ giúp đảm bảo trọng số liên kết chuyển đi một cách hiệu quả thông qua site của bạn với việc ưu tiên cho các trang chính xác.

Trong khi việc sửa lỗi có thể tốn nhiều thời gian, nhưng nói chung là đáng để làm. Sửa chữa các vấn đề trùng lặp nội dung có thể tạo ra một vài tỷ lệ hoàn vốn ROI cao nhất từ khía cạnh thời gian khách hàng truy cập.

1 nhận xét: