内容重复的界定
内容重复指在不同域名的网站上有相同或非常相似的内容网页,一些网站为了操纵搜索引擎排名,获得更多流行或长尾查询的访问量,大量复制其他网站的内容。
Google的翻译功能,不会把有着相同内容的英文版和西班牙文版看作内容复制。小片段的文章引用也不会被认定为重复内容。
Google希望看到各种原创内容。
Google 在抓取网页和获得搜索结果时,总是力图索引并显示内容不同的页面。这种过滤意味着,譬如说,如果你的网站有文章的正常版和打印版,并且你没有在 robots.txt 里设定 noindex 标记,谷歌就只会选择一个版本显示给谷歌用户。对于企图利用复制内容来操控排名,欺骗谷歌用户的少数情况,我们会对相关页面的索引和排名作出适当调整。当然,我们更愿意把重点放在过滤而不是排名调整上,因此,最坏的结果就是原创者看到了不愿看到的版本出现在我们的索引里。
网站管理员主动处理内容复制
* 适当阻止搜索引擎访问:与其让我们的算法来确定一个文件的“最佳”版本,你也许希望指引谷歌选取你的首选版本。如果你不想我们索引你网站文章的打印版,你可以在你的 robots.txt 文件中写上目录名或正则表达式来禁止谷歌对那些打印版的抓取。
* 使用 301 重定向:如果你已经重构你的网站,请在你的原网站的 .htaccess 中使用 301 重定向(永久性重定向)来重定向你的用户、Google 爬虫以及其他搜索引擎蜘蛛等。
* 链接要一致:努力使你的内部链接保持一致, 不要既有 /page/ ,又有 /page 和 /page/index.htm 的内部链接。
* 使用顶级域名:为了让我们总是使用最合适的文件版本,请尽可能使用国家特定的顶级域名。与诸如 example.com/de 或 de.example.com 的 URL 相比,谷歌肯定更清楚地知道 example.de 是以德文为核心的内容。
* 小心辛迪加式的联合供文:如果你为其他网站上也提供你的内容,请在每一个其他网站的文章中包括连回原文章的链接。注意:即使是这样,对一个查询,谷歌总是显示我们认为是最适合的(没被网站禁止的)版本,它可能是也有可能不是你所想要的版本。
* 使用谷歌网站管理员工具的首选域功能: 如果其他网站链接你的 URL时 既使用 www 版本又使用无 www 的版本,你可以用谷歌网站管理员工具让我们知道你想要哪种索引方式。
* 减少模板网页上的重复内容,比如:版权声明可以1)在每页底部;2)设立一个专门的版权详细声明页。
* 避免发布无内容页:用户不喜欢看到无实际内容的页面,要尽量避免空架页。以房地产网页为例,不要发布(或至少要阻止)没有点评的点评网页,或者没有房地产列表的房地产罗列网站等。只有这样,网站用户(以及 Google 爬虫)才不会看到无穷多的写着“以下是在【某城市名】中不可错失的待租房列表……”但其实根本没有什么列表的网页。
* 了解你的内容管理系统(CMS),确保熟悉网站的内容。
* 被人拷贝了内容,虽然很恼人,但不必生气。实在忍无可忍的话,可以向Google检举。