防止 WordPress 中博客内容抓取的初学者指南
您是否正在寻找一种方法来防止垃圾邮件发送者和诈骗者使用内容抓取工具窃取您的 wordpress 博客文章?
作为网站所有者,看到有人未经许可窃取您的内容,将其货币化,在 Google 中排名超过您,并窃取您的受众,这是非常令人沮丧的。
在本文中,我们将介绍什么是博客内容抓取、如何减少和防止内容抓取,甚至如何利用内容抓取器为自己谋取利益。
博客内容抓取是指从多个来源获取内容并在另一个网站上重新发布。通常,这是通过博客的 RSS feed自动完成的。
不幸的是,您的WordPress 博客内容以这种方式被盗是非常容易且非常常见的。如果它发生在你身上,那么你就会明白它是多么的压力和令人沮丧。
有时,您的内容将被简单地复制并直接粘贴到另一个网站,包括您的格式、图像、视频等。
其他时候,您的内容将在未经您许可的情况下重新发布,并注明出处和返回您网站的链接。虽然这可以帮助您的 搜索引擎优化,但您可能只想将原始内容保留在您的网站上。
为什么内容抓取者会窃取内容?
我们的一些用户问我们为什么抓取工具会窃取内容。通常,内容盗窃的主要动机是从您的辛勤工作中获利:
- 联盟佣金:不诚实的联盟营销人员可能会使用您的内容通过搜索引擎为他们的网站带来流量,以推广他们的利基产品。
- 潜在客户开发:律师和房地产经纪人可能会花钱请人添加内容并在社区中获得权威,但没有意识到这些内容正在从其他来源被窃取。
- 广告收入:博客所有者可能会抓取内容,以“为了社区的利益”在某个特定领域创建知识中心,然后在网站上贴上广告。
是否可以完全防止内容抓取?
在本文中,我们将向您展示可以采取的一些步骤来减少和防止内容抓取。但不幸的是,没有办法完全阻止顽固的小偷。
这就是为什么我们在这篇文章的最后一节介绍了如何利用内容抓取工具。虽然您无法始终阻止小偷,但您也许可以通过他们从您那里窃取的内容获得一些流量和收入。
当您发现有人抄袭您的内容时该怎么办?
由于不可能完全阻止抓取工具,因此有一天您可能会发现有人正在使用他们从您的博客中窃取的内容。您可能想知道发生这种情况时该怎么办。
以下是人们在处理内容抓取工具时采取的一些方法:
- 什么也不做:您可能会花费大量时间与爬虫作斗争,因此一些受欢迎的博主决定什么也不做。谷歌已经将知名网站视为权威,但对于较小的网站而言并非如此。因此,我们认为这种方法并不总是最好的。
- 删除:您可以联系抓取者并要求他们删除内容。如果他们拒绝,那么您将提交删除通知。您可以在我们的指南中了解如何轻松查找和删除 WordPress 中被盗的内容。
- 利用优势:虽然我们积极致力于将从 WPBeginner 抓取的内容撤下,但我们也使用一些技术来获取流量并从抓取工具中赚钱。您可以在下面的“利用内容抓取器”部分了解如何操作。
话虽如此,让我们来看看如何防止 WordPress 中的博客抓取。由于这是一本综合指南,我们提供了一个目录以便于导航:
- 您的博客名称和徽标的版权或商标
- 让您的 RSS 提要更难抓取
- 禁用 Trackback 和 Pingback
- 阻止爬虫访问您的 WordPress 网站
- 防止 WordPress 中的图像被盗
- 阻止手动复制您的内容
- 利用内容抓取器
商标和版权法保护您的知识产权、品牌和业务免受许多法律挑战。这包括非法使用您的受版权保护的材料或您的品牌名称和徽标。
您应该在您的网站上清楚地显示版权声明。虽然您的内容自动受版权法保护,但显示通知会让您知道您的内容受版权保护,并且他们不能将您受保护的财产用于商业目的。
例如,您可以将带有动态日期的版权声明添加到 WordPress 页脚。这将使您的版权声明保持最新。
这可能会阻止某些用户窃取它。如果您确实需要发送停止函或提交 DCMA 投诉以删除被盗内容,它也会有所帮助。
您还可以在线申请版权登记。这个过程可能很复杂,但幸运的是,有低成本的法律服务可以帮助小企业和个人。
在我们的指南中了解如何为您的博客名称和徽标注册商标和版权。
2. 让你的 RSS Feed 更难抓取由于博客内容抓取通常是通过博客的 RSS 源自动完成的,因此让我们看一下可以对源进行的一些有用的更改。
不要在 WordPress RSS 源中包含完整的帖子内容
您可以在 RSS 源中仅包含每篇文章的摘要,而不是完整内容。这包括摘录以及帖子元数据,例如日期、作者和类别。
博客社区中肯定存在关于是否拥有完整 RSS 提要或摘要提要的争论。我们现在不会讨论这个问题,只是想说,只有摘要的优点之一是它有助于防止内容抓取。
您可以通过转到WordPress 管理面板中的设置 » 阅读来更改设置 。您需要选择“摘录”选项,然后单击“保存更改”按钮。
现在,RSS 源将仅显示您文章的摘录。如果有人通过您的 RSS 源窃取您的内容,那么他们只会获得摘要,而不是完整的帖子。
如果您想调整摘要,那么您可以查看我们关于如何自定义 WordPress 摘录的指南。
优化您的 RSS 提要以防止抓取
您还可以通过其他方法来优化 WordPress RSS 源,以保护您的内容、获得更多反向链接、增加网络流量等等。最好的方法之一是延迟帖子出现在 RSS 提要中。
这样做的好处是,当您延迟帖子出现在 RSS 提要中时,您可以让搜索引擎有时间在您的内容出现在其他地方(例如爬虫网站)之前对您的内容进行爬网和索引。然后搜索引擎会将您的网站视为权威网站。
最安全、最简单的方法是使用WPCode ,因为它有一个方法可以自动将正确的自定义代码添加到 WordPress 中。
有关详细说明,请参阅有关如何延迟帖子出现在 WordPress RSS 源中的指南。
3. 禁用 Trackbacks、Pingbacks 和 REST API在博客的早期, 引用引用和 pingback 是博客相互通知链接的一种方式。当有人链接到您博客上的帖子时,他们的网站会自动向您的网站发送 ping。
然后,此 pingback 将出现在您博客的 评论审核 队列中,并带有指向其网站的链接。如果您批准,他们就会从您的网站获得反向链接和提及。
这会激励垃圾邮件发送者抓取您的网站并发送引用。幸运的是,您可以禁用 trackback 和 pingback,从而减少抓取者窃取您内容的理由。
有关更多信息,请查看我们关于禁用所有未来帖子的引用的指南。您可能还想了解如何禁用现有 WordPress 帖子的引用和 ping。
禁用 WordPress REST API
除了 trackback 和 pingback 之外,我们还建议禁用 WordPress REST API,因为它可以让垃圾邮件发送者更轻松地抓取您的内容。
我们有关于如何禁用 WordPress REST API 的详细指南。
您所需要做的就是安装并激活免费的 WPCode 插件,并使用其预制片段来禁用 REST API。
4.阻止爬虫访问您的 WordPress 网站阻止抓取工具窃取您的内容的一种方法是取消他们对您网站的访问权限。您可以通过阻止其 IP 地址来手动执行此操作,但大多数用户会发现使用安全插件(例如 Web 应用程序防火墙)更容易。
使用安全插件阻止抓取工具(推荐)
手动阻止刮刀非常棘手且需要大量工作。特别是因为许多黑客尝试和攻击都是使用来自世界各地的各种随机 IP 地址进行的。要跟上所有这些随机 IP 地址几乎是不可能的。
这就是您需要Web 应用程序防火墙(WAF)(例如Wordfence 或 Securi)的原因。它们通过监控您的网站流量并在常见的安全威胁到达您的 WordPress 网站之前阻止它们,充当您的网站和所有传入流量之间的屏障。
对于 WPBeginner 网站,我们使用 Sucuri。它是一种网站安全服务,可使用网站应用程序防火墙保护您的网站免受此类攻击。
基本上,您的所有网站流量都会经过安全服务的服务器,并在其中检查是否存在可疑活动。它们会自动阻止可疑 IP 地址完全访问您的网站。了解 Sucuri 如何 帮助我们 在 3 个月内阻止 450,000 次 WordPress 攻击。
手动阻止或重定向抓取工具的 IP 地址
高级用户可能还希望手动阻止抓取工具的 IP 地址。这需要更多工作,但是一旦您了解了抓取工具的地址,您就可以专门针对它。Web 开发人员Jeff Star在撰写有关如何处理内容抓取工具的文章时建议采用这种方法。
注意: 向网站文件添加代码可能很危险。即使是一个小错误也可能会导致您的网站出现重大错误。这就是为什么我们只向高级用户推荐此方法。
您可以通过访问WordPress 托管帐户的 cPanel 仪表板中的“原始访问日志”来查找抓取工具的 IP 地址 。您需要查找请求数量异常高的 IP 地址并记录它们,例如将它们复制到单独的文本文件中。
提示:您需要确保最终不会阻止您自己、合法用户或搜索引擎访问您的网站。复制看起来可疑的 IP 地址并使用在线 IP 查找工具 来了解更多信息。
一旦您确信该 IP 地址属于抓取工具,您就可以使用 cPanel“IP Blocker”工具或通过在根.htaccess文件中添加如下代码来阻止它:
最好的部分是这些横幅也会出现在抓取工具的网站上。
在我们的例子中,我们总是在 RSS 源的帖子底部添加一些免责声明。通过这样做,我们可以从爬虫网站获得原始文章的反向链接。
这让谷歌和其他搜索引擎知道我们是权威。它还让他们的用户知道该网站正在窃取我们的内容。
有关更多提示,请查看我们有关 如何在 WordPress 中控制 RSS 源页脚的指南。
我们希望本教程能帮助您了解如何防止 WordPress 中的博客内容被抓取。您可能还想查看我们的终极 WordPress 安全指南或专家精选的WordPress 最佳分析解决方案。
以上就是防止 WordPress 中博客内容抓取的初学者指南的详细内容,更多请关注知识资源分享宝库其它相关文章!