神奇宝贝百科:机器读取守则

来自神奇宝贝百科

 这篇文章讲述的是。如果您在寻找使用机器人用户组账号时遵守的规范,请移步机器人使用守则

机器读取守则是指使用自动化程序请求读取神奇宝贝百科的内容所要遵循的规范,包括搜索引擎蜘蛛,或出于备份、研究、创作衍生作品等目的读取神奇宝贝百科。基于创作共用协议,神奇宝贝百科允许在服务器和CDN等资源容许的条件下进行机器读取。

版权要求

在利用神奇宝贝百科时,您必须遵守署名-非商业性使用-相同方式共享 3.0的许可协议要求。尤其是不得将神奇宝贝百科内容用于营利目的。您不得为您的衍生作品收费、或在衍生作品中添加商业广告。如果您的衍生作品的主体属于企业组织,请通过邮件向神奇宝贝百科提交书面申明,确认该作品不会用于营利目的。您需要标注内容来源神奇宝贝百科,并不得利用神奇宝贝百科为您的使用背书。

如果您使用神奇宝贝百科的内容训练机器学习模型,同样需要遵守非商业性使用的要求,不得将模型用于营利目的;除非您所在的司法管辖区有明确法规允许,使用包含神奇宝贝百科内容训练的模型的生成的衍生作品同样不能用于营利目的。如果衍生作品并非主要由机器生成,仅使用模型进行优化(包括翻译获得授权的原创作品),则可不受此限制。

读取规范

  • 您必须遵守 robots.txt 协议要求。
  • 您必须在 HTTP 请求头中通过 User-Agent 参数指定您的应用程序名称和版本,未指定 User-Agent 使用通用的 HTTP 或 MediaWiki 组件可能会被封禁;机器读取时使用和浏览器完全相同的无法识别的 User-Agent 会导致 IP 或 IP 所在区块被封禁。
  • 不得并行读取神奇宝贝百科,连续请求必须等待上一请求完成,并且间隔时间须超过 500 毫秒。
  • 您可以读取页面 HTML 文本或源代码,读取页面 HTML 文本时,请不要使用登录用户的 Cookies,仅通过 /wiki/zh/zh-hans/zh-hant 开头的路径,并且不添加任何查询参数(URL 中 ? 及之后的部分),以尽可能命中缓存;缓存命中率低会导致神奇宝贝百科无法响应。除已申请的机器人账号外,禁止使用 action=parse MediaWiki API 读取渲染后的页面内容。
  • 读取源代码时,请使用 MediaWiki Revisions API,并且仅读取最新版本的文章内容。
  • 下载神奇宝贝百科附件时,仅允许下载源文件或页面中已使用的缩略图版本,禁止下载历史版本。禁止并行下载,且下载速度不得超过 1MB/s,每小时下载的附件大小不得超过 1GB。请利用本地缓存,禁止在24小时内重复下载同一附件内容。
  • 如果需要连续读取超过 500 篇文章或附件,请利用神奇宝贝百科访问低峰期(UTC 时间 18:00 至 23:59 或东8区时间 02:00 至 07:59)。

机器读取的封禁

  • 违反读取规范的行为,您的 User-Agent 或 IP 地址会被封禁,封禁后会响应 HTTP 403 状态码。
  • 变更或伪装 User-Agent 绕过封禁会被立即封禁,或导致 IP 所在区块被封禁。
  • 变更 IP 地址绕过封禁、或使用多个 IP 并行读取,会导致 IP 所在区块被封禁。
  • 未违反读取规范的情况下,因缓存命中率低、处于访问高峰期等原因导致神奇宝贝百科稳定性下降时,您的 User-Agent 或 IP 地址可能会被临时封禁,相关影响解除后会解除封禁。
  • 如因违反读取规范的行为(例如拒绝服务攻击)导致神奇宝贝百科受到严重损失,百科有权向您使用的网络运营商和执法部门报告,您可能需要承担相应法律责任。