借助互联网档案馆 API 帮助 Getty.edu 摆脱 404 困境

bitheerani93 · Post by **bitheerani93** » Sat Jul 05, 2025 6:11 am

这是保罗盖蒂信托基金会 (J. Paul Getty Trust) 的 Teresa Soleau (数字保存经理)、Anders Pollack (软件工程师) 和 Neal Johnson (高级 IT 项目经理) 的客座文章。

项目背景
盖蒂通过其组成项目——盖蒂保护研究所、盖蒂基金会、保罗盖蒂博物馆和盖蒂研究所——在洛杉矶和世界各地履行其使命，服务于广大公众和广泛的专业团体，通过对视觉艺术的理解来促进充满活力的公民社会。

2019年，盖蒂图片社启动了网站重新设计项目，旨在改商城变技术栈，并更新我们与线上社区互动的方式。旧网站包含超过19,000个网页，我们知道其中许多网页已经不再有用或相关，应该淘汰，或许可以先存档。这促使我们利用互联网档案馆的Archive-It服务收集的内容。

我们从 2017 年开始抓取网站数据，但更多地将其视为机构随时间推移而变的记录，而非页面删除后可供查阅的存档资源。我们需要将流量引导至 Wayback Machine 抓取的数据，以确保用户请求已弃用的 URL 时，已删除的页面仍然可访问。我们决定在网站的404 错误“页面未找到”页面中动态显示指向已存档页面的链接。

Getty.edy 404页面
Getty.edu 404 错误“页面未找到”消息包括动态生成的说明和 Internet Archive 页面链接。
审核所有现有页面的项目要求我们向全机构的内容所有者普及网络存档的实践和目的。我们开发了对大量已采集内容进行人工审核的流程。这项工作在2021年数字保存联盟的一篇博客文章中有更详细的描述，其中提到了我们制定的网络档案收集政策。

在这篇博文中，我们将讨论使用 Internet Archive 的数据 API 在我们的 404 页面上添加必要的链接所需的工作，该链接指向最近由 Wayback Machine 捕获的已删除页面。