Gradio是一个由 Hugging Face 支持的开源库,它可以帮助创建用户界面,使其他人能够与机器学习系统的各个方面(包括数据集和模型)进行交互。我将 Gradio 与Spaces 结合使用,在几分钟内就将一个应用程序公开发布,而无需设置和管理服务器或托管服务。有关使用 Spaces 的更多信息,请参阅文档。下面,我将展示一些示例,说明如何使用 Gradio 作为界面,将机器学习工具应用于 ARCH 生成的数据。
探索图像
我使用 Gradio 的随机图像选项卡来开始评估数据集中的图像。查看随机图像 电邮数据库 网格可以更好地了解数据集中包含哪些类型的图像。这让我们开始了解该集合中包含哪些内容(例如,艺术品、物品、人物等)。
随机图库的屏幕截图,显示了来自数据集的图像网格。
随机图库的屏幕截图,显示了来自数据集的图像网格。
介绍图像搜索模型
查看馆藏的快照,可以让我们开始探索馆藏中包含哪些类型的图像。我们可以通过实现图像搜索来增强我们的方法。
我们可以采用多种方法来搜索图片。如果图片周围有文字,我们可以用它来代替图片中可能包含的内容。例如,我们可以假设,如果图片旁边的文字包含“一张我的雪狗的照片”,那么图片中就包含一张狗的照片。这种方法有局限性——文字可能缺失、不相关,或者只能捕捉到图片中一小部分内容。“一张我的雪狗的照片”这个文字并不能告诉我们图片中是什么品种的狗,或者照片中是否包含其他内容。
利用嵌入模型提供了另一条前进的道路。嵌入本质上是接受输入(例如文本或图像),然后返回一串数字。例如,文本提示:“一张狗的图像”,将通过嵌入模型传递,该模型将文本“翻译”成数字矩阵(本质上是数字网格)。这些数字的特殊之处在于它们应该捕捉一些关于输入的语义信息;狗图片的嵌入应该以某种方式捕捉图像中有狗的事实。由于这些嵌入由数字组成,我们还可以比较一个嵌入与另一个嵌入,看看它们彼此之间的接近程度。我们期望相似图像的嵌入彼此更接近,而相似度较低的图像的嵌入彼此更远。无需过多探讨其工作原理,值得一提的是,这些嵌入不仅代表图像的一个方面(即其包含的主要对象),还代表其他组成部分,例如其美学风格。您可以在这篇文章中找到关于其工作原理的更详细的解释。
构建用户界面
-
- Posts: 633
- Joined: Sun Dec 15, 2024 3:35 am