CVPR 24年度最佳论文！千万级数据集解析：BioCLIP——揭秘生命之树的视觉基础模型

发布时间：2024-10-22浏览：48

很多朋友对于CVPR 24年度最佳论文！千万级数据集解析：BioCLIP——揭秘生命之树的视觉基础模型和不太懂，今天就由小编来为大家分享，希望可以帮助到大家，下面一起来看看吧！

数字图像和计算机视觉正迅速成为研究自然界的普及工具，从进化生物学到生态学和生物多样性。将来自博物馆、相机陷阱和公民科学平台的大量图像快速转化为可执行信息（如物种分类、个体识别和特征检测）的能力，加速了物种划定、适应机制理解、种群数量和结构估计以及生物多样性监测和保护等任务的新进展。

然而，将计算机视觉应用于回答生物学问题仍然是一项艰巨的任务，需要大量的机器学习专业知识和努力——生物学家必须手动为感兴趣的特定分类群和任务标记足够的数据，并为任务找到和训练合适的模型。

与此同时，基础模型（如CLIP和GPT-3）通过实现广泛任务的零次或少数样本学习而变得极其有价值。对于生物学来说，一个类似的视觉基础模型应该对整个生命树上的任务有用，而不仅仅是它训练过的分类群。这样的模型将显著降低将AI应用于生物学的门槛。

在这项工作中，我们旨在为生命之树开发这样的视觉基础模型。为了使该模型对现实世界中的生物学任务具有广泛的适用性，该模型应满足以下标准。首先，它应尽可能推广到整个生命之树，以确保支持研究许多不同分支的研究人员，而不仅仅是某个特定领域。此外，收集涵盖数百万已知物种的训练数据是不可行的，因此该模型必须能够泛化到训练数据中不存在的物种。其次，它应该学习生物图像的细粒度表示，因为生物学经常涉及在视觉上相似的生物体，如同一属内的近缘物种或为了生存优势而模仿其他物种外观的物种。这种细粒度粒度至关重要，因为生命之树将生物分为广泛的类别（动物、真菌和植物）和非常细粒度的类别。最后，由于生物学中数据收集和标注的成本高昂，在低数据领域（即零次学习或少量学习）下表现出色是至关重要的。虽然泛化、细粒度分类和数据效率的目标在计算机视觉中并不新鲜，但现有在数亿张图像上训练的通用视觉模型在应用于进化生物学和生态学时存在不足。具体来说，现有的视觉模型产生一般的细粒度表示，这对于比较像狗和狼这样的常见生物体很有用，但不适用于更细粒度的比较，例如 Onoclea sensibilis 和 Onoclea hintonii。

我们确定了在开发生物学视觉基础模型时面临的两大障碍。首先，需要合适的预训练数据集：现有的数据集在规模、多样性或细粒度标签方面有所欠缺。其次，需要研究合适的预训练策略，利用生物学领域的特殊属性来更好地实现三个关键目标，例如生命树分类学，这在主流预训练算法中并未得到充分考虑。

下面一起来阅读一下这项工作~

1. 论文信息

标题：BioCLIP: A Vision Foundation Model for the Tree of Life

机构：俄亥俄州立大学、微软研究、加州大学欧文分校、伦塞拉尔理工学院

原文链接：https://arxiv.org/abs/2311.18803

代码链接：https://github.com/Imageomics/BioCLIP

数据链接：https://huggingface.co/datasets/imageomics/TreeOfLife-10M

模型链接：https://huggingface.co/imageomics/bioclip

官方主页：https://imageomics.github.io/bioclip/

2. 摘要

3. 效果展示

(a) 两个分类群，或称为两个不同植物的分类标签，分别是 Onoclea sensibilis（d）和 Onoclea hintonii（e）。这两个分类群除了物种外完全相同。(b) 自回归文本编码器自然地编码了分类学的层次结构。请注意，目（Order）标记（Polypodiales）如何融合来自界、门和纲标记的信息，但不包括层次结构中的后续信息。这有助于将视觉表示与相同的层次结构对齐（见第 4.6 节）。(c) 这些分类标签的层次表示被输入到标准的对比预训练目标中，并与图像表示（d）和（e）进行匹配。

4. 主要贡献

鉴于这些目标和实现它们所面临的挑战，我们介绍了1) TREEOFLIFE-10M，一个大规模的、适合机器学习的生物学图像数据集，以及2) BIOCLIP，一个基于生命树的视觉基础模型，该模型通过合理使用TREEOFLIFE-10M中的分类群进行训练。我们概述了以下贡献、概念框架和设计决策：

TREEOFLIFE-10M：一个大规模、多样的、适合机器学习的生物学图像数据集。我们整理和发布了迄今为止最大的具有相关分类学标签的生物学图像ML-ready数据集，包含超过1000万张图像，涵盖了生命树中的45.4万种分类群。相比之下，当前最大的ML-ready生物学图像数据集iNat21仅包含270万张图像，覆盖了1万种分类群。TREEOFLIFE-10M整合了现有的高质量数据集，如iNat21和BIOSCAN-1M。更重要的是，它包含了来自生命百科全书（eol.org）的新整理图像，这些图像为TREEOFLIFE-10M提供了大部分数据多样性。TREEOFLIFE-10M中的每一张图像都根据其最精细的可能水平标记了分类层次结构，以及生命树中较高的分类等级。TREEOFLIFE-10M 使得训练 BIOCLIP 和未来的生物学基础模型成为可能。

BIOCLIP：生命之树的视觉基础模型。拥有像 TREEOFLIFE-10M 这样的大规模标记数据集，一种标准且直观的训练策略（如 ResNet50和 Swin Transformer等其他视觉模型所采用的）是使用监督分类目标来学习从图像中预测分类学索引。然而，这种方法未能识别和利用分类标签的丰富结构——分类群不是孤立存在的，而是在一个全面的分类体系中相互关联的。因此，通过简单的监督分类训练得到的模型可能无法很好地泛化到训练中未见过的分类群，也无法支持对未见分类群的零次学习分类。

相反，我们提出了一种新颖的策略，将 CLIP 风格的多模态对比学习与丰富的生物分类学相结合，用于 BIOCLIP。我们将从界到最远端分类群等级的分类学“扁平化”成一个字符串，称为分类学名称，并使用 CLIP 对比学习目标来学习将图像与其对应的分类学名称进行匹配。直观地看，这有助于模型泛化到未见过的分类群——即使模型没有见过某个物种，它也可能已经为该物种的属或科学习到了合理的表示（。BIOCLIP 还支持使用未见分类群的分类学名称进行零次学习分类。我们进一步提出并证明了混合文本类型训练策略的有效性；通过在训练过程中混合不同的文本类型（例如，分类学名称 vs. 科学名称 vs. 普通名称），我们在保持从分类学名称泛化的同时，在测试时具有更大的灵活性。例如，即使下游用户仅提供普通物种名称，BIOCLIP 仍然表现出色。

全面基准测试。我们在涵盖动物、植物和真菌的10个细粒度图像分类数据集上全面评估了BIOCLIP，包括一个在训练中未见过的全新整理过的RARE SPECIES数据集。BIOCLIP在零次学习和少次学习设置下都取得了出色的性能，并在性能上大幅超越了CLIP和OpenCLIP，实现了平均绝对提升17%（零次学习）和16%（少次学习）。内在分析进一步揭示了BIOCLIP学习了更符合生命之树的细粒度层次化表示，解释了其出色的泛化能力。

5. TREEOFLIFE-10M

最近的研究表明，在训练 CLIP 模型时，数据的质量和多样性至关重要。我们整理了 TREEOFLIFE-10M，这是生物学中计算机视觉模型可用的最多样化的大规模公开机器学习数据集。

5.1 图像

目前最大的生物学机器学习图像数据集是 iNat21，包含 10K 个物种的 270 万张图像。尽管与流行的通用领域数据集（如 ImageNet-1K）相比，这个类别范围已经相当广泛，但对于生物学来说，10K 个物种仍然有限。国际自然保护联盟（IUCN）在 2022 年报告称，已描述的物种总数超过 200 万种，仅鸟类和爬行动物就分别超过 10K 种。iNat21 的物种多样性限制了其为整个生命之树训练基础模型的潜力。

为了寻找高质量的生物学图像并专注于物种多样性，我们转向了生命百科全书项目（EOL；eol.org）。EOL 与各种机构合作，收集和标记了数百万张图像。我们从 EOL 下载了 660 万张图像，并扩大了数据集，以涵盖额外的 44 万个分类群。

在生命之树的不同子树中，物种的分布并不均匀；昆虫（昆虫纲，拥有 100 万多种物种）、鸟类（鸟纲，拥有 1 万多种物种）和爬行动物（爬行动物纲，拥有 1 万多种物种）就是高度多样化子树的例子，它们拥有更多的物种。为了帮助基础模型学习昆虫的极其精细的视觉表示，我们还纳入了 BIOSCAN-1M，这是一个包含 100 万张昆虫实验室图像的最新数据集，覆盖了 494 个不同的科。此外，BIOSCAN-1M 包含的是实验室图像，而不是像 iNat21 那样的原位图像，从而丰富了图像的分布。

5.2 元数据与聚合

5.3 数据集发布与统计

6. 实验

表4显示，BIOCLIP在零次学习分类上显著优于基线CLIP模型和iNat21训练的CLIP模型，特别是在未见分类群上（参见“稀有物种”列）。我们将BIOCLIP在广泛多样的任务上表现出的强大零次学习能力归因于TREEOFLIFE-10M中广泛多样的类别。

零次学习消融结果如表5所示；有几个显著观察结果。首先，使用分类学名称+普通名称可以获得最佳性能，这表明融入分类学结构对于泛化至关重要。其次，当仅使用一种文本类型进行训练时，如果在测试时使用不同的文本类型，性能会大幅下降。使用混合文本类型进行训练在测试期间在所有文本类型上均表现出一致且强大的性能。这些结果表明，混合文本类型预训练在很大程度上保留了使用分类学名称的泛化优势，同时也提供了不同文本类型用于推理的灵活性，这对于可能用于各种下游任务的基础模型来说是一个重要属性。最后，使用TREEOFLIFE-10M中的100万个样本优于使用iNat21中的270万个样本，进一步证实了TREEOFLIFE-10M增加的数据多样性的重要性。

我们在同一组10个任务上评估每个模型，但仅在一次和五次设置中评估，因为非CLIP模型无法进行零样本分类。我们在表6中报告了平均准确度。分层分类模型优于简单分类，与CLIP基线相当（见表4）。然而，CLIP目标大大优于两个基线，并有力地证明了我们重新调整CLIP目标的用途。

7. 总结

我们介绍了TREEOFLIFE-10M和BIOCLIP，它们分别是一个大规模多样化的生物学图像数据集和生命之树的基础模型。通过广泛的评估，我们展示了BIOCLIP在零次和少次学习设置下都是生物学领域的强大细粒度分类器。我们通过在未见物种上进行消融实验和可视化BIOCLIP的表示来验证我们的假设，即使用完整的分类学名称比其他类型的描述更能实现更强的泛化能力，发现BIOCLIP嵌入的图像更好地匹配了分类学层次结构。虽然CLIP目标函数能够高效地学习超过45万个分类的视觉表示，但BIOCLIP本质上是为了分类而训练的。未来的工作将进一步扩大数据规模，例如，将iNaturalist上的超过1亿张研究级图像纳入其中，并收集更丰富的物种外观文本描述，以便BIOCLIP能够提取细粒度的特征级表示。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

3D视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群，包括2D计算机视觉、大模型、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向，细分群包括：

2D计算机视觉：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型：NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机：四旋翼建模、无人机飞控等

除了这些，还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

3D视觉工坊知识星球

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪，无人机等。

用户评论

如你所愿

太牛了！一个生命之树视觉基础模型在CVPR上拿到了最佳论文，这可是顶级的学研会议啊。

有6位网友表示赞同！

∞◆暯小萱◆

千万级数据量，这个BioCLIP也太猛了吧！能看到科技的力量真是让人惊叹。

有13位网友表示赞同！

发型不乱一切好办

一直关注这个方向的研究，现在有了这样的进步真的太期待了！相信未来会有更多颠覆性的应用。

有18位网友表示赞同！

此生一诺

CVPR最佳论文，这个BioCLIP必须体验一下，看它能做出来些什么神奇的视觉效果。

有5位网友表示赞同！

(り。薆情海

生命之树？这是什么概念？是不是和生物学结合的那种模型？太酷炫了！

有20位网友表示赞同！

苏莫晨

感觉这块领域发展得超级快，一下子就从数百万到千万级数据集了，厉害啊！

有14位网友表示赞同！

泪湿青衫

想了解一下这个BioCLIP具体能处理哪些视觉任务？比如图像分类还是目标检测？

有8位网友表示赞同！

残留の笑颜

如果能用BioCLIP来生成一些艺术作品或者虚拟场景那就更棒了！想象力直接爆棚！

有15位网友表示赞同！

心已麻木i

这么厉害的模型出来以后，会不会让一些传统的视觉算法逐渐过时呢？

有20位网友表示赞同！

早不爱了

期待看更多关于BioCLIP的应用案例，比如在医学影像分析、智能家居等等领域。

有9位网友表示赞同！

终究会走-

感觉这个标题很吸引眼球，忍不住想要了解更多信息！

有16位网友表示赞同！

雪花ミ飞舞

千万级数据集真是个天文数字啊，可见这个项目投入了很大的精力和资源。

有9位网友表示赞同！

◆乱世梦红颜

如果能开源就太好了，可以供大家研究和尝试！

有14位网友表示赞同！

聽風

不知道这个模型的训练难度和时间成本是怎么样？

有10位网友表示赞同！

|赤;焰﹏゛

看了标题总觉得这篇文章很有深度，应该会有很多新颖的想法和技术细节。

有18位网友表示赞同！

信仰

CVPR最好的论文，肯定是一个值得关注的项目！后续一定会继续关注它的进展。

有11位网友表示赞同！

作业是老师的私生子

这么强大的模型是不是可以应用于增强现实或者虚拟现实的技术中？

有13位网友表示赞同！

雁過藍天

希望能看到BioCLIP在未来的应用场景下展现出更多惊艳的效果！

有13位网友表示赞同！

我怕疼别碰我伤口

这个标题让我感觉AI技术已经发展到了一定的水平，越来越接近人类的视觉感知能力了。

有14位网友表示赞同！

あ浅浅の嘚僾

对该项目的研发团队表示赞赏，他们对于科技发展的贡献值得肯定。

有11位网友表示赞同！

热点资讯