大家好,我们整理了近期 RWKV 生态中新增的一些多模态工作,包含:RWKV-SAM(图像分割模型)、RWKV-CLIP(视觉语言表示学习)、point-RWKV(3D 点云学习框架)……
RWKV-SAM
- 相关论文: Mamba or RWKV: Exploring High-Quality and High-Efficiency Segment Anything Model
- 论文地址:https://arxiv.org/abs/2406.19369
- GitHub 仓库:https://github.com/HarborYuan/ovsam
论文设计了基于 RWKV 的图像分段切割方法 “RWKV-SAM”(Segment Anything Model)。
下图为 RWKV-SAM 架构:
与 Transformer 模型相比,RWKV-SAM 实现了 2 倍以上的加速,且可以在各种数据集上实现更好的图像分割性能。
此外,RWKV-SAM 的分类和语义分割结果优于最新的视觉 Mamba 模型。
RWKV-CLIP
- 相关论文:RWKV-CLIP: A Robust Vision-Language Representation Learner
- 论文地址:https://arxiv.org/abs/2406.06973
- GitHub 仓库:https://github.com/deepglint/RWKV-CLIP
RWKV-CLIP (Contrastive Language-Image Pre-training)是一个 RWKV 驱动的视觉语言表示学习模型,该框架可以利用大型语言模型(LLMs)来合成和细化基于网络的文本、合成标题和检测标签的内容。
RWKV-CLIP 架构如图:
论文结果显示:与 ALIP 相比,RWKV-CLIP 在图像文本模态空间中表现出更近的距离,表明具有卓越的跨模态对齐性能。
PointRWKV
- 相关论文: PointRWKV: Efficient RWKV-Like Model for Hierarchical Point Cloud Learning
- 论文地址:https://arxiv.org/abs/2405.15214
- GitHub 仓库:https://github.com/hithqd/PointRWKV
PointRWKV 项目是一种基于 RWKV 的 3D 点云学习框架,在下游点云任务上性能优于基于 Transformer 和 Mamba 的同类工作,显著节省了约 46% 的 FLOPS。
下图为 PointRWKV 架构:
SDiT
- 相关论文:SDiT: Spiking Diffusion Model with Transformer
- 论文地址:https://arxiv.org/abs/2402.11588
论文提出了 Spiking Diffusion Transformer (SDiT - 基于 Transformer 的新型 SNN 扩散模型架构),但采用 RWKV 作为 Transformer 自注意力机制的替代。
通过将 RWKV 有效地与 SNN 集成,SDiT 方法提高了重建图像的质量。
和基于 Transformer 的 ANN 实现 (DiT) 相比,基于 RWKV 的 SDiT 方法拥有更小的参数和更低的乘法累加 (MAC) ,充分展示了低功耗 SNN 的优势。
VisualRWKV-6
- 相关论文:VisualRWKV: Exploring Recurrent Neural Networks for Visual Language Models
- 论文地址:https://arxiv.org/abs/2406.13362
- GitHub 仓库:https://github.com/howard-hou/VisualRWKV
- 模型下载:https://huggingface.co/howard-hou/visualrwkv-6/tree/main
VisualRWKV 是 RWKV 语言模型的视觉增强版本,使 RWKV 模型能够处理各种视觉任务。
VisualRWKV-6 的架构设计是 Data-dependent Recurrence + Sandwich Prompt + Bidirectional Scanning 。
大量实验表明,与基于 Transformer 的模型(如 LLaVA-1.5)相比,VisualRWKV 在各种基准测试中实现了具有竞争力的性能。
以上是近期的 RWKV 多模态研究。更早之前的 RWKV 多模态工作,请参考我们的第一期统计:
欢迎大家使用 RWKV 进行创业、科研,我们也会为基于 RWKV 的项目提供技术支持。
如果您的团队正在基于 RWKV 创业或开展研究,请联系我们!(在 “RWKV 元始智能” 微信公众号留言您的联系方式,或发送邮件到 “[email protected]”。)
文章评论