本次推出的 SmolVLM-256M-Instruct 仅有 2.56 亿参数,是有史以来发布的最小视觉语言模型,可以在内存低于 1GB 的 PC 上运行,提供卓越的性能输出。 SmolVLM-500M-Instruct 仅有 5 ...
SmolVLM系列模型不仅在大小上表现出色,更在功能上表现强大。它们采用了先进的多模态技术,能够处理图像、文本和文档等多种数据,支持图像描述、短视频分析、科学图表研究以及PDF问答等复杂任务。这种多模态能力明示了AI未来的发展趋势,即模型必须能够跨越 ...
Hugging Face 团队通过对视觉处理和语言组件的技术创新,成功减少了模型规模而不损失性能。他们将原先的400M 参数视觉编码器更换为93M 参数版本,并实施了更激进的令牌压缩技术。这些创新使得小型企业和初创公司能够在短时间内推出复杂的计算机视觉产品,基础设施成本也大幅降低。