苹果的新MM1大语言模型模糊了图像和文本之间的界限
苹果公司的研究团队凭借其新的“MM1”多模态大语言模型向前迈出了一大步。最近题为“MM1:多模式 LLM 预训练的方法、分析和见解”的论文详细介绍了这一令人兴奋的发展,它展示了一个在图像识别和自然语言推理方面具有令人印象深刻的能力的模型。
该模型有 30 亿、70 亿和 300 亿参数大小可供选择
MM1 具有三种大小:30 亿、70 亿和 300 亿参数。研究人员利用这些模型进行实验,找出影响性能的关键因素。有趣的是,图像分辨率和图像标签的数量比视觉语言连接器的影响更大,并且不同的预训练数据集可以显着影响模型的有效性。
研究团队采用“Mixture of Experts”架构和“Top-2 Gating”方法精心构建了MM1。这种方法不仅在预训练基准中产生了优异的结果,而且在现有的多模式基准上也转化为强大的性能。即使针对特定任务进行微调后,MM1 模型仍保持有竞争力的性能。
测试表明,MM1-3B-Chat 和 MM1-7B-Chat 型号的性能优于市场上大多数类似尺寸的竞争对手。这些模型在 VQAv2(基于图像和文本的问答)、TextVQA(基于图像的文本问答)和 ScienceQA(科学问答)等任务中尤其出色。然而,MM1 的整体性能还没有完全超越Google 的 Gemini或OpenAI的GPT-4 V 模型。虽然 MM1 可能还不是绝对的领导者,但它仍然是苹果在人工智能领域的重大飞跃。
免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。