如何看待华为正式发布科技旗舰问界 M9 ？有哪些值得关注的信息？

珠围翠绕网

发布时间：2024-07-08 11:48:27

9. 多模态AI将成为新常态。苹果公司的Ferret和特斯拉的FSD正在引领潮流。但挑战也会随之而来。视觉、听觉，甚至是感觉?

虽然不少国货品牌从产品到营销和外国品牌仍然存在客观上的差距，但不少网友仍然愿意给国货更多宽容。这是一股极为庞大的力量，能否与网友共情则决定了品牌能否调动这股力量。

花子西，和网友对着干的犟种

站长之家（ChinaZ.com）1月4日消息:近期，GPT-4V的开源替代方案在中国的顶尖学府清华、浙大等的推动下，出现了一系列性能优异的开源视觉模型。其中，LLaVA、CogAgent和BakLLaVA是三种备受关注的开源视觉语言模型。

它不仅可以从图片中提取信息并回答问题，还可以将图片转化为JSON格式。LLaVA还可以识别验证码、识别图中的物体品种等，展现出了强大的多模态能力。在性能上接近GPT-4的情况下，LLaVA具有更高的成本效益，训练只需要8个A100即可在1天内完成。