2024世界人工智能大会:商汤绝影展示多款智驾与智舱产品,引领多模态大模型新趋势
tp官方网站下载 2025年1月17日 16:10:04 tpwallet官网下载 162

商汤公司的新款多模态大模型是端到端设计的,能处理多种输入并统一输出,听起来确实很厉害。多模态融合难度很大,但这款模型做到了。而且,“日日新5.5”版本功能全面升级,多项能力显著提升,甚至能与GPT-4o媲美,这是值得关注的一大亮点。
多模态大模型的优势
商汤的多模态大模型能够综合处理各类信息。它宛如一位多才多艺的管家,能够处理文字、语音、视频等多种输入形式。相较于以往技术,尽管挑战更大,但在效率和精确度上或许更为卓越。在实际应用中,它为用户提供了极其丰富的体验。例如,当用户用语音询问视频内容时,它能够快速且精确地作出回应。这种能力极大地拓宽了模型的应用领域。
该模型在多个行业展现出巨大的应用前景。以智能汽车为例,其多模态技术优势有望得到进一步拓展。在智能汽车领域,文字、语音、视频导航等多种信息形式共存,它能够轻松应对并给出恰当的解决方案。

智能汽车与模型迭代
智能汽车的数量持续上升。这些车辆能搜集大量用户反馈和不同类型的数据。就像一把钥匙,它们开启了模型不断更新的路径。对于商汤的多模态大型模型来说,这些数据是持续改进的关键。在城市道路中,车辆的行驶行为、语音指令等信息,都是极其珍贵的资料。
商汤的多模态大模型将运用智能汽车所提供的数据来优化自身。举例来说,若是在北京一环路上,一辆智能汽车在导航语音指令识别上频繁出错,这些错误信息会被反馈给模型。通过这种方式,在模型下一次更新时,这些问题有望得到解决。这有利于模型的持续进步和优化。
车端模型部署情况
智能汽车交互的进步,离不开车端模型的部署技术。在这方面,商汤绝影的表现十分出色。它能够运用云端、端云结合以及端侧等多种全栈模式,实现灵活部署。在WAIC大会上,商汤绝影宣布已成功在车端部署原生多模态大模型,并展示了其在不同算力平台上运行端侧多模态大模型的适配能力。

在汽车领域,这样的做法有着明显的好处。比如,针对那些拥有不同系统和硬件配置的汽车制造商,商汤绝影可以依据他们的具体需求或现有平台,提供相应的部署计划。无论是性能稍逊的老款车,还是性能出众的新款豪车,都能找到最适宜的部署方法。
自动驾驶相关模型
UniAD系统的稳定性因不断的数据搜集等因素而大幅增强。DriveAGI这款智能驾驶的大规模模型,基于多模态大规模模型的构建,对于实现从起点到终点的智能驾驶至关重要。它能够保障驾驶的安全性和可靠性。以上海的某些复杂路段为例,比如行人和非机动车众多的路口,DriveAGI能够做出更加精确的判断。
端到端自动驾驶模型并非完美无缺,但商汤科技的投入不容忽视。智能汽车在感知、推理、决策和交互等领域仍有改进余地,而商汤科技研发的这些模型,正是为了实现这一目标而不懈努力的成果。

数据闭环的作用
商汤绝影系统依托于真实的多模态数据。该系统构建的全球模型以及云端的大型模型,能产出高质量的数据。这些模型之间还能实现高效配合。以交通场景模拟为例,一个模型负责提供基础的道路信息,另一个则负责提供车辆的动态数据,最终将这两部分信息融合在一起。
自动驾驶方案的实施与发展,得益于这种数据闭环的稳固支撑。若在美国某城市推行自动驾驶,该闭环会根据当地的道路条件和交通流量等因素,作出最合适的调整。
全新交互界面发布

商汤绝影发布了业内首款生成式交互界面产品,其中包含“随心界”和“随意操控”等车载AI助手。这些产品极大地简化了用户操作,用户只需用自然语言交流,AI即可完成各种复杂任务,而且无需主机厂额外开发。
广州某汽车厂引入了这些技术,研发周期和成本大幅降低。消费者在使用上更加方便,无论是享受欧洲杯的音乐,还是操作其他高级功能,都变得更加简单快捷。
我想请教大家,商汤的这些技术未来会不会成为智能汽车的标准配置?麻烦大家给个赞,帮忙转发,也欢迎在评论区聊聊看法。