多模态理解大模型,是一类可以同时处理和理解多种数据形式(如图像、文本、视频等)的人工智能大模型,可以应用于图文理解、视觉问答、文档理解、场景描述等任务。本文将介绍目前热门的 DeepSeek-VL2多模态大模型。DeepSeek-VL2是一款基于混合专家(MoE,Mixture of Experts)架构的多模态大模型,结合了混合专家架构和多模态数据处理能力,通过稀疏计算和专家分工的方式高效处理多种模态(如文本、图像、音频等)的数据,推理时只激活部分网络参数。而前两期课程介绍的 Qwen2.5VL、Janus-Pro 以及 DeepSeek-VL第一代模型,则是经典的 Dense 类的多模态理解大模型,会对所有模型参数进行计算和更新。MoE(Mixture of Experts)混合专家模型的核心思想是将模型划分为多个专家子网络(experts),并通过路由机制(router)动态选择合适的专家来处理输入数据。MoE 的最大优势就是是稀疏激活,只有少数几个专家网络模块会被激活,这意味着计算量可以显著减少,计算效率得到提升,同时精度指标远远超出相同激活参数量的 Dense 类模型。
语义嵌入是自然语言处理、信息检索、推荐系统等领域的核心技术,对于精准捕捉文本深层次语义信息至关重要。近年来,大语言模型(LLM)的兴起为语义嵌入技术开拓了新的方向。本文介绍了LLM在提升语义嵌入效果的最新模型与算法,聚焦在如何利用LLM生成合成数据以及如何作为模型骨干来优化语义嵌入。文章概述了当前研究的主要方向和先进成果,展示了LLM在学习语义嵌入方面的独特优势,并展望了其在搜索、推荐等下游任务的广阔应用前景。
当我们在云上部署 DeepSeek 系列大模型的时候,可以选择多机或者单机 8 卡的 GPU 裸金属实例运行满血版,或者选择单卡和双卡 GPU 虚拟机运行蒸馏版。 这些 GPU 云服务器实例能否发挥多机、多卡、单卡的性能,将直接影响部署的 DeepSeek 服务的吞吐能力。除此之外,在训练场景中这些实例的相关能力能将直接影响训练时长。 本文将针对 GPU 云服务器的软件系统设计和实现进行概述,并分享百度智能云的最新实践成果。
【1】OpenAI首个智能体Operator大测评 【2】腾讯落子,AI后手入场 【3】字节OmniHuman-1人体动画生成新突破 【4】2025年最佳项目管理工具对比 【5】DeepSeek爆火,巨头开始反击 【6】微软SWE Agent首曝光 【7】山姆·奥特曼提出AI经济学观察 【8】华为小艺版DeepSeek和R1有何差别 【9】AI霸屏第二年,硅谷大佬们Pick哪些产品 【10】OpenAI发布全新VI设计指南
随着AGI理论的不断突破,智能体已经成为LLM在企业落地的最重要的形式之一。一个完备的智能体必须能实现:感知、推理、计划、执行等一套完整的功能,从工程的角度来看workflow特别适合这种复杂任务的分析、拆解、重组、执行, 再结合CoT技术, 实现LLM和业务功能完美契合的智能体应用。本文尝试用成熟的图引擎技术驱动workflow探索更多样性的拓展agent能力的方法,以更好应对各类业务场景。
直播间互动体验框架技术实践,揭秘性能与稳定性优化之道,快来探索吧!在百度直播间歌会红包等活动中,我们创新性地将红包互动与高质内容深度融合,通过技术架构升级与系统性优化,打造了"音乐+红包"(边听歌边抢红包)的沉浸式体验。本次实践显著提升了直播间的并发承载能力、实时互动响应速度和用户参与满意度,同时沉淀出可复用的技术方案,为后续大型直播活动奠定坚实基础。
大模型在研发效能领域代码生成方面发挥了越来越大的作用 而大模型的预训练依赖大量的精标代码,这些精标数据必须是比较好的工程实践代码 这些比较好的工程实践代码,需要大量的技术沉淀,包括工程架构,代码架构等多纬度,涉及性能、可用性、扩展性、安全等方向 百度网盘有不少比较好的工程实践,本文主要是介绍百度网盘工程架构中的防雪崩架构 抛砖引玉,与大家一起探讨什么才是优秀的工程实践,为大模型的落地提供坚实的数据基础
【1】Domo AI推出v2v真实模型 【2】讯飞星火浏览器插件新升级 【3】Hume AI发布语音引擎OCTAVE 【4】南洋理工大学推出超分技术InvSR 【5】腾讯推出ColorFlow 【6】OpenAI正式发布o3模型 【7】Krea AI上线自定义功能 【8】支付宝面向商家营销推出AI创意生成服务 【9】可灵1.6版本提升物理规律真实感 【10】Google推出AI生图工具Whisk