KubeAdmiral 是字节跳动于 2023 年 7 月正式开源的多云多集群管理引擎,它孵化于字节跳动内部,从上线至今一直强力支撑抖音、今日头条等大规模业务的平稳运行,目前管理着超过 21 万台机器、超过 1000 万 Pod。 自正式开源以来,KubeAdmiral 自身也经历了不断发展和完善,在系统功能、扩展性、稳定性和运行效率均有大幅提升,也吸引了业界最终用户的使用和贡献。因此,我们相信 KubeAdmiral 已经准备好在生产环境落地,并很高兴地宣布 1.0.0 版本正式发布。
近期,火山引擎多媒体实验室团队提出了一种高质量3D Gaussian-Splatting场景重建及低延迟重渲染技术,用于对场景进行高质量的重建,并支持复杂的重打光及实时渲染。该及时已经实际应用在虚拟直播等VR/AR/XR应用中。同时,该技术被图形学顶会SIGGRAPH 24收录,并被邀请在 NeRFs and Lighting session做正式汇报。
无论是语速超快、发音复杂的绕口令,还是精妙绝伦的文言文,又或是充满即兴和灵感的随意聊天,模型都能流畅自然地给出准确而地道的翻译结果。
当前尖端的向量近邻搜索算法,主要以图搜索算法为主,此类算法为了能够最大化搜索的速度与准确度,需要将对应的索引结构和原始数据存放在内存中,显然这不仅大大提高了成本,还限制了数据集的大小。例如在当前主流的内存型 HNSW 算法下,业界常用的内存估算方式是:向量个数 * 4 * (向量维度 + 12)。那么在 DEEP 10M(96维)的 1 千万数据就需要内存达到 4GB 以上,但是通过 DiskANN 优化后,仅需要 70MB 的内存就可以对海量数据高效的进行检索;在 MS-MARCO(1024 维)的 1.38 亿条记录里,需要内存更是高达 534GB,这样检索 1.38 亿的数据需要 12 个 64GB 的节点。 按照上面的估算公式,到了 10 亿级别就需要大约 100 个节点,到 100 亿级别需要的节点数为 1000 个左右,这个规模的服务在资源成本和稳定性上都面临了极大的挑战。我们在服务客户的过程中,发现相比于低延迟检索需求,大部分客户更关注成本和稳定性
KubeAdmiral 是字节跳动于 2023 年 7 月正式开源的多云多集群管理引擎,它孵化于字节跳动内部,从上线至今一直强力支撑抖音、今日头条等大规模业务的平稳运行,目前管理着超过 21 万台机器、超过 1000 万 Pod。 自正式开源以来,KubeAdmiral 自身也经历了不断发展和完善,在系统功能、扩展性、稳定性和运行效率均有大幅提升,也吸引了业界最终用户的使用和贡献。因此,我们相信 KubeAdmiral 已经准备好在生产环境落地,并很高兴地宣布 1.0.0 版本正式发布。
本文将介绍字节跳动基于Parquet格式降本增效的技术原理和在具体业务中的实践,首先介绍了Parquet格式在字节跳动的应用,然后将结合具体的应用场景:小文件合并和列级TTL ,从问题产生的背景和解决问题的技术方案出发,介绍如何基于Parquet格式实现降本增效的目标。
本文提出一种新颖的 IR-QLoRA 方法,通过信息保留,推动 LoRA 微调量化下大语言模型保持高度准确性。该成果第一次明确引入信息论视角,透过信息熵相关理论,对大模型量化进行审视与衡量,目前已中选 ICML 2024 Oral 。
进入 2024 年后,企业对 LLM 的关注开始转向生产环境的大规模部署,将 AI 模型接入现有基础设施以优化系统性能,包括降低延迟、提高吞吐量,以及加强日志记录、监控和安全性等。然而这一路径既复杂又耗时,往往需要构建专门的平台和流程。