本文将介绍基于 Apache Calcite 的多引擎指标管理的技术原理与最佳实践,包括指标管理的常见方式、指标管理的最佳实践、指标管理的实现原理以及指标管理在字节跳动未来的一些规划。 重点阐述【指标管理】在业内常见的解决方案,与字节内部使用的一套 SQL 两种语法多引擎指标管理方案的异同,并解读具体实现方案。
Index-1.9B-32K 是一个拥有 1.9B (19亿)参数并具备 32K 上下文长度的语言模型(这意味着,这个超小精灵可以一次性读完 3.5 万字以上的文档)。 在多项长文本评测任务中,该模型在相近尺寸的模型中表现突出。以极小的体积和算力开销(仅仅约为 GPT-4 的 2%),实现了出色的长文本处理能力。
近年来 Spark 已经成为离线大数据处理引擎的事实标准,广泛用于数据仓库、数据湖、机器学习等领域。在字节跳动内部每天运行百万级别的 Spark 离线作业,Shuffle 量高达 500PB,CPU 资源需求达到千万级别。随着业务的快速发展,用户对计算资源的需求越来越大,除了增加物理资源之外,如何提高线上 Spark 作业的资源使用效率也是我们亟需解决的问题。
得物 Redis 管理平台目前管理着几百个集群、数万个 Redis-server 节点、几千台 server 宿主机,而且通过精细化运维管理,目前 Redis-server 宿主机平均内存使用率和内存分配率均达到一个合理且较高的水位,资源管理处于业内第一梯队,使用最低的成本做到最大的支撑业务缓存需求。 同时,随着业务使用量的持续增长,单台宿主机上的内存使用率越来越高,为了保证宿主机上所有节点的业务日常增长需求或者突发的业务内存上涨,以便能够做到秒级快速垂直扩容,以及添加节点、RDB 离线分析等功能需要的资源,单台宿主机的内存使用率都需要动态的控制在一个合理水位线以下,于是,Redis 管理平台会每天定期自动巡检所有宿主机内存使用率,对于超过合理阈值的宿主机,会选择一部分 server节点进行打散,迁移到其他宿主机上。
就算你是一个打螺丝的,你依然每天游走在这个系统的“架构”里,在里面修修补补,你得从“架构”的全局角度去审视你每天忙碌的价值和意义。经历的项目多了, 在进入新的团队,有些老项目,在了解业务背景后, 你头脑中可能已经闪现出一张“架构”了,然后你去看代码的时候大喜:“果然如此”, 这种“架构”背后的代码让你读起来神清气爽;也有些项目,你在读代码的时候发现和你脑海中闪现的“架构”不一样,这时你只能骂咧咧的合上笔记本,心想怎么会“架构”出来这种坨坨,喝杯咖啡之后,继续来啃里面的“屎山”。
“用户在浏览器地址输入 URL 之后发生了什么?” 这个问题对于我们前端开发者来说简直是典中典了,是前端基础,也是工作面试八股,更是性能优化依据。但本文想分享的重点不是之后发生了什么,而是之前发生了什么,即我们平时码出来的代码经历了哪些步骤处理,成为互联网用户能打开浏览的页面的?我们又是如何合理的更新网页的? 前一个问题涉及开发与部署,后一个问题涉及发布。下面我将会从网页入口、开发、部署与发布这4方面逐步展开分享。