本文主要介绍超大数据规模场景下分布式消息中间件在vivo的应用实践。 在线业务侧主要从RocketMQ集群部署架构、平台系统架构、日常运维操作平台、监控告警一体化实践以及vivo如何通过建设AMQP消息网关的方式完成所有在线业务服务从RabbitMQ到RocketMQ的业务无感迁移,实现了在线业务消息中间件组件的统一。 大数据侧主要从资源隔离、流量均衡、智能动态限流、集群治理四个维度介绍Kafka在vivo的最佳实践以及Kafka核心技术架构在超大数据规模场景下的缺陷以及未来对Pulsar组件的长线规划和建设。
使用基于有限有向图的调度框架,可以控制在线服务中异步调度的流程,但这对分支路径的管理不够友好,随着节点增多,调度流程会越来越复杂而难以控制。因此我们实现了支持分支路径的图调度框架,解决普通图调度框架可扩展性差的问题。
2018年起,vivo以容器作为基础底座,打造了一站式云原生机器学习平台。向上支撑了算法中台,为算法工程师提供数据管理、模型训练、模型管理、模型部署等能力,为广告、推荐和搜索等业务赋能,成功为算法实现了降本、提效,让云原生和容器价值初露锋芒。基于机器学习平台的试点成果,经过算法场景的试点实践和价值分析,对内部战略做了升级。确定基于云原生理念去构建行业一流的容器生态,实现规模化的降本提效目标。 本文会详细介绍vivo在容器集群高可用建设中的具体实践,包括在容器集群高可用建设、容器集群自动化运维、容器平台架构升级、容器平台能力增强、容器生态打通等层面的打磨和建设。目前,vivo容器产品能力矩阵逐渐趋于完善,并将围绕全面容器化、拥抱云原生和在离线混部三个方向继续发力。
本文是《OKR 之剑》系列之实战第 1 篇。 —— OKR 的制定,在形式上,并非仅仅是召开几次会议,在目的上,也并非是为了输出一份计划。OKR 的制定,对于管理者是一种对齐认知的手段,对于员工是一种激发内在动机的方法,对于团队是一次“上下同欲”的过程。经过不断地碰撞、磨合,让目标更加公开、透明,让大家能够用心去感受工作的价值,让优秀的员工逐渐浮出水面,最终为组织带来真正的价值。
Apache APISIX 在这两年已经受到了国内很多知名企业的信赖,并纷纷开始在实际生产环境中应用 APISIX。在这个过程中也包揽了很多不同行业的企业用户,比如金融行业的众安保险和安信证券,国产头部车企的吉利和小鹏汽车。其实在国产手机领域中,也有一些头部企业用户在使用,比如 vivo。 vivo 是从去年年中开始在业务生产中正式使用 APISIX 来替换之前传统的 NGINX。目前 APISIX 在 vivo 业务架构的实践和场景支持上都表现得十分出色: 高可用性:上线至今没有出现重大故障,系统可用性超过 99.99%; 高性能:承载较大线上流量,服务于较多业务。线上目前转发流量接近百万级 QPS,目前仍处于持续增长的过程中; 功能丰富:基本覆盖了常见的 NGINX 代理场景,50% 的业务已经迁移到 APISIX 集群; 支撑了云原生的建设和发展:有效支撑和推动了公司容器化进展,支撑容器平台的物理机器已有万级规模,40% 的业务已经从物理机虚拟机迁移到容器平台。
本文是《OKR 之剑》系列之理念第 3 篇。 很多公司引入OKR无疾而终,归其原因,我们认为主要是理解出现了偏差。没有理解其理念倡导的东西,只是把OKR当工具或者给OKR套上KPI的枷锁,OKR执行就不可能顺利。本文,就我们对于OKR理念的理解和分析,和市面上一些变味的OKR实操,和大家探讨一下OKR理念,并初步介绍一下我们通过氛围来宣扬OKR理念的主要思路。
本文是《OKR 之剑》系列之理念第 4 篇。 如果大家在理念上已经达成一致,准备开始施行OKR。可能会面临工具选择及运作形式确立的问题。为帮助大家选择合适的工具,确立适当的运作方式,本文以我们实际工作中的经验为基础,向大家介绍如何以最小的负担引入OKR并使其能循序渐进的被执行。