数据平台利用大数据智能分析、数据可视化等技术,对公司内外部经过采集、建设、管理、分析的多源异构数据进行呈现和应用,实现了数据共享、日常报表自动生成、快速和智能分析,深度挖掘数据价值,满足企业各级部门之间的数据分析应用需求。因而也具有数据量大,场景多,数据准确性要求高,查询性能要有保障等特点。
挂一部分机器,不会丢数据、不会不可服务,是对现代数据库的一个比较基本的要求。 对于早期的单机数据库,一般使用主备架构。主备架构有很多的缺陷,并且这些缺陷是无解的。穿过主备架构里各种“优化”的名词,最后也无非是选择一碗毒药而已,这几个毒药包括: 1.脑裂,两个节点同时写入的冲突数据无法合并,只能丢掉一部分。想要不脑裂?那只能牺牲可用性。 2.同步复制,备机不可用的情况下,算不算写入成功?算,可能丢数据;不算,备机不可用==集群不可用,牺牲可用性。 3.异步复制,这完全躺平了,不考虑一致性。 4.所谓semi-sync等方案,也属于主备架构的一种。 5.业务自己去容错,做针对自己业务场景的对账、补偿等方案。 其实可以看出,主备架构是CAP理论做取舍的重灾区,一致性和可用性之间的关系特别矛盾。所谓一致性和可用性“兼顾”的主备方案,实际上是“兼不顾”。
在内网上有太多的架构相关的文章了(比如大名鼎鼎的自顶向下),我之前也写过应用架构设计的经验。但是总有种雾里看花的感觉,好像有很多相关的知识,soa、分布式事务、DDD、复杂系统重构、领域建模、业务架构、等等等,这些复杂的名词和知识感觉学了一堆仍然不得其法。 所以我准备把我这些年在支付宝做架构,自己摸索成长的内容写下来,看能否帮助到大家。
我们都知道DevOps诞生于互联网企业。Netflix、AWS等互联网企业号称每天往生产环境部署成百上千次。如此之快的部署频率让众多传统企业也跃跃欲试。所以大量的传统企业都纷纷投入巨资打造自己的DevOps基础设施 ,希望就此可以显著提高开发效率,加快新项目或新产品的投产速度。但是,他们对于DevOps基础架构是什么样子,需要具备哪些能力,如何构建,并没有一个很清晰的规划。 要想规划与打造适合传统企业的DevOps基础设施,首先需要弄清楚它必须具备哪些能力。我们尝试从基础、开发、测试、运维、项目管理五个维度来分析对DevOps的需求,从而探索DevOps基础设施与之对应的能力,并映射到一款业界流行的软件工具来承载这个能力。需要注意的是这里的目的是具象与实例化,而不是推荐使用某款软件工具。大家要根据自身实际来进行工具选型。
随着人工智能领域的迅速发展,Prompt Engineering 已成为一门备受关注的新兴技术。Prompt 是指用于引导机器学习模型生成符合预期输出的文本或代码片段。编写高效的 Prompt 对于提高模型效果至关重要。本文将探讨如何高效编写 Prompt。 一个高效的 Prompt 应由 Instruction 和 Question 两部分组成。在使用 openAPI 调用时,通常将 Instruction 通过 system 传递,将 Question 通过 user 传递。而在使用 Web 界面时,可以简单地拼接这两部分。本文的演示将以 Web 界面为主。
近日,抖音 CV 技术团队在 ICDAR 2023 的“Detecting Tampered Text in Images”比赛中,利用自研的“CAS”算法从 1267 个参赛队伍中脱颖而出,获得分类赛道的第一名。 ICDAR(International Conference on Document Analysis and Recognition),是国际文档图像分析和识别领域公认的权威学术会议,涉及的领域包括文本识别、文本检测、文档分析和自然语言处理等。该会议从 1991 年开始,每两年举办一次,吸引了来自全世界的科学家、工程师和学者参加,分享他们的研究成果和最新技术进展。第 17 届将于 2023 年 8 月在美国加利福尼亚举行。 DTT 竞赛聚焦于真实场景下的文本图像篡改检测。随着文档分析与识别领域的快速发展,新兴技术也在不断涌现,并广泛应用于数字金融、电子商务、安全审核和智慧教育等领域。然而,以往的研究大多集中于文本内容的理解,对于图像本身的真实性关注度较低。与通常针对自然图片中人或物的篡改检测不同,文本的篡改检测在精度和泛化性方面更具挑战性。首先,篡改的区域通常很小
BitSail是字节跳动自研的数据集成产品,支持多种异构数据源间的数据同步,并提供离线、实时、全量、增量场景下全域数据集成解决方案。本系列聚焦BitSail Connector开发模块,为大家带来详细全面的开发方法与场景示例,本篇将主要介绍SourceSplitCoordinator接口部分。
在淘宝前三年,我主要偏向研究 2d计算机视觉算法,相比于研究GAN、Transformer等热门课题,我更偏向解决一些算法在工业界落地遇到的常见问题,如深度学习模型训练中,常遇到训练数据不足、数据有噪声等问题,所以我更感兴趣噪声标签识别、主动学习等类型算法,也发表了简单实用的O2U-Net[5] (ICCV 2019) 噪声识别算法;另外算法推理性能提升,也是工业应用常见问题,比如在手机端部署CNN模型,需要提升模型推理效率,可能需要模型压缩、剪枝技术,也是我感兴趣的方向之一。 这两年随着元宇宙的爆发,内部团队项目的调整,我也转而开始加入到 元宇宙数字世界构建探索中,开始探索低成本高质量3D建模应用。2022年双十一,淘宝Meta 团队推出的 低成本高质量3D建模工具-Object Drawer,首次将学术界神经渲染3D建模算法(NeRF[1])在工业界规模化落地,实现了十几种品类的低成本建模(成本下降了70%)。我的工作职责主要是Object Drawer性能优化,下面聊一聊性能优化经历。