字节数据中台DataLeap的Data Catalog系统通过接收MQ中的近实时消息来同步部分元数据。Apache Atlas对于实时消息的消费处理不满足性能要求,内部使用Flink任务的处理方案在ToB场景中也存在诸多限制,所以团队自研了轻量级异步消息处理框架,支持了字节内部和火山引擎上同步元数据的诉求。本文定义了需求场景,并详细介绍框架的设计与实现。
用一句话概括模板学习,即将原本的输入文本填入一个带有输入和输出槽位的模板,然后利用预训练语言模型预测整个句子,最终可以利用这个完整的句子导出最终需要的答案。 模板学习最吸引人的关键在于其通过已有的预训练模型,定义合适的模板就能完成 few-shot 或者 zero-shot 任务,这样可以使得语言模型可以在预训练阶段利用尽可能多的信息进行训练,后续也能最大效率的发挥其作用。
9月17日,由字节跳动Dev Infra团队发起的字节跳动Dev Better系列技术沙龙|前端性能及新技术实践 直播活动成功在线上举办。本次活动邀请到了字节跳动研发工程师刘义、彭莉、张皓洋、陈博深和大家进行分享交流,为大家带来前端性能方面的优质内容与实战经验。
人工智能的三个层次: 运算职能:数据的存储和计算能力,机器远胜于人类。 感知职能:视觉、听觉等能力,机器在语音识别、图像识别领域已经比肩人类。 认知智能:自然语言处理、常识建模与推理等任务,机器还有很长的路要走。 自然语言处理属于认知智能范畴,由于自然语言具有抽象性、组合性、歧义性、知识性、演化性等特点,为机器处理带来了极大的挑战,有人将自然语言处理称为人工智能皇冠上的明珠。近些年来,出现了以 BERT 为代表的预训练语言模型,将自然语言处理带入了一个新纪元:预训练语言模型 + 特定任务精调。本文试图梳理自然语言预训练技术的演进之路,以期和大家相互交流学习,不足、谬误之处望批评指正。
字节跳动内部已经将ClickHouse广泛应用,并在原引擎基础上重构了技术架构,本系列文章将从Upsert、多表关联查询、可用性提升等多方面介绍字节跳动基于ClickHouse的能力增强实践。
你知道有多少用户没等到页面首屏出现就离开了吗?性能不佳会对业务目标产生负面影响。比如, BBC 发现他们的网站加载时间每增加一秒,他们就会失去 10% 的用户。高性能站点比低性能站点更能吸引和留住用户,而留住用户对于提高用户转化率至关重要。 这篇文章就是以此为背景,介绍字节内部是如何衡量站点性能的,如何依靠性能监控定位线上站点性能问题的。