在一年多前,我们对外正式开源了 btrace(AKA RheaTrace),它是基于 Systrace 的高性能 Trace 工具,目前字节跳动已经有接近 10+ 产品团队使用 btrace 做日常性能优化工作。在这一年期间,我们收到很多社区以及公司内部反馈,包括使用体验、性能体验、监控数据等上都收到众多反馈,我们汇总了大家反馈的内容,主要包括以下三类: 使用体验:Windows 有着大量用户群体,但 btrace 1.0 未支持;桌面脚本依赖 Systrace 和 Python 2.7 环境,导致环境搭建十分复杂,此外手机端还依赖外部存储访问权限,在初次使用时很容易导致打断。同时产物体积庞大,网页打开速度很慢。 性能体验:大型应用插桩数量达到百万级别,性能损耗接近 100%,对性能优化工作产生一定困扰。 监控数据:在 Trace 分析过程中,有些信息是缺失的,并不知道耗时原因,比如目前 Trace 中仅包含 synchronized 锁信息,缺少 ReentrantLock 等其他锁信息,同时渲染监控只有部分系统关键路径信息,缺少业务层信息。
从传统数仓、湖仓一体再到云数仓,技术快速迭代,云数仓已经成为数字化基础设施中的关键“底座”。如何才能丝滑使用一款云数仓产品,本篇文章用五个步骤教你搞定!
Apache Airflow 与 ByteHouse 相结合,为管理和执行数据流程提供了强大而高效的解决方案。本文突出了使用 Apache Airflow 与 ByteHouse 的主要优势和特点,展示如何简化数据工作流程并推动业务成功。
随着互联网技术以及网络基建的快速发展和普及,视频直播已经成为了一种越来越普遍的娱乐和社交方式。无论是个人还是企业,都可以通过视频直播平台进行直播活动,向观众展示自己的生活、工作或者产品。同时,视频直播也成为了一种新型的社交媒体,让人们可以在虚拟空间中进行互动交流。 RTM(Real Time Media,低延时直播)是近期逐步兴起的一种以提升客户交互体验为目标的直播解决方案,它的特点是较传统的直播解决方案,端到端延时更小达到 1 秒级别,卡顿无明显负向,RTM 的网络传输层是基于 WebRTC 技术的(RTP/RTCP 协议)。 RTM 推流相比于传统的 RTMP 推流,在网络变化响应灵敏度、弱网对抗、带宽利用率等方面都有明显优势。在抖音的 AB 实验中主播人均被看播时长/被关注/被评论显著正向,拉流音频/视频卡顿 -22.2%/-7.8%,端到端延迟 -1.6%。目前 RTM 推流在抖音秀场完成了 10% 左右的常规放量。
随着人工智能领域的迅速发展,Prompt Engineering 已成为一门备受关注的新兴技术。Prompt 是指用于引导机器学习模型生成符合预期输出的文本或代码片段。编写高效的 Prompt 对于提高模型效果至关重要。本文将探讨如何高效编写 Prompt。 一个高效的 Prompt 应由 Instruction 和 Question 两部分组成。在使用 openAPI 调用时,通常将 Instruction 通过 system 传递,将 Question 通过 user 传递。而在使用 Web 界面时,可以简单地拼接这两部分。本文的演示将以 Web 界面为主。
近日,抖音 CV 技术团队在 ICDAR 2023 的“Detecting Tampered Text in Images”比赛中,利用自研的“CAS”算法从 1267 个参赛队伍中脱颖而出,获得分类赛道的第一名。 ICDAR(International Conference on Document Analysis and Recognition),是国际文档图像分析和识别领域公认的权威学术会议,涉及的领域包括文本识别、文本检测、文档分析和自然语言处理等。该会议从 1991 年开始,每两年举办一次,吸引了来自全世界的科学家、工程师和学者参加,分享他们的研究成果和最新技术进展。第 17 届将于 2023 年 8 月在美国加利福尼亚举行。 DTT 竞赛聚焦于真实场景下的文本图像篡改检测。随着文档分析与识别领域的快速发展,新兴技术也在不断涌现,并广泛应用于数字金融、电子商务、安全审核和智慧教育等领域。然而,以往的研究大多集中于文本内容的理解,对于图像本身的真实性关注度较低。与通常针对自然图片中人或物的篡改检测不同,文本的篡改检测在精度和泛化性方面更具挑战性。首先,篡改的区域通常很小
BitSail是字节跳动自研的数据集成产品,支持多种异构数据源间的数据同步,并提供离线、实时、全量、增量场景下全域数据集成解决方案。本系列聚焦BitSail Connector开发模块,为大家带来详细全面的开发方法与场景示例,本篇将主要介绍SourceSplitCoordinator接口部分。
日前 ACL 2023的论文录用结果公布,火山语音团队多篇论文成功入选,内容涵盖音频合成、歌声合成以及语音翻译等多个前沿技术领域的创新突破。ACL(Annual Meeting of the Association for Computational Linguistics)每年由国际计算语言学协会举办,是自然语言处理与计算语言学领域最高级别的学术会议,也是中国计算机学会(CCF)A类推荐会议,在世界范围内享有极高声誉,并受到全球各地语言领域人士的广泛关注。
随着字节跳动旗下业务的快速发展,数据急剧膨胀,原有的大数据架构在面临日趋复杂的业务需求时逐渐显现疲态。而伴随着大数据架构向云原生演进的行业趋势,字节跳动也对大数据体系进行了云原生改造。本文将详细介绍字节跳动大数据容器化的演进与实践。
实时音视频通信 RTC 在成为人们生活和工作中不可或缺的基础设施后,其中所涉及的各类技术也在不断演进以应对处理复杂多场景问题,比如音频场景中,如何在多设备、多人、多噪音场景下,为用户提供听得清、听得真的体验。作为 RTC 方案中不可或缺的技术,语音增强技术正从传统的基于统计学习的方案向基于深度学习的方案融合演进,利用 AI 技术,可以在语音降噪、回声消除、干扰人声消除等方面实现更好的语音增强效果,为用户提供更舒适的通话体验。 作为语音信号处理研究领域的旗舰国际会议,ICASSP (International Conference on Acoustics, Speech and Signal Processing) 一直代表着声学领域技术最前沿的研究方向。ICASSP 2023 收录了多篇和音频信号语音增强算法相关的文章,其中,火山引擎 RTC 音频团队共有 4 篇研究论文被大会接收,论文方向包括特定说话人语音增强、回声消除、多通道语音增强、音质修复主题。本文将介绍这 4 篇论文解决的核心场景问题和技术方案,分享火山引擎 RTC 音频团队在语音降噪、回声消除、干扰人声消除领域的思考与实