分布式数据传输系统是一种用于在多个计算节点之间高效传输大量数据的系统,诣在高效的解决大规模数据迁移、备份、跨地域复制等问题,其广泛应用在实时数据流传输、跨数据中心数据迁移、多媒体传输等场景,在大多数企业中的日志管理、业务数据建库等场景中也都会使用到。众所周知,数据的高效传输往往直接影响着企业对市场先机的把握,对企业发展有重要意义,特别是在金融领域,如证券行业,它对分布式数据传输系统的设计提出了更高的要求,证券领域数据变化飞快,一个高时效、稳定的数据流传输系统不仅能有效的提升用户体验,更能提供用户一手的投资信息,有助于用户的投资决策,进而拉进企业与用户的距离。本文将通过一个百度搜索下的金融案例来分享分布式数据传输系统的设计。
在参与得物大语言模型(Large Language Model, LLM)项目的深度实践中,笔者亲历了预训练数据的搜集与清洗全过程。这篇文章通过详细梳理现有预训练数据集以及其清洗框架,旨在提供一个全面而实用的参考,以便为 LLM 训练提供快速有效的数据集落地方案。
品牌符号宣传海报作为品牌运营很重要的曝光手段,随着AI技术的不断发展已经逐渐替代传统设计方法,质量、效率方面的提升使它成为热门的超级符号延展的设计方式,今天我们就来了解下这套设计方法论,解析利用AI生图制作超级符号海报的方式。
本文针对模拟点击的黑产实时防控问题,介绍过去2年蚂蚁集团在技术方面的工作,旨在介绍风险存在的原因、风险的特点、风险的技术分析以及风险的防控方法。
ByConity 是由字节跳动开源的云原生数仓,采用了存储计算分离的架构,支持主流的 OLAP 引擎优化技术,实现了租户资源隔离、弹性扩缩容,并具有数据读写的强一致性等特性。「基于共享存储的选主方式」作为 ByConity 的重要功能,本文将详细介绍它基于存算分离架构的设计思考及实践。
RTC(Real time communication)实时通信,是实时音视频的一个简称,我们常说的RTC技术一般指的是WebRTC技术。 WebRTC是一个由Google发起的实时通讯解决方案,其中包含视频音频采集,编解码,数据传输,音视频展示等功能,我们可以通过技术快速地构建出一个音视频通讯应用,在不借助中间媒介的情况下,建立点对点(Peer-to-Peer)的连接,实现视频流和(或)音频流或者其他任意数据的传输。虽然其名为WebRTC,但不光支持Web,还可以通过编译C++代码达到全平台的互通。 在 B站的直播业务中,有多个互动类型的业务,比如:视频连线、PK、语聊房、语音连麦等。这类业务都有实时性的要求,底层都采用了WebRTC技术。