本文探讨了图谱Embedding在业务安全与反作弊等关键业务场景中的应用,特别是在异常检测方面。传统的统计方法在面对复杂多变的攻击场景时显得力不从心,因此本文介绍了一种基于One-Hot编码的图谱Embedding算法GEE,通过标签传播实现结点特征的表达。作者还通过两篇论文的代码验证,发现稀疏矩阵改进版算法在测试数据集上性能不佳,并进一步优化了算法,使其在计算效率上有所提升。本文对于利用图谱数据进行异常检测的研究和实践具有一定的指导意义。
数据库DBMS是当前互联网开发者最熟悉的基础设施之一,很多后端开发者的入门项目就是一个简单的基于MySQL的数据管理系统。笔者一直想自己编写一个简单的SQL数据库,正好最近正在学习RocksDB和Zig语言的内容,就想利用这个机会作为学习成果的检验,于是就有了这个小项目。
这38件事儿,有的是从书上看到的,有的是跟其他同事学到的,有的是自己瞎寻思的。可能有啰嗦,也可能有不对,如果觉得不合时宜,也权当逗您一乐了~ 为什么是38件呢?因为稀稀散散写了一个多月,实在编不出来第39件了。
在传统的大数据元数据管理系统中,以 HiveMetaStore 为核心的架构存在诸多问题和挑战。随着数据湖大规模应用、AI 数据大量增长、数据安全与数据治理被更加被重视,我们难以基于原有的架构或组件实现一套统一的元数据管理系统,进而解决数据孤岛、统一权限,多维度数据治理等问题。因此,在 B 站 我们引入了 Gravitino,本次分享将介绍 Gravitino 在 b 站的最佳实践。其中包括了统一了多种数据源的元数据视图,统一跨数据源任务的 schema 信息,并且基于其中的 Fileset 概念对非结构化数据进行管理与数据治理,取得了可观的收益。
在当前互联网行业飞速发展的背景下,企业对高效、稳定、灵活的服务治理方案需求愈发迫切。猫眼作为领先的互联网票务企业,通过采用腾讯云 北极星(Polaris),成功优化了其微服务架构,实现了显著的性能提升和故障容错能力增强。通过将注册配置中心从 Nacos 迁移至北极星,猫眼解决了多项技术瓶颈问题,在同等规格下,承载的服务注册数更多,注册发现性能提高了30%,并显著提升了系统的扩展性和稳定性。
在前端开发大模型应用的时候,处理和分割文本是常见需求,毕竟现在的大模型输入输出都有限-嵌入等也是有token限制的,合理的文本分割能显著提高模型的表现。Langchain提供了多种文本分割方式,本文将对比五种文本分割器
自 2015 年 TensorFlow 开源以来,伴随着深度学习的迅猛发展,通用深度学习框架经历了 10 年的高速发展,大浪淘沙,余者寥寥。曾几何时,也有过性能与易用性之争,也有过学术界和工业界之分,但随着本轮大模型应用的推波助澜,PyTorch 无疑已经成为事实上的大模型“标准框架”。时至今日,PyTorch AOTCompile 特性的发布更是直接撕下了 TensorFlow 最后一块“易于部署”的遮羞布。社区活跃度、性能和易用性,数张无形的大手,推搡着我们去拥抱更加现代化的新质生产力 —— PyTorch。
站外商详(H5/小程序)一直以来采用detailV3老接口数据,在样式和功能上,不能与最新版的客户端同步对齐,各个端之间的使用体验之间存在差异。