文库

文库
字符
转换
加密
网络
更多

图表

数学

坐标

图片

文件
文库

字符

转换

加密

网络

更多

图表

数学

坐标

图片

文件

在线工具大全

4956 条查询结果

自"三驾马车"伊始, 大数据处理技术已经发展了二十年。在前十年中, Hive+Spark 这套离线处理技术就已经基本完善; 近十年来, Flink的快速发展又有效地解决了实时处理的问题。然而, 低成本的近实时处理依然面临挑战。近来, 随着业界对近实时处理及流批一体架构的需求愈发强烈, 增量计算开始重新被关注。Flink在1.20中推出了 Materialized Table(MT) 来统一流批两种模式的处理, 配合Paimon已有的Changelog存储能力, 开源低成本增量计算的曙光已至。本文首先介绍增量计算相关的概念, 随后结合 Flink 和 Paimon 两个引擎通过具体案例来介绍当前开源引擎增量计算的能力。从中我们可以得出当前的增量计算还有哪些不足, 亦可窥视其未来发展方向。

阿里巴巴技术

76 技术 lddgo 分享于 2024-12-18

十六年所思所感，聊聊这些年我所经历的 DevOps 系统

从 2008 年开始，作者陆陆续续参与了多个 DevOps 系统的建设，如今，审视这些系统的建设初衷和它们的设计思路或遇到的问题，依然有不少借鉴意义。本文按照时间顺序，把每个 DevOps 系统的特点，诞生的背景，以及在当时所主要解决的问题做一个概要的介绍，同时，也会以今天的视角再次审视这些问题，同样的问题经过十几年的发展，解决方案上会有哪些不同。

阿里巴巴技术

71 技术 lddgo 分享于 2024-12-18

初探图谱Embedding用于异常检测（一）

本文探讨了图谱Embedding在业务安全与反作弊等关键业务场景中的应用，特别是在异常检测方面。传统的统计方法在面对复杂多变的攻击场景时显得力不从心，因此本文介绍了一种基于One-Hot编码的图谱Embedding算法GEE，通过标签传播实现结点特征的表达。作者还通过两篇论文的代码验证，发现稀疏矩阵改进版算法在测试数据集上性能不佳，并进一步优化了算法，使其在计算效率上有所提升。本文对于利用图谱数据进行异常检测的研究和实践具有一定的指导意义。

百度技术

65 技术 lddgo 分享于 2024-12-18

基于RocksDB编写一个简单的SQL数据库｜得物技术

数据库DBMS是当前互联网开发者最熟悉的基础设施之一，很多后端开发者的入门项目就是一个简单的基于MySQL的数据管理系统。笔者一直想自己编写一个简单的SQL数据库，正好最近正在学习RocksDB和Zig语言的内容，就想利用这个机会作为学习成果的检验，于是就有了这个小项目。

得物技术

70 技术 lddgo 分享于 2024-12-18

Kafka Streams 在监控场景的应用与实践

介绍 Kafka Streams 的原理架构，常见配置以及在监控场景的应用。

vivo技术 kafka

69 技术 lddgo 分享于 2024-12-18

38件程序员应该知道的事儿

这38件事儿，有的是从书上看到的，有的是跟其他同事学到的，有的是自己瞎寻思的。可能有啰嗦，也可能有不对，如果觉得不合时宜，也权当逗您一乐了～为什么是38件呢？因为稀稀散散写了一个多月，实在编不出来第39件了。

腾讯技术

80 技术 lddgo 分享于 2024-12-17

Apache Gravitino 在B站的最佳实践

在传统的大数据元数据管理系统中，以 HiveMetaStore 为核心的架构存在诸多问题和挑战。随着数据湖大规模应用、AI 数据大量增长、数据安全与数据治理被更加被重视，我们难以基于原有的架构或组件实现一套统一的元数据管理系统，进而解决数据孤岛、统一权限，多维度数据治理等问题。因此，在 B 站我们引入了 Gravitino，本次分享将介绍 Gravitino 在 b 站的最佳实践。其中包括了统一了多种数据源的元数据视图，统一跨数据源任务的 schema 信息，并且基于其中的 Fileset 概念对非结构化数据进行管理与数据治理，取得了可观的收益。

哔哩哔哩技术

72 技术 lddgo 分享于 2024-12-17

猫眼在腾讯云北极星上的最佳实践

在当前互联网行业飞速发展的背景下，企业对高效、稳定、灵活的服务治理方案需求愈发迫切。猫眼作为领先的互联网票务企业，通过采用腾讯云北极星（Polaris），成功优化了其微服务架构，实现了显著的性能提升和故障容错能力增强。通过将注册配置中心从 Nacos 迁移至北极星，猫眼解决了多项技术瓶颈问题，在同等规格下，承载的服务注册数更多，注册发现性能提高了30%，并显著提升了系统的扩展性和稳定性。

腾讯技术

65 技术 lddgo 分享于 2024-12-17

前端大模型入门（四）：教你如何根据场景选择合适的长文本分割方式

在前端开发大模型应用的时候，处理和分割文本是常见需求，毕竟现在的大模型输入输出都有限-嵌入等也是有token限制的，合理的文本分割能显著提高模型的表现。Langchain提供了多种文本分割方式，本文将对比五种文本分割器

阿里巴巴技术

72 技术 lddgo 分享于 2024-12-17

拥抱 PyTorch，来自 Gauss 的自我革命

自 2015 年 TensorFlow 开源以来，伴随着深度学习的迅猛发展，通用深度学习框架经历了 10 年的高速发展，大浪淘沙，余者寥寥。曾几何时，也有过性能与易用性之争，也有过学术界和工业界之分，但随着本轮大模型应用的推波助澜，PyTorch 无疑已经成为事实上的大模型“标准框架”。时至今日，PyTorch AOTCompile 特性的发布更是直接撕下了 TensorFlow 最后一块“易于部署”的遮羞布。社区活跃度、性能和易用性，数张无形的大手，推搡着我们去拥抱更加现代化的新质生产力 —— PyTorch。

腾讯技术

69 技术 lddgo 分享于 2024-12-16

简体中文