Library

ARTICLE
STRING
CONVERTER
ENCRYPT
NETWORK
MORE

CHART

MATH

COORDINATE

IMAGE

FILE
ARTICLE

STRING

CONVERTER

ENCRYPT

NETWORK

MORE

CHART

MATH

COORDINATE

IMAGE

FILE

Online Tools

All

Chinese

English

Newest

Hottest

4904 search results

【一文读懂】基于Havenask向量检索+大模型，构建可靠的智能问答服务

Havenask是阿里巴巴智能引擎事业部自研的开源高性能搜索引擎，深度支持了包括淘宝、天猫、菜鸟、高德、饿了么在内的几乎整个阿里的搜索业务。本文针对性介绍了Havenask作为一款高性能的召回搜索引擎，应用在向量检索和LLM智能问答场景的解决方案和核心优势。通过Havenask向量检索+大模型可以构建可靠的垂直领域的智能问答方案，同时快速在业务场景中进行实践及应用。

阿里巴巴技术

49 Technology lddgo Shared on 2024-03-13

Pipy 1.0 革新：开启可编程应用引擎的新旅程

在继续 Pipy 0.99.1 的重大更新和改进之后，我们非常自豪地宣布 Pipy 1.0 版本[1] 发布。这个版本不仅强化了 Pipy 作为一个高性能、可编程代理的角色，还引入了一系列激动人心的新特性和改进，旨在进一步提升开发者的工作效率和 Pipy 应用的功能性。

40 Technology lddgo Shared on 2024-03-13

Monorepo 解决方案 — 基于 Bazel 的 Xcode 性能优化实践

书接上回《Monorepo 解决方案 — Bazel 在头条 iOS 的实践》，在头条工程切换至 Bazel 构建系统后，为了支持用户使用 Xcode 开发的习惯，我们使用了开源项目 Tulsi 作为生成工具，用于将 Bazel 工程转换为 Xcode 工程。

字节跳动技术

57 Technology lddgo Shared on 2024-03-13

干货｜湖仓一体架构在火山引擎LAS的探索与实践

火山引擎湖仓一体分析服务LAS（Lakehouse Analytics Service），是面向湖仓一体架构的 Serverless 数据处理分析服务，提供字节跳动最佳实践的一站式 EB 级海量数据存储计算和交互分析能力，兼容 Spark、Presto、Flink 生态，帮助企业轻松构建智能实时湖仓。 LAS服务是什么？LAS有哪些优化特性？本文将从基础概念、数据库内核特性优化、数据服务化、业务实践等角度全方位介绍湖仓一体架构在LAS的探索与实践。

字节跳动技术

70 Technology lddgo Shared on 2024-03-13

云原生消息流系统 Apache RocketMQ 在腾讯云的大规模生产实践

本文将围绕 RocketMQ 5.x 的新特性展开探讨，详细解读其在腾讯云上的实际应用案例，并展望未来的发展规划。

腾讯技术

54 Technology lddgo Shared on 2024-03-13

淘宝人生2的AIGC技术应用——虚拟人写真算法技术方案

近几个月，随着基于Stable Diffusion的相关技术发展，基于参考图的角色定制化技术[1,2, 3, 4, 7]受到相关行业以及学者的广泛关注。其中，人像定制化是指：给定任务角色（参考图），通过提示词控制生成多样新的图像，并且图像中的人物身份信息和参考图保持一致。人像定制化生成技术可以分为1）基于角色LoRA训练以及2）基于注入图像特征两种方案。其中，基于LoRA训练的技术通过收集定制化人物的多张图像（数量越多，效果越好），将该角色的身份信息隐式的表达在添加了LoRA的Stable Diffusion中（或称为训练数字分身），对于每一个人物，在线训练的时长3~5min不等，例如《妙鸭相机》。而基于注入图像特征的方案规避了“数字分身”的训练过程，受到学者的广泛关注，一些学者利用Stable Diffusion能够生成某些名人多种图像这一特性，开发了少样本的训练方案[8]，另一些研究集中于从输入图像中学习到一些特征，注入到Stable Diffusion中。这类方案往往需要较大的数据集，效果相对更加出色。我们基于预训练的人物肖像特征提取器，设计了一种保持人物身份信息的技术方案

阿里巴巴技术

55 Technology lddgo Shared on 2024-03-13

短视频新闻的兴起

牛津大学路透新闻研究院每年都会推出一份观察报告《新闻、传媒和技术趋势预测》，来呈现全球新闻媒体在过去一年的发展趋势。在2024年的观察报告中，“平台转移”成为重要的关键词，事关受众资讯接受习惯的变化。报告引用了一项第三方数据，显示2023年来自Facebook的新闻网站流量下降了48%，来自X/Twitter的流量下降了27%。[1] 造成这种变化的重要原因，就是用户的新闻接收习惯发生了转变。目下，以TikTok为代表的短视频平台，正越来越成为年轻受众获取新闻类资讯的渠道。这不仅仅是牛津一家机构的结论。多项大众调研都发现，短视频平台越来越成为Z世代的主要新闻来源，也是欧美国家越来越受欢迎的新闻来源。2023年，皮尤(Pew Research Center)的一项调查发现，30岁以下成年人中的三分之一，经常在TikTok上浏览新闻。Ofcom关于英国新闻消费的最新报告也显示，TikTok是成年新闻受众增长最快的新闻来源。这些数据背后，呈现了全球新闻媒体行业正在发生的一项重要趋势与转变：短视频新闻正在快速崛起。

腾讯技术

54 Business lddgo Shared on 2024-03-13

RAG一文读懂！概念、场景、优势、对比微调与项目代码示例

本文结合“基于 ERNIE SDK+LangChain 搭建个人知识库”的代码示例，为您讲解 RAG 的相关概念。

百度技术

49 Technology lddgo Shared on 2024-03-13

深入浅出 LangChain 与智能 Agent：构建下一代 AI 助手

我们小时候都玩过乐高积木。通过堆砌各种颜色和形状的积木，我们可以构建出城堡、飞机、甚至整个城市。现在，想象一下如果有一个数字世界的乐高，我们可以用这样的“积木”来构建智能程序，这些程序能够阅读、理解和撰写文本，甚至与我们对话。这就是大型语言模型（LLM）能够做到的，比如 GPT-4，它就像是一套庞大的乐高积木套装，等待我们来发掘和搭建。

阿里巴巴技术

45 Technology lddgo Shared on 2024-03-13

如何扩展大模型的上下文长度｜得物技术

大模型的上下文长度是指我们在使用大模型的时候，给大模型的输入加上输出的字符（Token）总数，这个数字会被限制，如果超过这个长度的字符会被大模型丢弃。目前开源的大模型上下文长度一般不长，比如 Llama 2 只有 4K，Code-Llama 系列因为需要输入代码，扩展到了 16K。闭源系列模型的提供了更长的上下文长度，比如 OpenAI 在其最新模型 GPT-4 Turbo 中提供了 128K 的上下文长度，Anthropic 的 Claude 2.1 模型提供了 200K 上下文长度。一些场景需要较长上下文，比如，文档翻译需要将整篇文档输入给大模型进行翻译，长文档内容抽取需要大模型读取整篇长文档进行内容抽取，会议内容总结则需要给大模型输入会议聊天记录进行总结等。想要得到一个长上下文的大模型，一般有两种途径。一种是大模型在初始阶段被设置为长上下文，然后经过预训练，指令微调，对齐训练等方式得到一个长上下文大模型。另外一种方式是选择已经训练好的大模型，通过技术改造扩展其上下文长度，然后再进行微调训练得到长上下文模型。

得物技术

53 Technology lddgo Shared on 2024-03-13

English