聊聊日志硬扫描,阿里 Log Scan 的设计与实践
Source :
mp.weixin.qq.com
Author :
唐恺(风毅)
泛日志(Log/Trace/Metric)是大数据的重要组成,伴随着每一年业务峰值的新脉冲,日志数据量在快速增长。同时,业务数字化运营、软件可观测性等浪潮又在对日志的存储、计算提出更高的要求。 从时效性角度看日志计算引擎:数仓覆盖 T + 1 日志处理,准实时系统(搜索引擎、OLAP) 瞄准交互式场景,实时需求则加速了 Flink 等流引擎的发展。 再回到用户场景角度,各式各样的数据呼唤多种计算模式,例如本文要讨论的日志搜索场景: 业务日志搜索、高频词查询:使用全文索引技术,期望低延时。 低频日志搜索、schema 不固定场景:通过 Scan(硬扫描)方式实现不依赖 schema(索引结构)的搜索,灵活但延时有所上升。