
在传统数据架构中企业要想统一使用数据通常会先做一件事把数据搬到一起。业务系统中的数据通过 ETL 或 ELT 被抽取出来进入数据仓库、数据湖或湖仓平台再由分析系统、报表系统、数据科学平台和业务应用使用。这种模式曾经非常有效因为它解决了企业早期最核心的问题数据分散在各个系统中无法统一分析。但随着企业数据环境越来越复杂仅仅依赖“集中搬运”已经不够了。今天的数据源不再只是几个关系型数据库。企业同时拥有业务数据库、数据仓库、数据湖、文件系统、API、SaaS 应用、消息流、实时数据、第三方数据和外部数据服务。不同数据源有不同的结构、格式、协议、权限、更新频率和使用方式。如果仍然要求所有数据都先被搬到一个统一平台中再对外提供服务就会遇到很多问题数据搬运链路越来越长数据副本越来越多数据同步越来越复杂数据口径容易不一致敏感数据扩散风险增加实时数据难以及时进入统一平台AI 应用和业务应用也很难灵活按需访问数据。所以Data Fabric 要回答的一个关键问题是能不能在不把所有数据都物理搬运到一起的情况下让上层应用像访问一个统一数据层一样访问多源数据答案是可以。Data Fabric 的核心不是简单扩大数据仓库也不是把所有数据重新集中存储而是在多源异构数据之上建立统一访问、统一语义、统一治理和统一服务能力。其中虚拟数据层就是实现这一目标的关键路径。图1 Data Fabric 并非将所有数据先搬到同一存储中而是在多源异构数据之上通过数据源接入与适配、虚拟数据层、语义层、主动元数据和治理策略为上层应用提供统一数据服务。一、为什么“不搬运数据”成为 Data Fabric 的重要问题过去数据架构的主线是“集中”。企业先把分散在业务系统中的数据抽取出来再汇聚到数据仓库或数据湖中。这样做的好处很明显数据被集中管理计算资源可以统一调度报表和分析可以基于统一平台展开。但这个模式隐含了一个前提数据可以被搬走数据可以被复制数据可以被集中存储数据可以按照统一节奏进入分析平台。早期数据环境中这个前提基本成立但在今天情况已经发生变化。第一数据源更加分散。数据不只存在于企业内部数据库中还存在于云平台、SaaS 系统、文件系统、API 服务、消息流、设备系统和外部数据服务中。第二数据类型更加复杂。结构化数据、半结构化数据、非结构化数据、实时流数据、文档数据、日志数据和模型特征数据并存。第三数据时效要求更高。有些数据适合离线同步有些数据要求分钟级更新有些数据需要实时响应。单一批处理模式无法覆盖全部场景。第四数据治理要求更严格。数据复制越多安全边界越复杂敏感字段在多个平台之间流转会增加权限控制、脱敏管理和审计追踪难度。第五应用调用方式更加多样。过去主要是报表和 BI 使用数据现在 AI Agent、智能分析、数据服务、业务系统和模型服务都需要直接调用数据能力。因此Data Fabric 并不是完全否定数据仓库和数据湖而是改变了一个基本假设统一使用数据不一定等于所有数据都必须先被物理集中存储。二、Data Fabric 的统一访问逻辑Data Fabric 的统一访问逻辑可以理解为一条链路多源异构数据先经过数据源接入与适配完成协议适配、结构识别、元数据采集和访问认证随后进入 Data Fabric 的统一访问体系由虚拟数据层形成统一逻辑视图再结合语义层、主动元数据和治理策略对数据含义、访问路径、质量状态、权限规则和服务方式进行统一管理最终以数据 API、指标服务、查询服务、特征服务、知识服务等形式输出给 AI 应用、业务应用、分析系统和数据服务调用方。这条链路的重点不是“搬运数据”而是“组织访问”。Data Fabric 不是让上层应用直接面对底层复杂数据源而是在底层数据源与上层应用之间建立一层统一访问与服务封装能力。上层应用看到的不是某个具体数据库里的某张表也不是某个文件系统中的某个目录而是经过语义解释、治理控制和服务封装的数据能力。这就是虚拟数据层的价值。它让应用不需要知道数据到底来自业务数据库、数据仓库、数据湖、文件系统、API、SaaS 还是消息流。应用只需要面向统一的数据服务、统一的指标口径、统一的业务对象和统一的访问接口使用数据。三、虚拟数据层是什么虚拟数据层是在多源异构数据之上构建的一层逻辑访问层。它不要求所有数据先物理集中存储而是通过数据源接入与适配、语义映射、查询编排、权限控制、缓存优化和服务封装为上层应用提供统一、受控、可复用的数据访问能力。这里有几个关键词。第一个关键词是“逻辑访问”。虚拟数据层不是一个新的数据库也不是一个新的数据湖。它更像一层逻辑视图把分散在不同系统中的数据统一组织起来。第二个关键词是“多源异构”。虚拟数据层面对的不是一种数据源而是多种数据源数据库、数仓、数据湖、对象存储、文件系统、API、SaaS、消息流等。第三个关键词是“受控访问”。统一访问不等于绕过治理。虚拟数据层必须嵌入权限控制、动态脱敏、访问审计和策略执行。第四个关键词是“服务封装”。虚拟数据层最终不是把底层数据裸露给应用而是把数据封装成可调用、可管理、可审计的数据服务。四、虚拟数据层和数据仓库、数据湖有什么区别很多人容易把虚拟数据层理解为“替代数据仓库”或“替代数据湖”。这个理解并不准确。数据仓库、数据湖和虚拟数据层解决的是不同层面的问题。数据仓库强调结构化建模和统一分析。它适合沉淀稳定口径、核心指标、主题数据和高频分析场景。数据湖强调大规模、多类型数据存储。它适合存放结构化、半结构化和非结构化数据支撑数据探索、数据科学和机器学习。湖仓一体强调湖和仓之间的存储、计算和管理统一。它试图兼顾数据湖的开放性和数据仓库的分析性能。虚拟数据层强调的是跨源访问、统一视图、查询编排、治理嵌入和服务输出。它不一定自己存储所有数据而是在多源数据之上建立统一访问能力。因此虚拟数据层不是替代数据仓库和数据湖而是与它们共存。对于高频、稳定、强建模的分析场景数据仓库仍然非常重要对于多类型、大规模、探索性数据场景数据湖仍然非常重要对于跨系统、跨平台、按需访问、统一服务和 AI 调用场景虚拟数据层则更加关键。五、Data Fabric 如何做到“不搬运也能访问”Data Fabric 能够在不搬运全部数据的情况下实现统一访问依赖几个关键技术动作数据源接入与适配、统一逻辑视图、查询编排与路由、查询下推与缓存优化、权限透传与动态脱敏、服务封装与调用管理。数据源接入与适配负责屏蔽不同数据源的协议、认证方式、数据结构和查询能力差异。统一逻辑视图则把底层分散的数据源映射为上层可以理解的数据对象例如客户、订单、产品、设备、合同、组织、渠道和指标。查询编排与路由负责判断一个请求涉及哪些数据对象这些数据对象分布在哪些数据源中哪些查询可以在源端执行哪些数据需要跨源聚合哪些结果可以从缓存中获得哪些路径成本更低。查询下推与缓存优化可以减少不必要的数据移动。所谓查询下推就是把过滤、聚合、排序、连接等操作尽可能推到源系统执行。对于高频访问的数据结果则可以通过缓存、物化视图、结果复用等方式提升性能。权限透传与动态脱敏保证统一访问不绕过治理。系统需要结合用户身份、组织角色、数据密级、字段敏感性、审批状态和访问目的动态执行访问控制、脱敏和审计。最后虚拟数据层把数据能力封装为数据 API、指标服务、查询服务、特征服务、知识服务和订阅推送服务让上层应用使用稳定接口而不是直接访问底层数据源。图2 虚拟数据层的关键不是新增一个存储系统而是在多源数据之上形成统一逻辑视图、查询编排、查询下推、权限透传、动态脱敏和服务封装能力。六、主动元数据如何驱动虚拟数据层虚拟数据层要真正运行起来不能只依赖静态配置。它需要主动元数据提供动态判断依据。主动元数据可以告诉虚拟数据层哪个数据源更新更及时哪份数据质量更高哪个字段涉及敏感信息当前用户是否有访问权限哪些数据被频繁调用哪些查询路径性能更好哪些服务依赖哪些上游数据哪些数据组合值得封装成标准服务。因此主动元数据决定了虚拟数据层如何访问、能否访问、从哪里访问、以什么方式访问。第一主动元数据帮助选择数据源。当多个数据源都可以提供相似数据时系统可以根据时效、质量、成本和权限状态选择更合适的数据源。第二主动元数据帮助优化查询路径。通过查询日志、性能指标和访问频率系统可以判断哪些查询适合下推哪些结果适合缓存哪些路径需要优化。第三主动元数据帮助执行治理策略。通过敏感标签、权限规则和数据密级系统可以在访问过程中执行动态脱敏、行列级权限和审计控制。第四主动元数据帮助评估影响范围。当上游数据结构、质量或任务状态发生变化时系统可以判断哪些虚拟视图、数据服务和应用调用会受到影响。第五主动元数据帮助推荐服务化对象。当某些数据组合被频繁访问或者某些指标被多个应用重复调用时系统可以推荐将其封装为标准服务。所以虚拟数据层解决统一访问主动元数据负责动态判断和持续优化。没有主动元数据虚拟数据层只能靠人工配置和静态规则运行有了主动元数据虚拟数据层才能具备感知、判断、优化和治理能力。图3 主动元数据为虚拟数据层提供数据质量、权限安全、血缘影响、使用价值、性能成本和更新时效等上下文使统一访问从静态配置走向动态优化。七、为什么 AI 应用特别需要统一访问能力AI 应用对 Data Fabric 的统一访问能力有更高要求。传统报表往往围绕固定指标和固定数据集展开而 AI 应用面对的问题更开放、更动态也更依赖上下文。例如一个企业 AI Agent 要回答“本月某产品线毛利下降的原因是什么”它可能需要同时访问销售数据、成本数据、库存数据、订单数据、产品主数据、渠道数据、生产数据、质量数据和历史分析报告。这些数据可能分布在不同系统中结构不同更新频率不同权限要求不同质量状态也不同。如果没有统一访问能力AI 应用会遇到几个问题。第一找不到数据。AI 不知道相关数据分布在哪些系统中也不知道应该调用哪些数据服务。第二理解不了数据。底层字段名和业务含义之间存在距离AI 可能误用字段或混淆指标口径。第三无法统一治理。AI 调用数据时如果没有统一权限控制和脱敏规则可能带来合规风险。第四结果不可追溯。如果没有统一血缘和审计AI 输出的结论就难以解释数据来源和计算过程。Data Fabric 的虚拟数据层可以为 AI 提供一个受控的数据访问入口。主动元数据提供数据状态、质量、权限、血缘和使用反馈语义层提供业务口径和对象关系治理策略提供权限和脱敏控制服务层提供稳定调用接口。这样AI 调用的不是底层混乱数据而是经过统一访问、统一语义和统一治理的数据能力。八、常见误区第一个误区不搬运数据等于不需要数据仓库。不是。数据仓库仍然适合稳定、结构化、高频分析场景。虚拟数据层不是替代数据仓库而是把数据仓库、数据湖、业务系统、API 和其他数据源统一组织起来。第二个误区虚拟数据层就是联邦查询。不完全是。联邦查询只是虚拟数据层的一种能力。真正的虚拟数据层还包括统一逻辑视图、语义映射、查询编排、权限控制、缓存优化、动态脱敏、服务封装和主动元数据驱动。第三个误区统一访问就是直接访问原始数据。不是。Data Fabric 强调受控访问和服务输出而不是把原始数据直接暴露给应用。统一访问必须经过语义、治理和服务封装。第四个误区虚拟数据层可以解决所有性能问题。不能。对于高并发、高复杂度、强实时和大规模计算场景仍然需要缓存、物化、预计算、数据仓库或湖仓平台支撑。第五个误区没有主动元数据也可以做好虚拟数据层。很难。没有主动元数据虚拟数据层只能依赖静态规则无法动态判断数据质量、权限状态、性能路径、血缘影响和使用价值。九、总结Data Fabric 所说的不搬运数据并不是绝对不移动任何数据也不是否定数据仓库、数据湖和湖仓平台的价值。它真正强调的是不再把“所有数据物理集中到一个地方”作为统一访问的唯一前提。Data Fabric 通过虚拟数据层在多源异构数据之上建立统一逻辑视图再结合主动元数据、语义层和治理策略把底层复杂的数据环境封装为上层可调用的数据服务。这种模式带来的变化是从“先搬数据再使用数据”走向“按需组织数据能力”从“应用直接面对底层数据源”走向“应用面向统一数据服务”从“静态数据集成链路”走向“主动元数据驱动的动态访问体系”从“数据副本扩散”走向“统一访问、受控治理和服务输出”。因此Data Fabric 的价值不只是让数据接得上而是让数据在不被随意复制、不直接暴露、不失去治理控制的前提下被统一理解、统一访问和统一服务化。真正成熟的 Data Fabric并不是简单减少数据搬运而是让企业在复杂数据环境中形成一种新的数据使用方式数据可以分布存在但能力必须统一输出数据可以按需访问但治理必须始终在线数据可以不先搬走但必须能够被理解、被控制、被服务化。