随着传统行业向工业 4.0 迈进,企业对数据分析的要求越来越高。现代、先进的分析能力,能够基于大数据,为企业提供异常监测,实时报警,并为产能、成本、设备维护等提供更好的预测,让决策者有更好的宏观整体把控。随着 AI 技术的蓬勃发展,决策者也正在积极寻求降低决策成本、提高运行效率的方法。
传统的数据分析平台无法满足现代分析的要求,更不用说引入 AI 了。通常,它们缺乏集中多个站点数据的能力,导致分析工具无法获得公司运营的全局视图。更重要的是,它们多为封闭的系统,很难与更为先进的第三方分析工具集成。
TDengine 为工业数据提供了一个开放的解决方案,使用户能够利用现代的数据分析工具进一步挖掘数据的价值,支持公有云和私有化部署,进而实现更为开放、低成本、并具水平扩张能力的实时分析。并且,TDengine 是一个开放的系统,可以与最新的 AI 分析工具无缝集成,能够使 AI 赋能传统企业。
同时,TDengine 支持 SQL,对于数据分析师而言,使用 TDengine 就像在使用一个关系型数据库。而且通过超级表、存储和计算分离、数据按时间分区、预计算等多种手段,TDengine 提供了强大而又简单易用的分析能力。具体而言,TDengine 的分析能力具有以下显著特点:
- 多个数据采集点之间的高效聚合:TDengine 针对时序数据的特点,提出创新的超级表概念,将时序数据与标签数据分离存储。无需 JOIN,只需要指定超级表的标签过滤条件,就可将同类型的数据采集点进行高效的聚合操作,这使得组织和查找数据更加简单。此外,TDengine 允许向每个数据采集点添加多达 128 个标签,也支持在以后删除和更新这些标签。TDengine 提供了一种将数据切割成多维立方体以进行多维分析的强大方法。
- 计算存储分离:从 3.0 起,TDengine 支持存算分离,系统可以根据需要,启动一个或多个计算节点,增加计算资源,加快复杂查询的速度,减小 Latency。对于云平台,计算节点可以是一个容器,可以快速地启动或停止,计算存储分离将充分利用云平台的弹性计算资源。
- 历史与实时数据的分析完全统一:TDengine 按时间段对数据自动进行分区,即使是 10 年的数据,也无需分库分表,不存在档案数据一说。为降低存储成本,按照数据的新老程度,实行多级存储,但对用户而言是完全透明的。无论是查询最新数据还是 10 年前的数据,只是查询的起止时间不同。
- 时序数据分析的特有功能:TDengine 在标准 SQL 的基础上,针对时序数据的处理进行扩展,提供累计求和、时间加权平均、移动平均、变化率、时间窗口,session 窗口、state 窗口、插值等众多时序数据分析功能。通过时间窗口和插值,可以将不同数据采集点的数据按固定时间间隔将数据的时间戳对齐,便于后续的进一步分析。可以参考 SQL手册了解更多信息。
- 实时数据分析:TDengine 既提供了时间驱动的流式计算(连续查询),也提供了事件驱动的流式计算。不仅可以对单个数据采集点生成的数据流进行流式计算,也可以对多个采集点的数据流聚合后进行流式计算。对自定义函数的支持更是让流计算能方便地提供对数据的前置处理、转换或任何其他复杂计算。关于流式计算,请看用户文档流式计算。
- 支持Python:不仅提供 Python 连接器,还支持 Pandas 及 data frame,让喜爱 Python 的数据分析师可以很方便地利用各种 Python 库做时序数据分析。
- 其他便捷的数据访问、分析手段:利用 TDengine 提供的命令行程序,可以在终端执行各种即席查询、或者导入导出数据。提供 R 与 Matlab 以及多种编程语言的连接器,支持与 Grafana、Looker 的无缝集成。
- 与先进的 AI 分析工具无缝集成:TDengine 是一个开放系统,提供标准接口,可以轻松与最新的 AI 分析工具集成。
在典型的工业 4.0 场景下,TDengine 可以作为时序数据仓库(Time-Series Data Warehouse) 使用,不再需要将时序数据导入到专门的数据仓库或数据湖进行处理分析,数据平台的成本将大幅降低。