TDengine 联合创始人廖浩钧博士受邀在源创会发表演讲

随着数据量的跃升和数据处理需求的不断更迭,数据库类型也变得愈加多样化,关系型数据库、分布式数据库、时序数据库(Time Series Database)等各种类型的数据库百花齐放,各自在不同的应用场景中展现出优势和擅长之处。为了让开发者了解到各类数据库的技术含量和应用价值,OSCHINA 特别策划“数据库,2024 开炫”主题源创会,邀请不同类型的开源数据库齐聚一堂,共同探讨数据库技术的发展历程、技术特点、市场竞争、应用场景等方面的知识。

TDengine 联合创始人廖浩钧博士受邀在源创会发表演讲 - TDengine Database 时序数据库

作为国内外大数据平台的优秀代表,TDengine 凭借低成本、高性能的数据处理架构,助力着包括石油、汽车、烟草、煤炭、水利等传统行业企业实现数字化转型,解决了传统数据解决方案中存在的性能瓶颈和高成本等问题,产品实力和生态建设都在迅速发展。在本次大会上,TDengine 联合创始人&核心研发廖浩均博士受邀进行了主题演讲,他为正面临数据处理难题的与会企业和开发者提供了宝贵的解决思路和指导,进一步推动了数字化转型和数据处理技术的发展。

廖浩均指出,从时序数据的特征和应用需求出发,普通数据库在处理时序数据时存在一系列问题,包括“写入性能适配写入需求难度较高”、“查询性能无法满足应用需求”、“扩展能力较弱”、“无法提供与时序数据类型相关的查询功能”等。近年来,随着这些问题的持续爆发,越来越多的企业对时序数据库的关注度不断增加。

尽管这些挑战促进了时序数据库的发展和应用,但这一领域仍然存在数据“高基数”、没有真正实现云原生、与第三方系统和应用生态适配不完善等诸多问题。TDengine 作为一款核心是时序数据库的物联网、工业互联网大数据平台,不光提供了更高写入性能、查询性能和扩展能力,满足时序数据处理的需求,还在 3.0 阶段升级成为一款真正的云原生时序数据库,破解了困扰时序数据库发展的高基数难题,支持 10 亿个设备采集数据、100 个节点,支持存储与计算分离,并打造了全新的流式计算引擎,无需再集成 Kafka、Redis、Spark、Flink 等软件,大幅降低系统架构的复杂度。

在本次演讲中,廖浩均总结道,TDengine 有四大技术特点值得关注:

任务外部化:将能够外部化的功能全部从数据节点(dnode)剥离,包括但不限于:SQL 解析、SQL 调度/重试、写入协议解析、REST 服务、二阶段聚合(流/批查询)、任务状态报告。

存算分离:为了解决可能导致海量时序数据扫描的优化策略失效问题,TDengine采取了无状态的计算节点与数据节点(data node)分离的架构。查询优化器在生成物理计划时,会将最下游的聚合算子下推到存储节点上执行。

日志为中心的设计:预写日志在 TDengine 中不仅用于参与主从副本一致性同步和防止内存数据丢失,还在计算过程中发挥重要作用。订阅服务和流计算利用预写日志作为数据源进行处理。从流处理角度来看,LSM-Tree+ 整理后的数据文件(TSDB)提供的是时序数据快照(snapshot)服务,为无状态查询(批查询)提供支持。在 TDengine 中所有的批查询都是带有版本号的快照查询,这有助于提高查询效率和数据一致性。

数据节点虚拟化:虚拟节点作为存储管理的最小单元,提供数据分片、负载均衡、弹性扩容等诸多功能。

目前 TDengine 3.0 版本已经更新至 3.2.3.0,在研发人员和社区用户的共同努力下不断优化,产品的稳定性和易用性获得了大幅提升,已成功应用于知轮科技的智慧轮胎系统黑格智能 3D 打印业务韵达快递业务中国地震台网中心中移物联智慧出行等众多企业项目中,助力他们更高效地处理和管理时序数据,推动数字化转型和业务发展。