数据归档参考说明¶
数据归档逻辑
对来自实时消息通道的数据,支持按数据的事件时间或系统时间生成归档文件目录。对来自离线消息通道的数据和实时告警记录,支持按系统时间生成归档文件目录。生成的归档文件将根据存储路径信息,自动同步到指定的存储系统中。
设置存储路径时,若选择按事件时间生成目录,将对数据的内容进行解析并获取数据的事件时间。然后将位于同一个时间分区下的数据,写入到一个文件中。最后将生成的归档文件同步到对应的目录中。若选择按系统时间生成目录,将根据数据的系统时间戳,将位于同一个时间分区下的数据,写入到一个文件中。最后将生成的归档文件同步到对应的目录中。
存储路径分区参数
填写归档文件存储的根目录,并选择生成目录的方式后,还可以选择不同的时间分区参数格式。目前支持四种时间分区参数格式,具体说明如下:
| 参数格式 | 说明 | 示例 | 
|---|---|---|
| YYYYMMDD | 按天分目录 | /bucketName/samplePath/20190101/ | 
| YYYYMMDD/HH | 按天/小时分目录 | /bucketName/samplePath/20190101/00/ | 
| YYYY/MM/DD | 按年/月/天分目录 | /bucketName/samplePath/2019/01/01/ | 
| YYYY/MM/DD/HH | 按年/月/天/小时分目录 | /bucketName/samplePath/2019/01/01/00/ | 
归档周期说明
对于处在同一归档周期内的数据,将被写入同一个文件,然后按文件大小上限进行切分。目前支持数据归档任务以1小时为周期归档数据。
数据归档以归档任务提交的时刻为起点,开始从消息通道中读取新的数据。归档任务提交时对应的归档周期内,若无数据被缓存,则不会生成归档文件。如果修改归档任务配置,对于新增模型的数据,也将立即开始归档。
| 归档周期 | 任务计划开始时间 | 归档数据范围 | 
|---|---|---|
| 1小时 | 00:00:00, 01:00:00, 02:00:00, …, 23:00:00 | 以01:00:00为例,归档数据区间为[00:00:00, 01:00:00) | 
| 12小时 | 00:00:00, 12:00:00 | 以12:00:00为例,归档数据区间为[00:00:00, 12:00:00) | 
| 24小时 | 00:00:00 | 以2019-01-02 00:00:00为例,归档数据区间为[2019-01-01 00:00:00, 2019-01-02 00:00:00) | 
备注
- 归档数据区间的范围,以数据的系统时间戳为准。若数据系统时间戳位于当前归档数据区间内,将按照归档策略配置被归档,并被同步到相应的目录分区中。 
归档文件生成规则
- 在当前归档周期内,只有到达至少一条数据,才会触发生成归档文件。若当前归档周期内,没有到达任何一条数据,则不会自动生成任何文件或目录。 
- 选择实时消息通道时,若选择按事件时间生成目录,当上传数据的事件时间晚于系统时间1小时或早于系统时间360小时,归档文件会被保存到用户配置的根目录下,名为 - archive_recycling_${filename}的文件夹中(其中- filename是归档策略中配置的归档文件的名称)。
- 生成的归档文件每列对应的内容如下表所示: 
| 字段名称 | 字段描述 | 
|---|---|
| orgId | 组织ID | 
| modelId | 模型标识符 | 
| assetId | 资产ID | 
| measurepoints | 测点名称 | 
| timestamp | 测点事件时间 | 
| value | 测点数据值 | 
| quality | 质量位 |