Timescale Cloud:性能、规模、企业级
自托管产品
MST
您可以使用 Livesync 将 S3 存储桶中的 CSV 和 Parquet 文件实时同步到您的 Timescale Cloud 服务。Livesync 持续运行,使您能够将 Timescale Cloud 用作分析数据库,数据从 S3 持续同步。这使您可以充分利用 Timescale Cloud 的实时分析功能,而无需开发或管理 S3 和 Timescale Cloud 之间的自定义 ETL 解决方案。

您可以使用 Livesync 同步现有数据和新数据。Livesync 可以执行以下操作:
将数据从 S3 存储桶实例同步到 Timescale Cloud 服务。
- 使用 glob 模式识别要同步的对象。
- Livesync 使用返回的对象进行后续查询。这种高效方法意味着文件按字典序
同步。
- Livesync 监视 S3 存储桶中的新文件并自动导入它们。它按可配置的计划运行并跟踪已处理的文件。
- 对于大量积压数据,Livesync 每分钟检查一次,直到追上进度。
同步多种文件格式的数据
- CSV:检查文件是否为
.gz
和.zip
格式的压缩文件,然后使用 timescaledb-parallel-copy进行处理。
- Parquet:文件转换为 CSV 格式,然后使用 timescaledb-parallel-copy
进行处理。
- CSV:检查文件是否为
Livesync 提供一个选项,可以在文件到表模式映射设置期间启用超表。一旦 Livesync 启动,您可以通过 SQL 编辑器启用列式存储和连续聚合。
Livesync 提供默认的 1 分钟轮询间隔。这意味着 Timescale Cloud 每分钟检查一次 S3 源是否有新数据。您可以通过设置 cron 表达式来自定义此间隔。
Livesync for S3 将数据从 Amazon S3 存储桶持续导入到您的数据库中。它监视您的 S3 存储桶中与指定模式匹配的新文件,并自动将其导入到您指定数据库表。
注意:目前,Livesync for S3 仅同步现有文件和新文件,不支持根据 S3 中对 Timescale Cloud 服务表的更新和删除操作来更新或删除记录。
早期访问:Livesync 不支持生产使用。如果您有任何问题或反馈,请在 Timescale 社区的 #livesync 频道要遵循本页的步骤:
创建一个启用时序和分析的目标 Timescale Cloud 服务。
您需要您的连接详情。
确保可以访问包含数据文件的标准 Amazon S3 存储桶。
不支持目录存储桶。
配置 S3 存储桶的访问凭证。
支持以下凭证:
配置信任策略。设置:
Principal
:arn:aws:iam::142548018081:role/timescale-s3-connections
。ExternalID
:设置为您要同步到的服务的 Timescale Cloud 项目 ID 和 Timescale Cloud 服务 ID,格式为<projectId>/<serviceId>
。这是为了避免混淆代理问题
。
授予以下访问权限:
s3:GetObject
.s3:ListBucket
.
CSV:
最大文件大小:1 GB
要增加此限制,请联系 sales@timescale.com
最大行大小:2 MB
支持的压缩格式
.gz
.zip
高级设置
- 分隔符:默认字符为
,
,您可以选择不同的分隔符 - 跳过标题:如果您的文件有标题,则跳过第一行
- 分隔符:默认字符为
Parquet:
- 最大文件大小:1 GB
- 最大行大小:2 MB
同步迭代:
为防止系统过载,Livesync 在每次同步迭代中最多跟踪 100 个文件。额外的检查仅填充空的队列槽。
要使用 Timescale 控制台将数据从 S3 存储桶同步到 Timescale Cloud 服务:
连接到您的 Timescale Cloud 服务
在 Timescale 控制台
中,选择要同步实时数据的服务。
启动 Livesync
- 点击
Actions
>Livesync for S3
。 - 点击
New livesync for S3
。
- 点击
将源 S3 存储桶连接到目标服务
在
Livesync for S3
中,设置Bucket name
和Authentication method
,然后点击Continue
。有关创建连接 S3 存储桶所需的 IAM 角色的说明,请点击
Learn how
。Timescale 控制台连接到源存储桶。在
Define files to sync
中,选择File type
并设置Glob pattern
。使用以下模式:
<folder name>/*
:匹配文件夹中的所有文件。此外,任何以/
结尾的模式都将被视为/*
。<folder name>/**
:递归匹配所有文件。<folder name>/**/*.csv
:匹配特定文件类型。
Livesync 尽可能使用前缀过滤器,请仔细将模式放置在 glob 表达式的末尾。AWS S3 不支持复杂的过滤。如果您的表达式过滤了太多文件,列表操作可能会超时。
点击搜索图标,您会看到要同步的文件。点击
Continue
。
优化要同步到超表的数据
Timescale 控制台检查文件模式,如果可能,建议将哪个列用作超表中的时间维度。
选择每列的
Data type
,然后点击Continue
。选择间隔。可以是分钟、小时,也可以使用cron 表达式
。
对要同步的每个表重复此步骤。
点击
Start Livesync
。Timescale 控制台开始源数据库和目标服务之间的 Livesync,并显示进度。
监控同步
要查看 Livesync 进程的进度,请点击 Livesync 进程的名称。
您会看到正在同步的文件的状态。一次只能运行一个文件。
要暂停和重新启动 Livesync,请点击 Livesync 进程右侧的按钮并选择一个操作。
暂停期间,您可以在恢复之前编辑配置。
至此,您已使用 Livesync 将 S3 存储桶中的所有数据或特定文件实时同步到您的 Timescale Cloud 服务。
关键词