分布式时序数据库DolphinDB - SegmentFault 思否

DolphinDB定时作业教程

2021-03-30

阅读 8 分钟

2.6k

DolphinDB提供的定时作业（scheduled job）功能，可以让系统在指定的时间以指定的频率自动执行作业。当我们需要数据库定时自动执行一些脚本进行计算分析（譬如每日休市后分钟级的K线计算、每月统计报表生成）、数据库管理（譬如数据库备份、数据同步）、操作系统管理（譬如过期的日志文件删除）等工作时，可以用这个功能...

时序数据库DolphinDB文本数据加载教程

2021-03-29

阅读 21 分钟

2.1k

DolphinDB提供以下4个函数，将文本数据导入内存或数据库：loadText: 将文本文件导入为内存表。ploadText: 将文本文件并行导入为分区内存表。与loadText函数相比，速度更快。loadTextEx: 将文本文件导入数据库中，包括分布式数据库，本地磁盘数据库或内存数据库。textChunkDS：将文本文件划分为多个小数据源，再通过mr函...

量化交易干货丨如何使用DolphinDB计算K线

2021-03-09

阅读 11 分钟

3.5k

DolphinDB提供了功能强大的内存计算引擎，内置时间序列函数，分布式计算以及流数据处理引擎，在众多场景下均可高效的计算K线。本教程将介绍DolphinDB如何通过批量处理和流式处理计算K线。

干货丨DolphinDB元编程教程

2021-03-08

阅读 10 分钟

1.6k

元编程是指使用程序代码来生成可以动态运行的程序代码。元编程的目的一般是延迟执行代码或动态创建代码。DolphinDB实现元编程的方法DolphinDB支持使用元编程来动态创建表达式，包括函数调用的表达式、SQL查询表达式等。DolphinDB有两种实现元编程的方法：（1）使用一对尖括号<>来表示需要延迟执行的动态代码。例如...

干货丨Orca写数据教程

2021-03-03

阅读 13 分钟

2.4k

Orca项目在DolphinDB之上实现了pandas API，使用户能更高效地分析处理海量数据。在数据存储方面，与pandas相比，Orca具备以下显著优势：

大数据丨Orca与pandas的差异详解

2021-03-02

阅读 21 分钟

2.1k

由于DolphinDB是一款相对成熟的高性能分布式时序数据库，其底层对一些方法的处理机制已经成型，这就决定了Orca在某些细节方面会与pandas存在差异。为了方便用户更快地了解和掌握Orca，本文按照以下几个模块来系统地介绍Orca与pandas存在的差异。

干货丨Orca详细入门指南

2021-03-01

阅读 10 分钟

2.4k

本文将详细介绍Orca的安装方法、基本操作，以及Orca相对pandas的差异，用户在使用Orca编程时需要注意的细节，以便用户能充分利用DolphinDB的优势，写出高效的Orca代码。

干货丨Orca对DolphinDB分布式表的操作

2021-02-26

阅读 12 分钟

1.9k

DolphinDB是一个分布式时序数据库，并且内置了丰富的计算和分析功能。它可以将TB级的海量数据存储在多台物理机器上，充分利用CPU，对海量数据进行高性能分析计算。通过Orca，我们可以在python环境中使用与pandas语法相同的脚本对DolphinDB分布式数据库中的数据进行复杂高效的计算。本教程主要介绍Orca对DolphinDB分布式...

如何使用Orca开发量化策略？

2021-02-25

阅读 5 分钟

1.5k

本文讲述关于动量策略的一个实例。动量策略是最著名的定量长短期股票策略之一。自从Jegadeesh和Titman(1993)首次提出这个概念以来，它已广泛出现在学术研究和销售方面的著作中。投资者在动量策略中相信，个股中，过去的赢家将超越过去的输家。

Orca丨基于DolphinDB的分布式pandas接口

2021-02-24

阅读 2 分钟

2.4k

如果你已经熟悉pandas，你就能通过Orca包，充分利用DolphinDB的高性能和并发，处理海量数据，而不需要额外的学习曲线。如果你已经有现成的pandas代码，你不需要对已有的pandas代码进行大量修改，就能迁移到Orca。

干货丨时序数据库DolphinDB代码模块复用教程

2021-02-23

阅读 3 分钟

1.8k

在软件团队开发项目中，要提升开发效率和质量，代码必然要进行封装和重用。在使用DolphinDB的脚本进行开发时，可以使用module和use方法，来声明和使用可重用模块。

技术干货丨时序数据库DolphinDB高可用设计及部署教程

2021-02-22

阅读 5 分钟

2.2k

DolphinDB database采用多副本机制，相同数据块的副本存储在不同的数据节点上。即使集群中某个或多个数据节点宕机，只要集群中还有至少1个副本可用，那么数据库就可以提供服务。

干货丨如何使用DolphinDB回放加密货币盘口与逐笔交易数据

2021-02-05

阅读 7 分钟

2.5k

对加密货币盘口与逐笔交易数据的回放展示，可帮助量化研究人员检验量化策略，也有助于交易员复盘，加深对市场的洞察。DolphinDB可实现盘口和逐笔交易数据的高速回放，以及对回放结果逐点查询。

干货丨DolphinDB高频数据处理技巧：数据透视的应用

2021-02-04

阅读 4 分钟

2.2k

我们进行数据处理时，考虑到后续的向量化操作，有时会希望数据或者中间结果将原始数据转置，即每行代表不同的时刻，而每列代表一只股票。在DolphinDB中可通过pivot by语句对原始数据或分组聚合结果进行行列转置。若与向量化操作搭配使用，在高频数据处理和计算中，行列转换不仅可简化策略代码，还能提高代码效率。具体请...

干货丨DolphinDB高频数据处理技巧：非等间隔的时间序列处理

2021-02-03

阅读 5 分钟

2.4k

高频时间序列的处理中，经常会用到滑动，偏移，聚合，转置，关联等操作。譬如说我想对一个某指标列用过去一个小时的数据的均值来做平滑处理，又或者想找到每一个时刻，该指标一个小时前的相应的指标值。如果序列中每个指标的间隔是相等的而且中间没有缺失数据，譬如说0.5s，3s，那么我们可以把时间窗口转化成固定记录条...

干货丨DolphinDB高频数据处理技巧：非等间隔的时间序列处理

2021-02-02

阅读 5 分钟

1.6k

高频时间序列的处理中，经常会用到滑动，偏移，聚合，转置，关联等操作。譬如说我想对一个某指标列用过去一个小时的数据的均值来做平滑处理，又或者想找到每一个时刻，该指标一个小时前的相应的指标值。如果序列中每个指标的间隔是相等的而且中间没有缺失数据，譬如说0.5s，3s，那么我们可以把时间窗口转化成固定记录条...

干货丨DolphinDB高频数据处理技巧：如何将高频信号转化成离散的买卖信号

2021-02-01

阅读 3 分钟

1.7k

高频交易中，我们通常首先基于tick级的报价信息和交易信息来生成信号量，然后将这些信号量转化成离散的买卖信号，譬如说 1 （买入）， 0 （不变）， -1（卖出），接着根据资金和已有头寸以及其他优化规则来生成订单发送到交易系统。本文要讨论第二个步骤，即如何将信号量转化成离散的买卖信号，也就是把一个浮点数类型的...

干货丨如何使用时序数据库DolphinDB进行淘宝用户行为分析

2021-01-29

阅读 8 分钟

2.3k

DolphinDB是新一代的高性能分布式时序数据库(time-series database)，同时具有丰富的数据分析和分布式计算功能。本教程使用DolphinDB对淘宝APP的用户行为数据进行分析，进一步分析业务问题。

干货丨DolphinDB API性能基准测试报告

2021-01-28

阅读 7 分钟

3.4k

DolphinDB是一款高性能分布式时序数据库（time-series database)，属于列式关系型数据库，由C++编写，具有内置的并行和分布式计算框架，可用于处理实时数据和海量历史数据。

干货丨如何用前端chart组件展示DolphinDB数据教程

2021-01-27

阅读 5 分钟

1.7k

数据图表前端组件在物联网和实时监控的场景有广泛的应用，当前比较流行的有Echarts、HighCharts等组件。本文主要讲解如何通过DolphinDB的Web数据接口和JavaScript来展示 DolphinDB time-series database 的数据。

干货丨时序数据库DolphinDB横截面引擎教程

2021-01-26

阅读 6 分钟

2.2k

在处理实时流数据时，不仅需要按照时间做纵向聚合计算（时间序列聚合引擎），还需要对最新的数据做横向比较和计算，如金融里对所有股票的最新报价求百分位、工业物联网中计算一批设备的温度均值等。DolphinDB database 提供了横截面聚合引擎，可以对流数据中所有分组的最新数据做聚合运算。

干货丨如何用Redash连接到DolphinDB数据源

2021-01-25

阅读 2 分钟

2.3k

Redash是一款开源的BI工具，提供了基于Web的数据库查询和可视化功能。DolphinDB支持通过https协议的POST和GET接口获取数据，可以使用Redash中的JSON和URL两种数据源来连接DolphinDB database。

干货丨时序数据库DolphinDB异常检测引擎教程

2021-01-21

阅读 6 分钟

1.7k

物联网设备（如机床、锅炉、电梯、水表、气表等等）无时无刻不在产生海量的设备状态数据和业务消息数据，这些数据的在采集、计算、分析过程中又常常涉及异常数据的检测。

时序数据库DolphinDB历史数据回放教程

2021-01-20

阅读 7 分钟

2.3k

一个量化策略在用于实际交易时，处理实时数据的程序通常为事件驱动。而研发量化策略时，需要使用历史数据进行回测，这时的程序通常不是事件驱动。因此同一个策略需要编写两套代码，不仅耗时而且容易出错。在 DolphinDB database 中，用户可将历史数据按照时间顺序以“实时数据”的方式导入流数据表中，这样就可以使用同一...

干货丨时序数据库DolphinDB与Spark的性能对比测试报告

2021-01-19

阅读 7 分钟

3.1k

Spark是基于内存计算的通用大数据并行计算框架，内置多种组件，如批处理、流处理、机器学习和图处理。Hive是基于Hadoop的数据仓库，支持类SQL的命令查询，提升了Hadoop的易用性。Spark与Hive、Hadoop通常是搭配使用，利用Hive中的数据分区可以方便地管理和过滤数据，提高查询效率。

干货丨基于Docker的DolphinDB集群部署教程

2021-01-18

阅读 2 分钟

3.4k

Docker是一个开源的引擎，可以轻松地为任何应用创建一个轻量级的、可移植的、自给自足的容器。DolphinDB database 提供了基于docker的分布式集群部署包，可以让用户方便快捷的部署DolphinDB分布式集群。

干货丨时序数据库DolphinDB插件开发教程

2021-01-15

阅读 20 分钟

1.6k

DolphinDB支持动态加载外部插件，以扩展系统功能。插件用C++编写，需要编译成".so"或".dll"共享库文件。本文着重介绍开发插件的方法和注意事项，并详细介绍以下几个具体场景的插件开发流程：

干货丨时序数据库DolphinDB作业管理概述

2021-01-14

阅读 3 分钟

1.4k

作业（Job）是DolphinDB中最基本的执行单位，可以简单理解为一段DolphinDB脚本代码在DolphinDB系统中的一次执行。Job根据阻塞与否可分成同步作业和异步作业。

干货丨时序数据库DolphinDB与Aliyun HybridDB for PostgreSQL在金融数据集上的比较

2021-01-13

阅读 4 分钟

2.1k

DolphinDB 是一款高性能混合列式数据库和数据分析系统，尤其擅长处理时间序列数据。Aliyun HybridDB for PostgreSQL（以下简称HybridDB）是由阿里巴巴提供的基于开源Greenplum定制的MPP架构企业级通用数据仓库产品。

干货丨时序数据库DolphinDB与Druid的对比测试

2021-01-12

阅读 7 分钟

2.9k

DolphinDB和Druid都是分布式的分析型时序数据库。尽管前者使用c++开发，后者使用java开发，两者在架构、功能、应用场景等方面有很多共同点。本报告在SQL查询、数据导入、磁盘占用空间等方面对两者进行性能的对比测试。

1

1