分布式时序数据库DolphinDB

金融市场L1/L2的报价和交易数据是量化交易研究非常重要的数据。国内全市场L1/L2的历史数据约为20~50T，每日新增的数据量约为20~50G。传统的关系数据库如MS SQL Server或MySQL均无法支撑这样的数据量级，即便分库分表，查询性能也远远无法达到要求。例如Impala和Greenplum的数据仓库，以及例如HBase的NoSQL数据库，可以解...

干货丨DolphinDB与MongoDB在时序数据上的对比测试

DolphinDB

2021-01-05

阅读 9 分钟

2.9k

DolphinDB和MongoDB都是为大数据而生的数据库。但是两者有这较大的区别。前者是列式存储的多模型数据库，主要用于结构化时序数据的高速存储、查询和分析。后者是文档型的NoSQL数据库，可用于处理非结构化和结构化的数据，可以根据键值快速查找或写入一个文档。MongoDB有着自己最合适的应用场景。但是市场上缺少优秀的大...

干货丨如何高速迁移MySQL数据到时序数据库DolphinDB

DolphinDB

2021-01-04

阅读 6 分钟

DolphinDB提供了两种导入MySQL数据的方法：ODBC插件和MySQL插件。我们推荐使用MySQL插件导入MySQL数据，因为它的速度比ODBC导入更快，导入6.5G数据，MySQL插件的速度是ODBC插件的4倍，并且使用MySQL插件无需任何配置，而ODBC插件需要配置数据源。

随机森林算法实现的性能对比测试：scikit-learn、Spark MLlib、DolphinDB、xgboost

DolphinDB

2020-12-31

阅读 8 分钟

随机森林是常用的机器学习算法，既可以用于分类问题，也可用于回归问题。本文对scikit-learn、Spark MLlib、DolphinDB、xgboost四个平台的随机森林算法实现进行对比测试。评价指标包括内存占用、运行速度和分类准确性。本次测试使用模拟生成的数据作为输入进行二分类训练，并用生成的模型对模拟数据进行预测。

数据库交易回测系列三：多因子Alpha策略最佳因子权重

DolphinDB

2020-12-30

阅读 1 分钟

1.9k

在本系列二（多因子Alpha策略回测）中，我们对美股市场的4个量化因子进行了回测。在这里，我们将使用 DolphinDB database 内置的quadprog函数，对各个因子的权重进行均值方差优化，以决定最佳因子权重。

干货丨如何水平扩展和垂直扩展DolphinDB集群？

DolphinDB

2020-12-29

阅读 4 分钟

3.5k

随着业务的扩展，数据量不断积累，数据库系统的数据容量和计算能力会逐渐不堪重负，因此优秀的数据库系统必须具备良好的扩展性。DolphinDB集群中的数据节点是集计算和存储于一体的，所以要提高计算能力和数据容量，只需针对数据节点即可。DolphinDB既支持水平扩展，即增加节点，也支持垂直扩展，即增加节点的存储。

时序数据库作为工业物联网数据后台有哪些优势？

DolphinDB

2020-12-28

阅读 5 分钟

3.3k

工业物联网的数据采集有着频率高、设备多、维度高的特点，数据量非常大，对系统的吞吐量有很高的要求。同时工业物联网往往需要系统能够实时处理数据，对系统预警，监控，甚至反控。不少系统还需要提供图形化终端供操作工人实时监控设备的运行，这给整个系统带来了更大的压力。对于采集到的海量历史数据，通常还需要进行...

干货丨时序数据库DolphinDB流数据教程

DolphinDB

2020-12-25

阅读 15 分钟

3.5k

实时流处理一般是将业务系统产生的数据进行实时收集，交由流处理框架进行数据清洗，统计，入库，并可以通过可视化的方式对统计结果进行实时的展示。传统的面向静态数据表的计算引擎无法胜任流数据领域的分析和计算任务。在金融交易、物联网、互联网/移动互联网等应用场景中，复杂的业务需求对大数据处理的实时性提出了更...

干货丨如何用时序数据库寻找相似的历史k线

DolphinDB

2020-12-24

阅读 4 分钟

12.2k

有网友提问应该用什么样的数据库/数据结构/算法来计算某支股票的相似K线? 具体的问题描述是，假设给出某股某段行情K线（单位/日），从任何其他股票历史中匹配出与之最为相似的某段历史K线，并给出相似度值（单位/%），并以此排序，获取最为相似的N个结果。

干货丨Orca入门指南

DolphinDB

2020-12-23

阅读 10 分钟

2.1k

本文将详细介绍Orca的安装方法、基本操作，以及Orca相对pandas的差异，用户在使用Orca编程时需要注意的细节，以便用户能写出高效的Orca代码。

干货丨如何使用时序数据库快速计算买方或卖方驱动交易

DolphinDB

2020-12-22

阅读 4 分钟

1.4k

给定高频交易数据以及报价数据，如何判断每笔交易是由买方驱动或是卖方驱动，是进行高频交易数据分析经常需要处理的问题。本文将介绍如何使用DolphinDB快速计算每笔交易的驱动方，只需不到2秒钟即可对美国一天的level 1的高频交易数据进行计算并存入数据库。本文使用了非同时连接（asof join）以及map-reduce。

干货丨如何使用时序数据库处理Tushare金融数据

DolphinDB

2020-12-21

阅读 12 分钟

DolphinDB是新一代的时序数据库，不仅可以作为分布式数据仓库或者内存数据库来使用，而且自带丰富的计算工具，可以作为研究工具或研究平台来使用，非常适用于量化金融、物联网等领域的海量数据分析。量化金融领域的不少问题，如交易信号研究、策略回测、交易成本分析、股票相关性研究、市场风险控制等，都可以用DolphinD...

干货丨时序数据库DolphinDB流数据聚合引擎教程

DolphinDB

2020-12-18

阅读 11 分钟

2.1k

流数据是指随时间持续增长的动态数据。互联网的运营数据和物联网的传感器数据都属于流数据的范畴。流数据的特性决定了它的数据集是动态变化的，传统的面向静态数据表的计算引擎无法胜任流数据领域的分析和计算任务，所以流数据场景需要专门的计算引擎来处理。

数据库交易回测系列二：多因子Alpha策略回测

DolphinDB

2020-12-17

阅读 8 分钟

4.5k

本系列文章将会介绍如何使用DolphinDB优雅而高效的实现量化交易策略回测。本文将介绍在华尔街广泛应用的多因子Alpha策略的回测。多因子模型是量化交易选股中最重要的一类模型，基本思路是找到某些和回报率最相关的指标，并根据这些指标，构建股票投资组合（做多正相关的股票，做空负相关的股票）。多因子模型中，单独一...

时序数据库交易回测系列一：技术信号回测

DolphinDB

2020-12-16

阅读 5 分钟

2.5k

本系列文章将会介绍如何使用DolphinDB进行交易回测。本文以移动平均线指标为例，介绍如何在DolphinDB中实现技术信号回测。移动平均线指标（Moving average，简称MA）属于趋势指标。在金融分析领域，移动平均线是不可缺少的指标工具。除了指示趋势，均线指标还能避免由于股价下跌错失清仓的机会，减少收益的损失，及时止...

干货丨时序数据库分区教程（二）

DolphinDB

2020-12-15

阅读 6 分钟

2.2k

时序数据库分区教程（一）介绍了DolphinDB Database 的几种分区方式，本文将会详细讲解DolphinDB的分区原则、特殊的分区方案，让用户对DolphinDB分区数据库有更深入的了解。

干货丨时序数据库分区教程（一）

DolphinDB

2020-12-14

阅读 4 分钟

2.3k

分区使得大型表更易于管理。对数据子集的维护操作也更加高效，因为这些操作只针对需要的数据而不是整个表。一个好的分区策略将通过只读取满足查询所需的相关数据来减少要扫描的数据量。当所有的数据都在同一个分区上，对数据库的查询，计算，以及其它操作都会被限制在磁盘访问IO这个瓶颈上。

干货丨时序数据库DolphinDB数据导入教程

DolphinDB

2020-12-11

阅读 8 分钟

2.8k

企业在使用大数据分析平台时，首先需要把海量数据从多个数据源迁移到大数据平台中。在导入数据前，我们需要理解 DolphinDB database 的基本概念和特点。DolphinDB数据表按存储介质分为3种类型：内存表：数据只保存在本节点内存，存取速度最快，但是节点关闭后，数据将会丢失。本地磁盘表：数据保存在本地磁盘上，即使节...

时序数据库作为量化金融研究平台的优势在哪里？

DolphinDB

2020-12-11

阅读 3 分钟

当前整个金融市场环境日趋严峻，监管越来越严，无论是银行的零售、公司、交易或同业业务，都需要直面营销与风险的效率与准确率的问题。越来越多的金融机构都希望依靠大数据来拉动业务模式进行创新，但是由于行业特点，存在着四大痛点。

Grafana是一个开源的基于web的数据展示工具，非常擅长做时序数据的动态展示。DolphinDB作为新一代的高性能时序数据库，不仅提供了Grafana的数据接口，还提供了Grafana的dolphindb-datasource插件。只要在Grafana中安装dolphindb-datasource，就可以通过图表的方式把DolphinDB Table的数据展示在Web上，特别适用于物联网...

干货丨大数据分析语言DolphinDB脚本语言概述

DolphinDB

2020-12-10

阅读 10 分钟

2.2k

开发大数据应用，不仅需要能支撑海量数据的分布式数据库，能高效利用多核多节点的分布式计算框架，更需要一门能与分布式数据库和分布式计算有机融合、高性能易扩展、表达能力强、满足快速开发和建模需要的编程语言。DolphinDB从流行的Python和SQL语言汲取了灵感，设计了大数据处理脚本语言。

时序数据库在工业物联网中的应用

DolphinDB

2020-12-10

阅读 4 分钟

2.7k

如何使用Window Join快速估计个股交易成本

DolphinDB

2020-12-09

阅读 3 分钟

交易本身对市场会产生影响，尤其是短时间内大量交易，会影响金融资产的价格。一个订单到来时的市场价格和订单的执行价格通常会有差异，这个差异通常被称为交易成本。在量化交易的策略回测部分，不考虑交易成本或者交易成本估计不合理，容易导致回测和实盘结果有较大的差异。本文将介绍如何在分布式时序数据库DolphinDB中...

如何在时序数据库中利用高频数据找到最相关的股票

DolphinDB

2020-12-09

阅读 2 分钟

2.8k

在制定投资策略时，我们往往会研究股票之间的相关性。研究个股的相关性或者个股与指数，ETF之间的相关性，从而通过对冲套利来获得稳定收益。找到最相关的股票，可以根据交易员的经验，也可以根据股票的相关信息（行业，beta，每日回报等）。

如何用数据库实现动量交易策略详解

DolphinDB

2020-12-09

阅读 4 分钟

2.6k

动量策略是最流行的量化策略之一。商品期货的CTA策略，绝大多数都是基于动量策略。在股票市场，动量策略也是常用的量化因子之一。通俗地讲，动量策略就是“追涨杀跌”。下面我们将介绍如何在DolphinDB中测试动量交易策略，并计算动量交易策略的累积回报。

最简最快的WorldQuant 101 Alpha因子实现

DolphinDB

2020-12-08

阅读 5 分钟

4.4k

DolphinDB database 是一款高性能分布式时序数据库(time-series database)，它特别适用于投资银行、对冲基金和交易所的定量查询和分析，可以用于构建基于历史数据的策略测试。下面我们将举例说明如何在DolphinDB中快速构建复杂的Alpha因子。

DolphinDB与Elasticserach在金融数据集上的性能对比测试

DolphinDB

2020-12-08

阅读 6 分钟

Elasticsearch是一款非常流行的日志检索和分析工具，尤其在实时性、扩展性、易用性和全文检索方面有着非常优异的综合表现。知乎上有一篇文章，Golion：降维打击！使用ElasticSearch作为时序数据库，并且取得了非常不错的效果。很多知乎用户不禁询问，Elasticsearch是否可以用于海量金融数据的存储和分析？