按股票的首字母进行范围分区，数据分布不均匀怎么办？

Question

按股票的首字母进行范围分区，数据分布不均匀怎么办？

JasonT

1.5k17125

发布于
2021-02-01

现在需要对股票的报价数据按日期和股票代码两个维度做数据分区。如果简单的按股票的首字母进行范围分区，极易造成数据分布不均，因为极少量的股票代码以U, V, X，Y，Z等字母开头。请问应该如何解决这个问题？

dolphindb 数据库股票数据分区

阅读 2.7k

1 个回答

JasonTang

✓ 已被采纳

为了方便根据数据的分布进行分区，DolphinDB提供了函数cutPoints(X, N, [freq])。这里X是一个数组，N指需要产生多少组, 而freq是X的等长数组，其中每个元素对应着X中元素出现的频率。函数返回具有(N + 1)个元素的数组，代表N个组，使得X中的数据均匀地分布在这N个组中。

下面的例子中，需要对股票的报价数据按日期和股票代码两个维度做数据分区。如果简单的按股票的首字母进行范围分区，极易造成数据分布不均，因为极少量的股票代码以U, V, X，Y，Z等字母开头。我们这里使用使用cutPoints函数根据2007.08.01这天的数据将股票代码划为128个分区，每个分区在这天含有相同数量的记录：

t = ploadText(WORK_DIR+"/TAQ20070801.csv")
t=select count(*) as ct from t where date=2007.08.01 group by symbol
buckets = cutPoints(t.symbol, 128, t.ct)
dateDomain = database("", VALUE, 2017.07.01..2018.06.30)
symDomain = database("", RANGE, buckets)
stockDB = database("dfs://stockDBTest", COMPO, [dateDomain, symDomain])

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

101 新手上路

子站问答

访问

相似问题

找不到问题？创建新问题

按股票的首字母进行范围分区，数据分布不均匀怎么办？

你尚未登录，登录后可以

求推荐双向同步数据的软件？

请问是否有什么方案实现不同用户之间本地数据库的同步呢？

lowdb可以在前端进行存储吗？

dolphindb 批量数据写入去重复？

realm进行数据存储，还可以同步到云端吗？

在Go语言中，是否每次数据库查询都需要进行错误判断？

有无好的免费的开源的，容易下载的复权股市日K线数据？

101 新手上路