PowerData

以下文章来源于DataSpeed ,作者欢迎关注

[

DataSpeed .

慢慢积累,稳稳前行,用数据说话,为成长助力

](#)

"Data hides truth, code finds the future."

2025 年 2 月 10 日,🎉 欢迎来到本周的速据新知周刊!春节假期结束,我们又回到了忙碌的工作中,在这里给大家拜个晚年,祝大家身体健康,工作顺利!

封面揭晓

哪吒票房第一

哪吒票房第一

《哪吒之魔童闹海》票房(含预售)突破 80 亿,大家都去看了吗?

🐋DeepSeek 横空出世

当《哪吒》刷新票房纪录时,DeepSeek 正以另一种方式震撼世界:斯坦福报告显示,这个引发全球 AI 界震动的大模型,其技术突破的热度已超越 ChatGPT 首发盛况,我们一起来看看发生了什么?

deepseek官网

deepseek官网

1 月,国内量化私募机构幻方发布自研大模型 DeepSeek-V3 和 DeepSeek-r1,其训练成本显著低于国际主流模型,且通过开源创新技术(如 MLA、FP8 训练)吸引了大量开发者,DAU 在 20 天内突破 2000 万,成为全球增速最快的 AI 应用。这一突破对算力基础设施投资预期形成短期冲击,美股硬件板块波动加剧,但长期看推动了 AI 应用场景的拓展。

然而,DeepSeek 的崛起也伴随争议。美国 OpenAI 称发现证据显示其使用 OpenAI 模型进行训练,涉嫌侵权;美国参议院部分政客甚至提议“使用 DeepSeek 判刑 20 年”,引发科技界反弹;DeepSeek 商标在美被抢注,一堆山寨钓鱼网站冒出来蹭热度,逼得官方亲自下场打假。

市场层面,DeepSeek 的“降本增效”逻辑冲击全球科技股,美股算力芯片板块承压,港股半导体和软件板块则逆势走强。其技术优势还被外媒视为中国《中国制造 2025》计划的成果之一,推动 AI 竞争从模型转向应用。

国内方面,连三大运营商都坐不住了,移动、电信、联通集体接入 DeepSeek,春节期间的 AI 客服都变得聪明了不少。华为昇腾、阿里云等各大云厂商也在加速接入。技术突破背后是 DeepSeek 对“成本-性能”曲线的重构,其采用的动态稀疏训练技术,可在同等算力下支持更大参数规模的模型训练。

截至今日,官网[1]的服务依旧因为全球的热烈关注而经常无效

服务器繁忙

服务器繁忙

想要试试自己搭建一个吗?

deepseek本地部署效果

deepseek本地部署效果

这里也提供了详细的教程

1. 基于DeepSeek打造团队知识库

2. DeepSeek从本地部署到无限调用API

3. 无需部署,畅享deepseek 70B模型及免费API

官方整理了可以调用 deepseek api 的工具合集:deepseek-ai/awesome-deepseek-integration[2]

😎 行业动态与趋势

Apache Flink CDC 3.3.0 发布[3]

FlinkCDC用途

FlinkCDC用途

3.3.0 属于“查漏补缺”型更新,没有大架构变动,但优化了细节体验,尤其是 MySQL 和 Paimon 的稳定性提升,加上新连接器和性能优化,适合正在用 Flink CDC 的用户升级。如果想尝鲜 OceanBase 或 MaxCompute 同步,可以冲了! 注意:新版本最低支持 Flink 1.19+,彻底放弃 1.17 和 1.18 的老版本。

靠大数据杀熟,Metica 融资 6500 万[4]

metica

metica

这类技术核心在于实时处理玩家行为数据流,通过用户分群和预测算法动态调整付费策略——比如针对高活跃用户推送限定礼包,这确实比传统买量精准得多。不过文中提到“游戏内消费提升 3 倍”的数据,在工程实现上必然依赖强大的分布式计算框架和 AB 测试平台,但技术细节没展开有点可惜。 争议点也很明显,“大数据杀熟”的伦理红线始终存在,去年国内某电商平台就因动态定价被约谈。技术是把双刃剑,短期内确实会增加游戏内消费,长期来看恐怕会造成大量用户流失。

👾 工具与开源项目推荐

wewe-rss[5]

wewe-rss web

wewe-rss web

可以将公众号转换为 rss 源,基于微信读书。微信中的公众号文章推荐比较混乱,部署此服务,结合 rss 阅读器可以实现优雅的公众号阅读体验。

Follow[6]

Follow客户端

Follow客户端

去年 7 月推出的 rss 订阅神器,配合 rsshub 可以订阅几乎所有内容平台,包括一些不支持 rss 订阅的网站:b 站,抖音,公众号等,将你想看的内容“allinone”,体验了半年,感觉很不错,特别是 ai 总结和自动化,可玩性也很高,适合想要整洁的一体化的阅读体验的朋友。

EmojiAll[7]

EmojiAll官网

EmojiAll官网

一个可以用中文搜索 emoji 的网站,有很全面的分类和描述,可以直接复制到 md 中使用,可以让文章生动一点。本文的 emoji 均来自于此。

沉浸式翻译[8]

沉浸式翻译官网

沉浸式翻译官网

懂得都懂,浏览器必备插件,看外文文章很方便,可以接入 ai api,实现更加完美的翻译体验,我目前使用的 openai api,直接摆脱机翻的感觉。

🤓 教程与实战案例

minio 接入 hudi 的介绍[9]

作为开源领域的两大明星组件,Hudi 凭借其强大的增量数据处理与版本控制能力,与兼容 S3 协议的 Minio 存储形成完美技术组合。教程从环境配置切入,指导读者在 Minio 中创建专用存储桶作为数据湖基底,并通过 Spark 引擎实现 Hudi 表结构向 Minio 存储的优雅映射。重点演示了如何通过标准化数据写入流程,在保持 ACID 事务特性的同时,完成数据版本追溯与实时分析管道的构建。后续还有文章继续更新,感兴趣的关注一下。

如何确保仓库中的指标一致性[10]

在数据仓库中,保持指标的一致性是非常重要的。如果你没有正确管理这些指标,可能会导致混乱和错误的决策。这篇文章提供了一些实用的建议来确保你的指标一致性:

  1. 明确定义 :首先,你得确保每个人都清楚每个指标是什么意思。比如,“销售额”是指实际卖出的产品金额吗?还是包括了税费或其他费用?通过清晰的文档记录,避免因为理解不同而导致数据偏差。
  2. 统一来源 :尽量从一个地方获取数据。如果你的数据分散在多个数据库或表格中,可能会出现重复计算或者不一致的问题。集中管理你的数据源,能够减少这些风险。
  3. 好的数据建模 :选择合适的方式来设计你的数据仓库。无论是使用维度建模还是事实表,关键是让数据在存储和查询时是标准且统一的。这样,当你需要分析的时候,就能快速得到准确的结果。
  4. 利用工具和技术 :借助一些数据治理的工具和自动化流程,可以帮助你监控和校验指标的一致性。这些工具可以自动检测数据问题,提醒你需要处理的地方,从而减少人为错误。

📚️ 文摘

“如果你想要造一艘船,先不要急着收集木材,而是要激发人们对大海的渴望。” ——《小王子》

工作中发现确实是这样的,动机和热情比资源更重要。如果团队没有共同的愿景和目标,再多的资源也是浪费。

🔥 本周话题

一部分人觉得 AI 辅助编程很好用,又有一部分人觉得很难用。

你们在用 AI 辅助编程了吗?用的什么工具,cursor?还是 ide+插件? 可以在评论区留下你的看法 😸

cursor官网

cursor官网

😂 开心一下

开工

开工

引用链接

[1] 

官网: https://chat.deepseek.com/

[2] 

deepseek-ai/awesome-deepseek-integration: https://github.com/deepseek-a...

[3] 

Apache Flink CDC 3.3.0 发布: https://flink.apache.org/2025...

[4] 

靠大数据杀熟,Metica 融资 6500 万: https://news.qq.com/rain/a/20...

[5] 

wewe-rss: https://github.com/cooderl/we...

[6] 

Follow: https://follow.is/

[7] 

EmojiAll: https://www.emojiall.com/zh-hans

[8] 

沉浸式翻译 : https://immersivetranslate.com/

[9] 

minio 接入 hudi 的介绍: https://dataxplorer.medium.co...

[10] 

如何确保仓库中的指标一致性: https://www.startdataengineer...\_sot/

关于作者

作者重视实战与理论的结合,文章干货满满,有较为丰富的平台、数开经验,欢迎和作者一起交流,共同进步。

DataSpeed聚焦大数据实战与大数据资讯,技术干货和行业消息一网打尽。期待与你同行,欢迎扫码添加作者微信。

关于社区

PowerData社区是由一群数据从业人员,因为热爱凝聚在一起,以开源精神为基础,组成的数据开源社区。

社区群内会定期组织模拟面试、线上分享、行业研讨(涉及金融、医疗、能源、工业、互联网等)、线下Meet UP、城市聚会、求职内推等。同时,在社区群内您可以进行技术讨论、问题请教,届时更多志同道合的数据朋友。

社区整理了一份每日一题汇总及社区分享PPT,内容涵盖大数据组件、编程语言、数据结构与算法、企业真实面试题等各个领域,帮助您自我提升,成功上岸。可以添加作者微信(Y0T0W02020),进入PowerData官方社区群。 

往期推荐

Datahub-元数据管理与治理利器

Flink实战 | PostgresCDC整库同步Kafka最佳实践


PowerData
1 声望2 粉丝

PowerData社区官方思否账号