引言 Introduction:近期,微软推出了许多新产品功能。迅易科技作为微软13年来紧密的生态合作伙伴,为300+行业头部客户实施1000+项目。为此,我们总结了多年的项目经验和产品学习心得,邀请了迅易技术专家为大家持续分享微软最新的产品技术资讯、成功案例等。本期邀请到迅易科技高级开发专家陈健强,为我们分享他在试用Microsoft Fabric的心得感受和避雷误区。
最近,微软全新Microsoft Fabric登场,回想它刚出道时,着实惊艳了所有人。那么,今天的主题依旧是Fabric,我们就通过迅易产品体验者的角度来了解这个产品有什么特点吧。(以下为陈健强使用体验的核心内容👇)
当我在访问Power BI的站点查看报表时,发现打开站点时会出现弹窗。进入管理门户查看详细信息,发现容量空间已创建快⼀年了,这意味着我已经使用Microsoft Fabric很长时间了。因此,我觉得自己应该为这个产品做点什么,在此也将自己的体验心得和大家分享一下。
我与Microsoft Fabric的邂逅
记得去年微软Build大会,“Microsoft Fabric”这个古怪的产品名字(Fabric:编织物)出现,引起了我的注意。接下来,便查看了与它相关的介绍和演示,并密切关注了这个产品的动态,对该产品有了初步认识和了解:Microsoft Fabric 是⼀个端到端分析和数据平台,专为需要统⼀的解决方案的企业设计。它提供了⼀套全面的服务,包括数据工程、数据工厂、数据科学、实时分析、数据仓库和数据库。
开启Microsoft Fabric试用之旅
在Microsoft Fabric刚推出,部分行业大牛提出了总结评价和看法,但还是希望能亲自体验⼀下该产品。在得知可以试用“Microsoft Fabric”时,我便第⼀时间开启了试用。
秉承着以往⼀本正经的学习风格,首先当然是查看官方资料,在官网上学习后,我便迫不及待地将产品亲手实操一遍,虽然实验过程中也遇到操作问题,但经过2周左右的产品摸索,也终于把Microsoft Fabric所有功能都摸透了。为此,我将部分学习心得总结与大家分享:
在试用的过程中,我⼀直思考是否能把以前的数据项目用Microsoft Fabric功能来实现,答案是肯定的。作为⼀个典型的数据项目,无非是那三板斧:数据准备-数据建模-数据分析-数据展示。
在Microsoft Fabric出现之前:
· 数据准备⼯作由数据湖、数据工厂负责;
· 数据建模和数据分析由分析服务负责;
· 数据展现由Power BI负责。
在使用Microsoft Fabric后:
· 这些都由Microsoft Fabric统一负责;
· 部分功能和工具给数据项目提供更好的补充和支持。
这样的好处有很多:
- 首先,不用部署多个组件和在不同的组件中来回切换管理,节约了部署时间和管理时间,能做到开箱即用和无缝衔接;
- 其次,会发现其中的Power BI 和数据工厂有⼀种熟悉的感觉。把Power BI 和数据工厂的服务集成到Microsoft Fabric里,大大地节约了学习成本;
- 再有,就是⼀些新的功能的引入,如“OneLake、LakeHouse”等,作为数据界的“OneDrive”,提供数据连接和存储,并且能够做到1个中心化存储能力,不仅节约数据的空间,⼀定程度上解决了信息孤岛的问题,是个很大的技术进步;
- 还有,照顾了数据科学家的使用,引入了Synapse数据工程、数据科学、数据仓库这些数据科学相关功能和工具。数据科学家可通过使用数据工程中的“环境”,引入不同的Python库建立起符合实验要求且容易缩放的云端运行时环境,而不用考虑本地计算的资源是否满足实验要求,不仅能沉浸式地使用“笔记本”进行科学数据分析,而且降低了学习使用各类实验相关Python库的门槛。
试用到这里,相信大部分人已被Microsoft Fabric的强⼤的功能所震撼,认为用它来解决数据项目已经没什么大问题。然而,大家以为我会就此满足产品体验的结果了吗?不,我不会!
这种能够白嫖的产品体验,怎么就只能把它埋没在数据项目这种正经的地方。为了让Microsoft Fabric价值发挥最大化,我有了一个大胆的想法。既然它能提供了容量空间,也提供了⼀个支持跑多个Python库的云端运行环境,便可将它作为⼀个学习Python的⼯具。
说干就干,我首先在Microsoft Fabric创建⼀个“环境”,引入⼀些库,再创建“笔记本”,在“记事本”⾥写⼏⾏Python代码试试水,查看使用的效果。抱着期待的⼼情,我点击了“记事本”的“运⾏”按钮,随着结果的输出,逐步验证了我的想法。下图是利用“记事本”代码做出的尝试,通过Python代码调⽤了⼀段搜索引擎的接⼝,返回结果。(行家应该能看出这几行代码做的事情,另外,不知道是否触发了某些安全机制,多次运⾏出现了警告提示…)
于是,在往后⼀段很长的日子里,我将Microsoft Fabric当作了⼀个学习Python⼯具、⼀个验证数据模型、验证大数据分析的知识体系的工具。目前,我使用的最多的功能是:Power BI、数据工厂、“记事本”。
聊聊Microsoft Fabric使用感受
言归正传,上文提到本人体验Microsoft Fabric的经历中,相信大家对Microsoft Fabric有了一定的了解。同时,我也将自己在使用产品过程中遇到的问题进行了总结,和大家分享,以便应用到实际项目中,避免踩雷。
1.误区:Microsoft Fabric是替代Power BI 和Data Factory的产品
大家可能觉得Microsoft Fabric能做Power BI 和Data Factory的事情,那就没有Power BI 和Data Factory存在的必要了。然而它是⼀个数据集成分析平台,集成了Power BI 和Data Factory技术,在某些场景下,会出现只单独使用Power BI 或 Data Factory,类似⼀体机和DIY组装机的情况,并非能直接替代。
2.误区:Microsoft Fabric能快速替代目前已有的数据项目的实施
从技术角度看,这是能替换数据项目的实施,且使用门槛低,应该是可以快速重新实施数据项目,然而,实际并不简单。因为更换技术面临着许多挑战,例如,需要考虑新旧如何过渡,人员的培训等问题。所以也建议分情况、分部分进行项目实施,有效果且合适了,还有成熟的经验,才进行大量改用。
3.误区:学习使用 Microsoft Fabric,看官方文档就够了
的确,学习使用Microsoft Fabric产品,查看官方文档时比较直接和常见的方式。但实际遇到的问题,有可能连原厂技术人员都没考虑到的。这时,可通过其他渠道学习更深层技术问题,例如,社区论坛、博客等其他资源,这也提供了丰富的信息和技术大牛的经验支持。另外,部分产品操作方法需要通过实践,才能验证。
4.误区:Microsoft Fabric的容量要用最好的,运行环境性能要最高的配置
Microsoft Fabric是SAAS服务,与其他的SAAS服务类似,但是都有不同价格区间,可以按需付费。建议大家根据实际情况,经过合理评估,选择合适的容量和性能,切忌盲目追求高配置高性能,以免造成成本增加和资源浪费。
5.误区:Microsoft Fabric基本功能已经够用,我用不到高级功能
时代在发展,新的问题新的需求会随之出现。旧的技术方案不⼀定永远适用,必须更新迭代,适应新的变化与挑战。Microsoft Fabric也⼀样,功能会不断迭代更新,不断完善优化,满足不同客户不同场景的需要。
6.误区:Microsoft Fabric中的默认性能很好,不需要考虑优化问题
事实上,再好的⼯具也需要结合好的方法来适用,用法不当再好的也会产⽣副作用。需要结合实际情况,做出响应对策。譬如,上面提到过的Fabric 容量,容量可拆分为库存单位 (SKU)。每个 SKU 提供不同量级的计算能力,不同计算能力价格也不同。⼀开始⽤户可能对这些概念没有的明确认识,允许先从较高的性能入手,以便摸清当前自身业务的需求,后续可逐步扩展或收缩其容量,以达到资源的合理利⽤。
7.误区:Microsoft Fabric作为一款微软系的产品,有微软产品一贯成熟的安全体系支持的优势,应该不用考虑数据安全合规问题
事实上,虽然这些安全合规功能都启⽤了,发现问题,也是需要⼈为参与判断执行对应的操作的。比如,与许多其他 Microsoft服务(Azure、Microsoft Office、OneDrive 和 Dynamics)相同,Fabric 是⼀个 SaaS 平台,每个连接到 Fabric 的请求都通过 Microsoft Entra ID 进行⾝份验证,这是访问安全性的体现,如果出现异常访问,管理员可通过管理台看到相关异常消息,但是该如何处理,仍需要人工再次判断并执行下⼀步应对操作(确认是忽略还是禁⽌访问等)。当然安全功能不止这些,还有控制⼯程师访问数据的方式、保护数据、复原能⼒、标记服务等。
8.误区:Microsoft Fabric中的数据工厂能将数据移动到本地数据库
实际上,在数据工厂里创建⼀个数据流时可以发现能够选择数据工厂的目标数据有限,只有云端的Azure SQL Database、Lakehouse、 Azure数据资源管理器Kusto、Warehouse。简而言之,使用数据工厂复制数据时,数据不能抽到本地数据库进行分析,是在云上进行分析。
9.误区:购买Microsoft Fabric许可,只需要一个许可也可以
从官方文档可以了解到,若要Microsoft Fabric达到共享内容与协作,需要具有容量许可和至少一个每用户许可。
10.误区:Microsoft Fabric开箱即用,不需要前期规划
未充分理解业务需求就急于实施Fabric,可能导致资源配置不当、⼯作流设计不合理,影响整体效率和效果。
写在最后
在今年的Build大会中,Microsoft Fabric也发布了许多新的功能,如,“Copilot For Fabric”、“数据⼯程:环境GA”、“Microsoft Fabric Core REST API”、“语义链接 GA”、“用于 Fabric 数据管道的 CI/CD”、“Microsoft Fabric 中的任务流”等。作为微软产品资深开发工程师和重度爱好者,后续我也会继续体验新功能、新产品,给大家分享最新鲜的产品使用感受。
Microsoft Fabric不仅仅是一个产品,更是一种理念。它让我们看到了大数据时代的无限可能,也让我们更加期待未来的技术发展。作为一名数据⼯作者,我会继续探索Microsoft Fabric的奥秘,⽤数据驱动未来。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。