原创 向优秀学习的 Datawhale

 Datawhale干货 

分享:Datawhale优秀学习者**

上周我们公布了第一期优秀学习者的名单。

评论区都刷满了“宾大非江哥哥 我的榜样”,“向非江哥哥对齐颗粒度,早日达成ai大神”,“数风流人物,还看非江”。

让我们一起和AI夏令营优秀学习者“对齐颗粒度”吧!!

AI夏令营第三期报名地址👉:提供实习证明和奖学金!面向本科生、研究生的 AI 夏令营来了!

和优秀学习者们一起成长。

优秀学习者经验帖

01

王琳

(AI夏令营第一期 机器学习方向)

在本次夏令营学习过程中,我收获了以下学习经验,

1. 数据预处理的重要性:在项目开始时,数据预处理是非常关键的一步。通过这次实践,我深刻体会到清洗和处理数据的重要性。确保数据的完整性和一致性,可以为后续的特征工程和模型训练打下坚实的基础。

2.特征工程的技巧:有效的特征工程能够显著提升模型的表现。通过学习RDKit处理SMILES字符串,并结合TF-IDF进行向量化处理,我学会了如何从数据中提取更有用的信息,为模型提供更好的输入特征。

3.模型选择与评估方法:选择合适的模型和评估方法是机器学习项目成功的关键。在这次项目中,CatBoost模型展示了其在处理类别特征和非平衡数据方面的优势,而通过KFold交叉验证方法评估模型性能,可以确保模型的稳定性和泛化能力。

4.多次尝试与调试:在项目过程中,多次尝试不同的方法和参数是非常必要的。通过不断调试和优化代码,我不仅提高了代码的可读性和运行效率,还积累了大量的调试经验,增强了自己的编码能力。

笔记链接:https://kvvfq6pisy7.feishu.cn... 实践赛事:https://challenge.xfyun.cn/h5...\_Dv9Q7B

02

韩松良

AI夏令营第一期 大模型技术方向

作为一名旅游管理专业的研究生,尽管属于社科类,但在学习过程中,我意识到Python和大模型技术在现代研究中的重要性,因此参加了为期一周的大模型夏令营,希望提升自己的技术水平,特别是在智慧旅游和“旅游+”领域的应用。

随着课程的深入,我认识到数据处理在大模型应用中的关键作用。通过清洗和预处理数据,并设计合理的prompt,可以显著提升模型表现。数据质量和处理方法直接影响模型效果,这使我在今后的研究中将更加注重数据的整理和优化,以提高模型的准确性和可靠性。例如,在智慧景区管理中,实时数据的分析和处理可以帮助预测游客流量,优化景区资源配置;在旅游推荐系统中,清洗后的游客偏好数据可以提高推荐的精准度;在遗产保护方面,大模型可以帮助识别和分类文物信息,提供保护和修复建议。

在微调模型的过程中,我学到了个性化调整的重要性。通过微调,使模型更好地适应特定任务和数据,这是提升模型实际应用效果的关键。模型应用需要根据具体需求进行不断优化和调整,这对于旅游管理中的许多场景尤为重要,例如在不同景区或旅游季节,游客行为模式的差异需要模型相应调整以保持高效性和准确性。

03

邓一鑫

AI夏令营第一期 大模型技术方向

非常荣幸能和大佬们在一起学习大语言模型,我本身是景观设计行业的,这方面的经验可能很少,听完诺神和其他几位大佬的思路之后,我茅塞顿开,大概知道的解决思路。

就像多轮询问打分机制就可以规避姓名空值多的原因,再就是诺神提到的增强模型信息抽取能力一个微调办法。

而且我本身这种根据训练集的数据分布,让模型进行选择这个思路,对于模型的发展来说并不具有太大的意义,因为这种方法扼杀了模型的泛化能力,就像考试中的应试教育一样,所以应该尽量不要用这种方法去引导,总之就是,收获满满。

笔记链接: https://pvbszzjuhcv.feishu.cn...(过分优秀) 实践赛事: https://challenge.xfyun.cn/h5...\_Dv9Q7B

04

陈馨远

AI夏令营第一期 机器学习方向

在跑通baseline之后,我尝试构建其他机器学习模型,以期提高准确率。起初,我也是一头雾水,模型的选择、参数调优问题等一系列亟待解决的问题。但通过上网搜集资料、与同学们交流学习,我逐个找到了解决问题的方法。我学习了很多之前未曾接触的机器学习算法和技术,如LightGBM、XGBoost等高效的梯度提升算法,CatBoost在处理分类特征方面的专长,RDKit在化学信息学领域的强大应用,TF-IDF在文本挖掘中的加权技术,以及交叉验证在模型评估中的重要性。这些知识不仅丰富了我的技术储备,也为我解决实际问题提供了学习方向。

笔记链接(甘肃政法大学有自己的笔记站!!!): https://pvbszzjuhcv.feishu.cn... 实践赛事: https://challenge.xfyun.cn/h5...\_Dv9Q7B

第一期优秀学习者学习心得&思考

01

非江哥哥

AI夏令营第一期 大模型技术方向

大佬们关于比赛的细节和感想都在笔记里说的很清楚了。不过我个人背景比较偏research而不是工程,因此我想谈谈这个比赛对research的引领作用。”

------

做完这个比赛大家基本上都对Prompt Engineering和微调有一些思路了。我最近在写LLM的论文,也读了很多LLM的论文,这里来分享一下用做LLM+science应用科研的思路吧。大家之后可以结合自己的下游科学方向做一些应用研究,这种工作目前也是可以发论文(水论文)的。

比如用LLM+微调检测xxx、LLM+上下文学习+CoT/ToT检测xxx。需要注意的是单纯的Prompt Engineering已经研究的太多了,这种论文除非是非常新的领域,不然已经没有什么新意了。目前应用方面的论文主流还是在研究各种微调技术的应用,以及把LLM结合传统深度学习模型如GNN来做检测任务等等。

我做的是AI for Science方向,之前某个science方向没有人探索利用LLM做分类和检测,因此我就“抢占先机”用LLM做了这个方向。我第一篇论文发的是LLM+上下文学习,第二篇做的是微调,之后可以继续做LLM+GNN...

如果有人做science方向,也可以结合自己目前的研究方向思考一下能不能用LLM做。LLM很强大,传统机器学习的分类和检测基本上都能做,不过需要好好调教Prompt和微调,以及需要资金来调用GPT4接口...这个过程中还有许多可以玩的地方,比如如何选择示例,如何构造图信息,如何利用COT和ToT,如何把LLM和GNN等深度学习模型联合训练, 知识图谱+LLM....

最后,如果想做一些更高质量的工作,想要从LLM结构上做创新,就必须搞清楚LLM内部的原理,例如transformer和注意力机制内部的细节。很多厉害的工作都是在理解细节和原理的基础上才做出来的,比如用对比学习结合LLM,这也是我之后努力的方向。

总之,比赛是实践入门的好渠道,但如果想继续做一下好玩的工作,还需要多看看paper,多看看底层细节。datawhale的github上有很多资料,吴恩达的gpt课程也很精彩。我们下一个比赛再见。

笔记链接:

https://zhuanlan.zhihu.com/p/...

实践赛事: https://challenge.xfyun.cn/h5...\_Dv9Q7B

02

张永刚

AI夏令营第一期 大模型技术方向)**

大家好,我是货拉拉拉不拉多,感谢Datawhale开源学习平台提供的AI夏令营学习机会,很荣幸能够成为优秀学习者。在这里,我不仅提升了自己的技术水平,还有十分丰富的学习体验

特别是在这次比赛中,通过大模型微调的学习,尽管我们无法掌控Lora微调的过程,但是我发现优秀的数据观察能力也是十分重要,好的数据预处理和prompt构造对大模型微调也是十分重要的,这些经验都让我受益匪浅。大家的智慧和努力,使得这个学习过程充满了挑战和乐趣。

再次感谢Datawhale开源学习平台,感谢平台上各位老师和助教的耐心指导,以及各位同学们的积极交流和讨论。正是有了你们的帮助和支持,我才能在这个夏天收获如此多的知识。希望我们在未来的学习和工作中,能继续保持进步!

感谢大家!

笔记链接:http://t.csdnimg.cn/lD8YQ 实践赛事: https://challenge.xfyun.cn/h5...\_Dv9Q7B

03

张世斌

AI夏令营第一期 大模型技术方向

笔记链接: https://d167yddq51j.feishu.cn... 实践赛事: https://challenge.xfyun.cn/h5...\_Dv9Q7B

04

李永胜

AI夏令营第一期 机器学习方向

大家晚上好,我是李永胜,很荣幸能评为优秀学员。说来惭愧,最初是在去年看到李沐老师和Datawhale共同组织学习《动手学深度学习》知道了Datawhale这个组织,但遗憾的是参与了几次活动,都是仅仅“适度体验”了一下。但在这个体验的过程中,不知不觉就了解了很多人工智能的知识,积累了一定的兴趣。后来ChatGPT3.5一发布,我第一时间就告诉了同学,但那时大家还不怎么感兴趣。再后来,当越来越多人使用AIGC工具,已经变为生产力工具了,这下不仅兴趣使然,而且也有必要学习这一工具了。

最后再分享偶像李沐老师的一篇文章:https://www.bilibili.com/read...,十分富有哲理。

笔记链接:

https://zhuanlan.zhihu.com/p/... 实践赛事: https://challenge.xfyun.cn/h5...\_Dv9Q7B

-End-

「AI 夏令营只是一个开始」

「我们将在Datawhale一起成长」

Datawhale 优秀学习者名单公示!

提供实习证明和奖学金! 面向本科生、研究生的 AI 夏令营(第三期)


Datawhale
24 声望10 粉丝

Datawhale 是一个专注于 AI 领域的开源组织,致力于构建一个纯粹的学习圈子,帮助学习者更好地成长。我们专注于机器学习,深度学习,编程和数学等AI领域内容的产出与学习。