开源周刊第一期

Codon : 让 Python 拥有 C/C++ 一样的速度

为了解决python运行速度，麻省理工学院的计算机科学家出手了，他们共同研发了一种名为 Codon 的 Python 编译器，可以将 Python 代码转化为本地机器代码，而不会对运行时的性能产生影响。

"在单线程上，比 Python 的典型速度提高了 10-100 倍或更多，"Codon repo写道，"Codon 的性能通常与 C/C++ 的性能相当（有时甚至更好）。"

github地址：
https://github.com/exaloop/codon

title=

Rspack : 一个 Rust 写的打包构建工具，功能和用法上对齐 webpack

字节跳动刚刚开源 Rspack，一个 Rust 写的打包构建工具，功能和用法上对齐 webpack.

启动速度极快: 基于 Rust 实现，构建速度极快，带给你极致的开发体验。

闪电般的 HMR: 内置增量编译机制，HMR 速度极快，完全胜任大型项目的开发

兼容 webpack 生态: 针对 webpack 的架构和生态进行兼容，无需从头搭建生态。

github地址：
https://github.com/web-infra-dev/rspack

title=

VSlide : 一款基于网页的数据可视化工具应运而生

VSlide，一款基于网页的数据可视化工具应运而生，旨在让普通用户便捷地创作支持交互式数据可视化图表的演示文稿。零代码制作交互式图表，点击式操作，推拽式布局，不需要任何基础,使用文档详细。

github地址：
https://github.com/shalom-lab/vslide

title=

OpenChatKit : 前OpenAI研究员共同打造,ChatGPT开源平替

ChatGPT的开源平替来了，源代码、模型权重和训练数据集全部公开,OpenChatKit一共包含200亿参数，在EleutherAI的GPT-NeoX-20B（GPT-3开源替代品）上进行了微调，还可以连接其它API或数据源进行检索等等。

GitHub刚刚上线，就已经获得了800+标星。

github地址：
https://github.com/togethercomputer/OpenChatKit

title=

ChatWeb : 可以爬取任意网页并提取正文，生成概要

基本类似于现有的chatPDF，自动化客服AI等项目的原理。

1. 爬取网页
1. 提取正文
1. 对于每一段落，使用gpt3.5的embeddingAPI生成向量
1. 每一段落的向量和全文向量做计算，生成概要
1. 将向量和文本对应关系存入向量数据库
1. 对于用户输入，生成向量
1. 使用向量数据库进行最近邻搜索，返回最相似的文本列表
1. 使用gpt3.5的chatAPI，设计prompt，使其基于最相似的文本列表进行回答

就是先把大量文本中提取相关内容，再进行回答，最终可以达到类似突破token限制的效果

github地址：
https://github.com/SkywalkerDarren/chatWeb

title=

DrissionPage : 一个基于 python 的网页自动化工具,既能控制浏览器,也能收发数据包

基于python的网页自动化工具。既能控制浏览器，也能收发数据包。可兼顾浏览器自动化的便利性和requests的高效率。功能强大，内置无数人性化设计和便捷功能。语法简洁而优雅，代码量少.

github地址：
https://github.com/g1879/DrissionPage

title=

DataX ：阿里开源一款数据同步工具 DataX，稳定又高效，好用到爆！

DataX 是阿里云 DataWorks数据集成的开源版本，在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS, databend 等各种异构数据源之间高效的数据同步功能

github地址：
https://github.com/alibaba/DataX

title=

ModelScope ：一个“模型即服务”(MaaS)平台，旨在汇集来自AI社区的最先进的机器学习模型，并简化在实际应用中使用AI模型的流程

ModelScope开源了数百个(当前700+)模型，涵盖自然语言处理、计算机视觉、语音、多模态、科学计算等，其中包含数百个SOTA模型。用户可以进入ModelScope网站(modelscope.cn)的模型中心零门槛在线体验，或者Notebook方式体验模型。

github地址：
https://github.com/modelscope/modelscope

title=

PhySO ：能直接从数据中找到隐藏的规律，而且一步到位，直接给出对应公式

PhySO背后的技术被叫做“深度符号回归”，使用循环神经网络（RNN）+强化学习实现。首先将前一个符号和上下文信息输入给RNN，预测出后一个符号的概率分布，重复此步骤，可以生成出大量表达式。同时将物理条件作为先验知识纳入学习过程中，避免AI搞出没有实际含义的公式，可以大大减少搜索空间。

再引入强化学习，让AI学会生成与原始数据拟合最好的公式。除了物理学者直呼Amazing之外，还有其他学科研究者赶来探讨，能不能把同款方法迁移到他们的领域。

github地址：
https://github.com/WassimTenachi/PhySO

title=

lama:可以利用AI技术，无损擦除任意物体,可离线在线使用

LaMa是一个AI消除模型，在训练时（256x256）没有见过的更高分辨率（~2k）上，表现出惊人的泛化能力，并且即使在具有挑战性的场景下，例如周期结构的补全，也能达到优异的性能。

https://magicstudio.com/zh/magiceraser这个网站是一个利用了LAMA模型，无损擦除照片中的人物、物品的在线工具。用户只需要上传照片，标记要去除的部分，然后下载处理后的照片。这个网站免费使用，不需要注册或登录。这个网站也有一个iOS应用程序，叫做Magic Eraser Background Editor，可以提供更高分辨率的编辑和其他功能。这个网站的效果非常惊艳，可以很好地修复被擦除部分的背景。

github地址：
https://github.com/advimman/lama

title=

开源周刊第一期

Codon : 让 Python 拥有 C/C++ 一样的速度

Rspack : 一个 Rust 写的打包构建工具，功能和用法上对齐 webpack

VSlide : 一款基于网页的数据可视化工具应运而生

OpenChatKit : 前OpenAI研究员共同打造,ChatGPT开源平替

ChatWeb : 可以爬取任意网页并提取正文，生成概要

DrissionPage : 一个基于 python 的网页自动化工具,既能控制浏览器,也能收发数据包

DataX ：阿里开源一款数据同步工具 DataX，稳定又高效，好用到爆！

ModelScope ：一个“模型即服务”(MaaS)平台，旨在汇集来自AI社区的最先进的机器学习模型，并简化在实际应用中使用AI模型的流程

PhySO ：能直接从数据中找到隐藏的规律，而且一步到位，直接给出对应公式

lama:可以利用AI技术，无损擦除任意物体,可离线在线使用

关注vx公众号“IT新物种”，获取更多新鲜资讯

IT新物种

引用和评论

2023大厂算法面试真题手刷笔记(含社区7大语言最佳答案）：No34、在排序数组中查找元素的第一个和最后一个位置

登Nature子刊，俄罗斯研究团队基于机器学习实现万亿级质谱数据搜索，发现未知化学反应

2025AI人工智能技术人才供需洞察报告100+份汇总解读|附PDF下载

2025年Manus、Deepseek通用AI智能体技术发展报告70+份汇总解读|附PDF下载

【TVM 教程】创建使用 microTVM 的 MLPerfTiny 提交

2024全球财务采用AI人工智能报告60+份汇总解读|附PDF下载

2025年医疗大模型各医疗场景赋能实践研究报告130+份汇总解读|附PDF下载