大家好,我是章北海
周末了,分享点比塔克拉玛干还干的干货资料
AI 开源宝藏项目推荐
这份精心整理的列表包含 920 个很棒的开源项目,总共有 470 万颗星,分为 34 个类别。所有项目都根据项目质量得分进行排名,该得分是基于从 GitHub 和不同的包管理器自动收集的各种指标计算得出的。
分类:
Combined project-quality score
⭐️ Star count from GitHub
New project (less than 6 months old)
Inactive project (6 months no activity)
Dead project (12 months no activity)
Project is trending up or down
➕ Project was recently added
❗️ Warning (e.g. missing/risky license)
Contributors count from GitHub
Fork count from GitHub
Issue count from GitHub
⏱️ Last update timestamp on package manager
Download count from package manager
Number of dependent projects
Tensorflow related project
Sklearn related project
PyTorch related project
MxNet related project
Apache Spark related project
Jupyter related project
PaddlePaddle related project
Pandas related project
Jax related project
官网:ml-python.best-of.org
Github Repo:https://github.com/ml-tooling/best-of-ml-python
数据工程师修炼手册 - 从入门到专家的必备指南
《数据工程手册》相关资源,涵盖多个方面帮助读者成为优秀的数据工程师。包括入门指南、所需软件、各类资源如书籍、社区、公司、教育机构、社交媒体账号、白皮书、博客、播客、新闻通讯、术语表、设计模式和课程认证等。
入门指南
2024年数据工程入门路线图
6周免费YouTube训练营
所需软件清单
核心学习资源
推荐书籍:《数据工程基础》、《数据密集型应用系统设计》、《机器学习系统设计》等
重要公司和工具分类
工作流程编排: Airflow, Dagster, Prefect等
数据湖/云: Databricks, Delta Lake等
数据仓库: Snowflake, Firebolt
数据质量: dbt, Great Expectations等
数据集成: Fivetran, Airbyte等
实时数据处理: RisingWave, Striim等
学习资源
技术博客:包括Netflix、Uber、Databricks等公司的工程博客
白皮书:关于数据架构、湖仓一体等主题
播客推荐
新闻通讯
认证课程:Google、Azure、AWS等平台的数据工程认证
社交媒体资源
收录了多位数据工程领域的创作者
跨平台(YouTube、LinkedIn、X等)的关注推荐
项目地址: https://github.com/DataExpert-io/data-engineer-handbook
AI by Hand ✍️ 开源
ProfTomYeh教授著名的 AI by Hand ✍️ 手绘 AI 系列开源了,基于 Excel 的神奇操作,用 Excel 表格做出了堪比动画软件生动效果的 AI 系列讲解!
开源内容结构分为三个层次:
01 基础部分(Basic):
Softmax 实现
LeakyReLU 激活函数
02 进阶部分(Advanced):
多层感知机(MLP)
反向传播(Backpropagation)
循环神经网络(RNN)
长短期记忆网络(LSTM)
残差网络(ResNet)
Transformer(简单版和完整版)
自注意力机制(Self-Attention)
自编码器(Autoencoder)
Mamba
AlphaFold
03 工作簿练习(Workbook):
点积运算
矩阵乘法
线性层
04 即将更新:
Generative Adversarial Network (GAN)
Variational Autoencoder (VAE)
U-Net
CLIP
开源项目:https://github.com/ImagineAILab/ai-by-hand-excel/