机器学习框架指南

网友投稿 1027 2022-05-30

本文介绍机器学习的框架指南，基本是免费和开源的。

包括：通用机器学习、自动化机器学习、集成方法、不平衡的数据集、随机森林、极限学习机、内核方法、梯度提升等。

文章结构分为“目录版”和“简介版”。

目录版

1 通用机器学习

scikit-learn - Python 中的机器学习

Shogun - 机器学习工具箱

xLearn - 高性能、易于使用且可扩展的机器学习包

可重复实验平台 (REP) - 人类机器学习工具箱

modAL - Python3的模块化主动学习框架

Sparkit-learn - PySpark + Scikit-learn = Sparkit-learn

mlpack - 一个可扩展的 C++ 机器学习库（Python 绑定）

dlib - 用于在 C++（Python 绑定）中制作真实世界机器学习和数据分析应用程序的工具包

MLxtend - Python 数据分析和机器学习库的扩展和帮助模块

tick - 统计学习模块，特别强调时间相关建模

sklearn-extensions - scikit-learn 小扩展的综合包

civisml-extensions - 来自 Civis Analytics 的 scikit-learn 兼容估计器

scikit-multilearn - python 的多标签分类

tslearn - 专用于时间序列数据的机器学习工具包

seqlearn - seqlearn 是 Python 的序列分类工具包

pystruct - 简单的 Python 结构化学习框架

sklearn-expertsys - 用于 scikit 学习的高度可解释的分类器，生成易于理解的决策规则而不是黑盒模型

skutil - 一组 scikit-learn 和 h2o 扩展类（以及 Python 的插入符类）

sklearn-crfsuite - 受 scikit-learn 启发的 CRFsuite API

RuleFit -规则拟合的实现

metric-learn - Python 中的度量学习算法

pyGAM - Python 中的广义加性模型

luminol - 异常检测和关联库

2 自动化机器学习

TPOT - 自动机器学习工具，使用遗传编程优化机器学习管道

auto-sklearn - 是一个自动化机器学习工具包，是 scikit-learn 估算器的替代品

MLBox - 一个强大的自动化机器学习 python 库。

3 集成方法

ML-Ensemble - 高性能集成学习

brew - Python 集成学习 API

Stacking - 用 Python 编写的简单而有用的堆栈库。

stacked_generalization - 用于机器学习堆叠泛化的库。

vecstack - 用于堆叠的 Python 包（机器学习技术）

4 不平衡的数据集

不平衡学习- 使用各种技术执行欠采样和过采样的模块

不平衡算法- 基于 Python 的算法实现，用于学习不平衡数据。

5 随机森林

rpforest - 随机投影树的森林

随机森林聚类- 使用随机森林的无监督聚类

sklearn-random-bits-forest - 由 (Wang et al., 2016) 编写的随机位森林程序的包装器

rgf_python - 正则化贪婪森林的 Python 包装器

6 极限学习机

Python-ELM - Python 中的极限学习机实现

Python 极限学习机 (ELM) - 一种用于分类/回归任务的机器学习技术

hpelm ![alt text][gpu] - 极限学习机（快速随机神经网络）的高性能实现。

7 内核方法

机器学习框架指南

pyFM - python 中的分解机

fastFM - 分解机库

tffm - 任意阶分解机的 TensorFlow 实现

LiquidSVM - SVM 的实现

scikit-rvm - 使用 scikit-learn API 的相关向量机实现

8 梯度提升

XGBoost ![alt text][gpu] - 可扩展、便携和分布式梯度提升

LightGBM ![alt text][gpu] - 一种快速、分布式、高性能的微软梯度提升

CatBoost ![alt text][gpu] - Yandex 的决策树库上的开源梯度提升

InfiniteBoost - 使用梯度下降构建无限集成

TGBoost - 微小的梯度提升树

简介版

1 通用机器学习

scikit-learn - Python 中的机器学习

一个简单高效的预测数据分析工具；基于 NumPy、SciPy 和 matplotlib 构建；开源，可商用 - BSD 许可。

Shogun - 机器学习工具箱

Shogun 是一个开源机器学习库，提供了广泛的高效统一的机器学习方法。

支持多种语言（Python、Octave、R、Java/Scala、Lua、C#、Ruby 等）和平台（Linux/Unix、MacOS 和 Windows）并与其科学计算环境集成。

通过浏览器在云端试用 Shogun 。

高效的实现（从标准到尖端算法），C++ 中的现代软件架构。

多种数据表示、算法类和通用工具的轻松组合，用于数据管道的快速原型设计。

免费软件、基于社区的开发和机器学习教育。

GPLv3 许可证并致力于 BSD 兼容性。

xLearn - 高性能、易于使用且可扩展的机器学习包

xLearn 是一个高性能、易于使用、可扩展的机器学习包，包含线性模型 (LR)、分解机 (FM) 和场感知分解机 (FFM)，所有这些都可以用于解决大型- 规模机器学习问题。xLearn 对于解决大规模稀疏数据的机器学习问题特别有用。许多现实世界的数据集处理高维稀疏特征向量，如推荐系统，其中类别和用户的数量在数百万的数量级。

可重复实验平台 (REP) - 人类机器学习工具箱

REP是基于 ipython 的环境，用于以一致和可重复的方式进行数据驱动的研究。

modAL - Python3的模块化主动学习框架

modAL 是 Python3 的主动学习框架，设计时考虑了模块化、灵活性和可扩展性。它建立在 scikit-learn 之上，让我们可以几乎完全自由地快速创建主动学习工作流程。此外，我们可以使用定制的解决方案轻松更换零件，从而轻松设计新颖的算法。

Sparkit-learn - PySpark + Scikit-learn = Sparkit-learn

Sparkit-learn 旨在在 PySpark 上提供 scikit-learn 功能和 API。该库的主要目标是创建一个接近 sklearn 的 API。

mlpack - 一个可扩展的 C++ 机器学习库（Python 绑定）

mlpack是一个直观、快速且灵活的 C++ 机器学习库，可以绑定到其他语言。它旨在成为 LAPACK 的机器学习类比，旨在实现广泛的机器学习方法和功能，作为机器学习研究人员的“瑞士军刀”。除了强大的 C++ 接口，mlpack 还提供命令行程序、Python 绑定、Julia 绑定、Go 绑定和 R 绑定。

dlib - 用于在 C++（Python 绑定）中制作真实世界机器学习和数据分析应用程序的工具包

Dlib 是一个现代 C++ 工具包，包含机器学习算法和工具，用于在 C++ 中创建复杂的软件以解决现实世界的问题。

MLxtend - Python 数据分析和机器学习库的扩展和帮助模块

Mlxtend（机器学习扩展）是一个 Python 库，包含用于日常数据科学任务的有用工具。

tick - 统计学习模块，特别强调时间相关建模

tick是一个用于统计学习的 Python 3 模块，特别强调与时间相关的建模。它是在 3-Clause BSD 许可下分发的。

sklearn-extensions - scikit-learn 小扩展的综合包

Scikit-Learn 扩展 (sklearn_extensions) 是scikit-learn扩展的单一源存储库。它旨在补充 scikit-learn 在添加新预测器和模块方面较慢、更谨慎的方法，并为可能不符合这些标准的 sklearn 兼容模块提供单独的 pip 可安装源。

civisml-extensions - 来自 Civis Analytics 的 scikit-learn 兼容估计器

scikit-multilearn - python 的多标签分类

tslearn - 专用于时间序列数据的机器学习工具包

seqlearn - seqlearn 是 Python 的序列分类工具包

pystruct - 简单的 Python 结构化学习框架

sklearn-expertsys - 用于 scikit 学习的高度可解释的分类器，生成易于理解的决策规则而不是黑盒模型

skutil - 一组 scikit-learn 和 h2o 扩展类（以及 Python 的插入符类）

sklearn-crfsuite - 受 scikit-learn 启发的 CRFsuite API

RuleFit -规则拟合的实现

metric-learn - Python 中的度量学习算法

pyGAM - Python 中的广义加性模型

luminol - 异常检测和关联库

2 自动化机器学习

TPOT - 自动机器学习工具，使用遗传编程优化机器学习管道

TPOT 将通过智能探索数以千计的可能管道来为您的数据找到最佳管道，从而自动化机器学习中最乏味的部分。

auto-sklearn - 是一个自动化机器学习工具包，是 scikit-learn 估算器的替代品

MLBox - 一个强大的自动化机器学习 python 库。

MLBox 是一个强大的自动化机器学习 python 库。它提供以下功能：

快速读取和分布式数据预处理/清理/格式化

高度稳健的特征选择和泄漏检测

高维空间中精确的超参数优化

最先进的分类和回归预测模型（深度学习、堆叠、LightGBM 等）

带有模型解释的预测

详情请参考官方文档

3 集成方法

ML-Ensemble - 高性能集成学习

brew - Python 集成学习 API

Stacking - 用 Python 编写的简单而有用的堆栈库。

stacked_generalization - 用于机器学习堆叠泛化的库。

vecstack - 用于堆叠的 Python 包（机器学习技术）

4 不平衡的数据集

不平衡学习- 使用各种技术执行欠采样和过采样的模块

不平衡算法- 基于 Python 的算法实现，用于学习不平衡数据。

5 随机森林

rpforest - 随机投影树的森林

随机森林聚类- 使用随机森林的无监督聚类

sklearn-random-bits-forest - 由 (Wang et al., 2016) 编写的随机位森林程序的包装器

rgf_python - 正则化贪婪森林的 Python 包装器

6 极限学习机

Python-ELM - Python 中的极限学习机实现

Python 极限学习机 (ELM) - 一种用于分类/回归任务的机器学习技术

hpelm ![alt text][gpu] - 极限学习机（快速随机神经网络）的高性能实现。

7 内核方法

pyFM - python 中的分解机

fastFM - 分解机库

tffm - 任意阶分解机的 TensorFlow 实现

LiquidSVM - SVM 的实现

scikit-rvm - 使用 scikit-learn API 的相关向量机实现

8 梯度提升

XGBoost ![alt text][gpu] - 可扩展、便携和分布式梯度提升

LightGBM ![alt text][gpu] - 一种快速、分布式、高性能的微软梯度提升

CatBoost ![alt text][gpu] - Yandex 的决策树库上的开源梯度提升

InfiniteBoost - 使用梯度下降构建无限集成

TGBoost - 微小的梯度提升树

AI Python 机器学习

标签：机器学习深度学习瑞士军刀

机器学习框架指南

关于机器学习的三个阶段

深度学习的相关含义是什么

关于机器学习的应用有哪些

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜

智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

客户管理工具是什么？

简单进销存库存管理盘点

友情链接

机器学习框架指南

微信扫一扫：分享

推荐文章

最近发表

热评文章

友情链接