继Facebook开源Torch、Google开源TensorFlow以及微软开源分布式机器学习工具包DMTK之后,IBM成为今年第四家开源自家机器学习系统的巨头,这显示出机器学习的生态构建与人才争夺战的白热化。IBM开源的这套系统叫做SystemML,将会通过Apache Software Foundation开放共享,并允许开发者修改其代码,目前SystemML已作为孵化器项目被Apache接纳。
ML是Machine Learning的缩写,所以SystemML这个名称相当直白,就是一套机器学习系统,由IBM的Almaden实验室近10年前开发。它用Java语言编写,可支持描述性分析、分类、聚类、回归、矩阵分解及生存分析等算法, IBM的明星AI Waston就整合了不少SystemML的功能。
在部署方面, SystemML运行环境支持Windows、Linux及MacOS,可支持单机和分布式部署。单机部署显然有利于本地开发的工作,而分布式部署则可以真正发挥机器学习的威力,支持的框架包括Hadoop和Spark。
IBM决定通过Apache Foundation开源SystemML的原因是看中了这个社区广泛的开发者团体,希望能吸引到广大的开发者使用并加速其研发。其他公司开源被认为是未来核心竞争力的AI技术也是出于同样的目的(另外可能还希望找到自己青睐的紧缺的AI专家),开放才能做大做强。不过究竟谁才更具吸引力,说到底还是要看比拼技术架构、灵活性、适用性等核心能力。
什么是SystemML?
SystemML 是灵活的,可伸缩机器学习 (ML) 语言,使用 Java 编写。机器学习 (ML) 是指无需显式的编程即可让计算机学习的能力。
SystemML 与众不同的是:
(1) 可定制算法
(2) 多个执行模式,包括单个,Hadoop 批量和 Spark 批量,
(3) 自动优化
SystemML 先进的机器学习主要基于两方面:
SystemML 语言,声明式机器学习 (DML)。SystemML 包含线性代数原语,统计功能和 ML 指定结构,可以更容易也更原生的表达 ML 算法。算法通过 R 类型或者 Python 类型的语法进行表达。DML 通过提供灵活的定制分析表达和独立于底层输入格式和物理数据表示的数据显著提升数据科学的生产力。
其次,SystemML 提供自动优化功能,通过数据和集群特性保证高效和可伸缩。SystemML 可以在 MapReduce 或者 Spark 环境运行。
End.