据 Arthur Samuel 所讲,机器学习就是在不对其进行具体编程的情况下,使计算机拥有学习的能力。换句话说,它在我们不操作计算机的情况下,却能拥有自我学习的能力,并能执行正确的指令。并且谷歌公司已经将策略从移动优先转变为 AI 优先很长一段时间了。
现在已经有很多的 JavaScript 库了,它们已经预定义了机器学习算法,比如:线性回归、支持向量机、朴素贝叶斯算法等,以下列出了几个库:
我将使用 mljs 的回归库来执行线性回归模型的分析。全部代码都在 Github 上:machine-learning-with-js。
第一步. 安装依赖的库
- $ yarn add ml-regression csvtojson
或者你更喜欢 npm:
- $ npm install ml-regression csvtojson
ml-regression 所做的事正如它的名字那样,机器学习线性回归库。
csvtojson 是在 node.js 环境中的一个 cvs 数据解析器,它可以在你加载完 cvs 数据后将其快速的转换为 JSON。
第二步. 初始化依赖库并加载数据
首先从这里下载数据文件,并将数据文件放在你的工程目录中。
假设你已经初始化了一个空的 npm 工程,打开 index.js 文件,并输入以下代码:(你可以直接复制 / 粘贴,但为了能够更好的理解它,建议你能亲自输入这段代码)
- const ml = require('ml-regression');
- const csv = require('csvtojson');
- const SLR = ml.SLR; // 简单线性回归
- const csvFilePath = 'advertising.csv'; // 数据文件
- let csvData = [], // 已解析的数据
- X = [], // 输入
- y = []; // 输出
- let regressionModel;
我把这个文件放在了项目的根目录下,因此如果你放在了别的目录下,请同时更改上述代码中的 csvFilePath 变量。
这样的代码看起来相当整洁,不是么?
接下来使用 csvtojson 库的 fromFile 方法加载数据文件。
- csv()
- .fromFile(csvFilePath)
- .on('json', (jsonObj) => {
- csvData.push(jsonObj);
- })
- .on('done', () => {
- dressData(); // 从JSON对象中获取数据点
- performRegression();
- });
第三步. 将数据加以装饰,以准备开始执行
保存在 csvData 变量中的 JSON 对象已经准备好了,同时还分别需要一个数组,用来存储输入点数据和输出点数据。然后将通过 dressData 函数来运行数据,且 dressData 函数将会计算出 X 和 Y 变量。
- function dressData() {
- /**
- * 一个数据对象应该这样:
- * {
- * TV: "10",
- * Radio: "100",
- * Newspaper: "20",
- * "Sales": "1000"
- * }
- *
- * 因此,在添加数据点的同时,
- * 我们需要将String类型的值解析为Float类型。
- */
- csvData.forEach((row) => {
- X.push(f(row.Radio));
- y.push(f(row.Sales));
- });
- }
- function f(s) {
- return parseFloat(s);
- }
第四步. 训练模型,并开始进行预测
现在数据已经装饰好了,是时候来训练模型了。
为了实现这一目标,我们需要一个 performRegression 函数:
- function performRegression() {
- regressionModel = new SLR(X, y); // 基于训练数据来训练模型
- console.log(regressionModel.toString(3));
- predictOutput();
- }
regressionModel 有一个 toString 方法,它所接收的参数代表输出值浮点数的精度。
predictOutput 方法能够接收所输入的值,并且向终端输出所预测的值。
以下就是这个函数的代码:(这里使用了 node.js 的 readline 模块)
- function predictOutput() {
- rl.question('Enter input X for prediction (Press CTRL+C to exit) : ', (answer) = >{
- console.log(`At X = $ {
- answer
- },
- y = $ {
- regressionModel.predict(parseFloat(answer))
- }`);
- predictOutput();
- });
- }
以下代码读取了用户的输入值:
- const readline = require('readline'); // 同时预测用户的输入值
- const rl = readline.createInterface({
- input: process.stdin,
- output: process.stdout
- });
第五步. 恭喜你!做到了。
如果你跟着我一步一步的做,现在你的 index.js 文件应该是这样子的:
- const ml = require('ml-regression');
- const csv = require('csvtojson');
- const SLR = ml.SLR; // 简单线性回归
- const csvFilePath = 'advertising.csv'; // 数据
- let csvData = [],
- // 已解析的数据
- X = [],
- // 输入
- y = []; // 输出
- let regressionModel;
- const readline = require('readline'); // 同时预测用户的输入值
- const rl = readline.createInterface({
- input: process.stdin,
- output: process.stdout
- });
- csv().fromFile(csvFilePath).on('json', (jsonObj) = >{
- csvData.push(jsonObj);
- }).on('done', () = >{
- dressData(); // 从JSON对象中获取数据点
- performRegression();
- });
- function performRegression() {
- regressionModel = new SLR(X, y); // 基于训练数据来训练模型
- console.log(regressionModel.toString(3));
- predictOutput();
- }
- function dressData() {
- /**
- * 一个数据对象应该这样:
- * {
- * TV: "10",
- * Radio: "100",
- * Newspaper: "20",
- * "Sales": "1000"
- * }
- *
- * 因此,在添加数据点的同时,
- * 我们需要将String类型的值解析为Float类型。
- */
- csvData.forEach((row) = >{
- X.push(f(row.Radio));
- y.push(f(row.Sales));
- });
- }
- function f(s) {
- return parseFloat(s);
- }
- function predictOutput() {
- rl.question('Enter input X for prediction (Press CTRL+C to exit) : ', (answer) = >{
- console.log(`At X = $ {
- answer
- },
- y = $ {
- regressionModel.predict(parseFloat(answer))
- }`);
- predictOutput();
- });
- }
打开终端,输入并运行 node index.js,它将会输出如下所示内容:
- $ node index.js
- f(x) = 0.202 * x + 9.31
- Enter input X for prediction (Press CTRL+C to exit) : 151.5
- At X = 151.5, y = 39.98974927911285
- Enter input X for prediction (Press CTRL+C to exit) :
恭喜你!刚刚用 JavaScript 训练了你的第一个线性回归模型。(你有注意到它的速度么?)
PS: 我将使用 ml 和其他的库(上面所列出的那些)在各种数据集上执行目前比较流行的机器学习算法。请时刻关注我的动态,获取最新的机器学习教程。
感谢你的阅读!如果你喜欢这篇文章的话,请为我点赞,以让别人知道 JavaScript 是多么的强大,以及为什么在机器学习领域中 JavaScript 不应该落后。
来源: http://www.infoq.com/cn/articles/machine-learning-with-javascript-part01