看新闻很累? 看技术新闻更累? 试试 下载 InfoQ 手机客户端
https://time.geekbang.org/?utm_source=website&utm_medium=infoq&utm_campaign=news&utm_content=app , 每天上下班路上听新闻, 有趣还有料!
近日, Dataiku https://www.dataiku.com/ 发布了 Data Science Studio
https://www.dataiku.com/dss/features/connectivity/ (DSS) 的 4.2 版本
https://blog.dataiku.com/dataiku-4.2-now-with-deep-learning-weighted-machine-learning . 这是一个协作式数据分析和预测分析平台, 提供了预训练深度学习模型用于图像处理. 通过 迁移学习
https://www.dataiku.com/learn/guide/code/plugins/deep-learning.html#retrain , 该模型可以进一步应用到专用数据集上.
该平台涵盖了数据科学端到端项目的所有步骤, 从连接, 数据整理和可视化到机器学习和生产部署. 其机器学习模型支持 Scikit-learn
http://scikit-learn.org/ , XGBoost https://github.com/dmlc/xgboost , MLLIb http://spark.apache.org/mllib/ 或 H20 http://h2o.ai/ 等标准库. 开发人员也可以连接到 Hadoop https://doc.dataiku.com/dss/latest/hadoop/index.html 集群, 并集成多种 Spark https://doc.dataiku.com/dss/latest/spark/index.html 引擎.
这个平台适用于 常见的预测分析场景 https://www.dataiku.com/solutions/ , 如需求预测, 生命周期价值优化, 客户流失分析或欺诈检测. Dataiku 的客户包括像 通用电气 https://www.ge.com/ , 欧莱雅 http://www.loreal.com/ 或 联合利华 https://www.unilever.com/ 这样的公司. 在 Gartner 2018 数据科学平台魔力象限 https://blog.dataiku.com/dataiku-named-a-visionary-for-2nd-consecutive-year-in-gartner-magic-quadrant-for-data-science-and-machine-learning-platforms 中, 该公司已经连续第二年被称为 "远见者 (visionary)".
InfoQ 采访了 Dataiku 首席执行官 Florian Douetteau https://www.crunchbase.com/person/florian-douetteau , 以了解更多有关这家公司及其旗舰产品的信息.
InfoQ: 您可以给我们介绍下你们的数据科学平台 Dataiku DSS 的一些背景吗? 其后台技术是什么?
Florian Douetteau:Dataiku 是一个软件, 用户可以下载并安装在自己的基础设施上. 因此, 对于许多客户而言, 那是在云上, 但对其他人来说, 那仍然是他们自己的数据中心 (大约对半).
我们通常要考虑客户的部署约束和挑战, 因此, 我们必须让我们的产品尽可能地简单. 我们的架构是多进程的, 但它是自包含的, 在这个意义上来说, 也可以视为单体的. 从根本上说, 该解决方案内置了它需要的一切, 包括 SQLite https://www.sqlite.org/index.html 和 H2 http://www.h2database.com/ 数据库. 我们的代码主要是使用 Java 编写的, 这是大数据的主要语言之一, 被视为性能和生产力取得很好平衡的一门语言.
在后台有一个 Web 服务器, 负责任务调度, 存储和元数据管理, 搜索索引. 我们还有一些 Python 和 R 进程, 显然还有 Spark 进程. 在前端, 我们使用一个 AngularJS 编写的单页应用程序 ( SPA https://blog.angular-university.io/why-a-single-page-application-what-are-the-benefits-what-is-a-spa/ ).
InfoQ: 平台的典型用户是谁? 市场或销售部门可以用吗? 或者, 它需要使用者具有一定水平的数据科学知识吗?
Douetteau:Dataiku 一个很大的好处是让企业里的任何人都可以使用数据或与数据进行交互. 当然, 有许多特性是专门为编码人员和数据科学专家提供的 -- 他们可以使用自己最喜欢的大数据编程语言完成更高级的定制工作. 但是, 我们也有许多数据科学家使用这个平台把那些编码特性和点击式可视界面结合在一起, 因为有时候, 那会更高效.
Dataiku 的可视界面可以让分析人员或其他非技术人员连接数据源, 整理数据, 运用机器学习模型, 实现可视化等等, 而不需要编写一行代码. 对于有许多分析师的大型团队而言, 这太棒了, 因为这带来了很大的可扩展性. 对于可能没有数据科学家的小型团队而言, 这也可以为他们带来很大的灵活性.
InfoQ:DSS 4.2 中包含了基于深度学习的图像识别. 你们的深度学习产品策略是什么?
Douetteau: 整个 2018 年到 2019 年, 我们将集中精力帮助企业消除数据项目产品化之路上的障碍, 并提供长期成功所需的结构和稳定性. 这意味着, 我们将按照产品开发路线图加速深度学习, AI 向生产环境的部署.
InfoQ: 在计算能力和存储方面, 你们如何应对利用大数据, 深度学习的大规模机器学习?
Douetteau: 在性能方面, 由于 Dataiku 是一个用户可以下载并安装在自有基础设施上的软件, 所以, 要确保良好的性能, 就需要客户端部署多个实例.
这恰恰是我们所支持的 -- 横向扩展和新增节点. 说服客户, 让他们信任我们, 把数据交给我们托管, 这是个复杂的事情, 尤其是, 我们面向的是大型的国际化企业. 但除此之外, 还有底层的技术问题; 例如, 处理数据时要离数据尽可能地近, 此时, SaaS 就不是一个好的解决方案. 另一方面, 这非常适合云 -- 我们通过托管的 Hadoop 解决方案集成了 AWS,Microsoft Azure 和 GCP.
在接下来的几个月里, Dataiku 将会出席在美国举办的多个 大数据和 AI 活动 https://www.dataiku.com/company/events/ , 包括将于六月份在旧金山举行的 Spark 峰会 https://databricks.com/sparkaisummit/north-america .Dataiku 官网提供了该软件的 免费版本 https://www.dataiku.com/dss/trynow/ .
来源: http://www.tuicool.com/articles/32qA3uZ