DataX使用指南——ODPS to ODPS
1. DataX是什么
DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、OTS、ODPS 等各种异构数据源之间高效的数据同步功能。
DataX插件编写指南
DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、HDFS、Hive、OceanBase、HBase、OTS、ODPS 等各种异构数据源之间高效的数据同步功能。DataX采用了框架 + 插件 的模式,目前已开源,代码托管在github。
Hadoop迁移MaxCompute神器之DataX-On-Hadoop使用指南
DataX-On-Hadoop即使用hadoop的任务调度器,将DataX task(Reader->Channel->Writer)调度到hadoop执行集群上执行。这样用户的hadoop数据可以通过MR任务批量上传到ODPS、RDS等,不需要用户提前安装和部署DataX软件包,也不需要另外为DataX准备执行集群。
解密 阿里巴巴大数据女程序员瑞清代码诗!
2018年已过,我们迎来了新的一年,在机遇与挑战同在的环境下,我们更应勤于学习。为了方便大家学习,小编为大家盘点了2018年阿里巴巴大数据—玩家社区云栖号最火的干货文章分享给大家,让我们在新的一年里共同学习和成长!
阿里巴巴大数据 —玩家社区
云栖号简介:
阿里大数据博文,问答,社群,实践,有朋自远方来,不亦说乎……
2018年10篇最受欢迎博文:
第一篇:
《MaxCompute/DataWorks权限问题排查建议》
MaxCompute与DataWorks为两个产品,在权限体系上既有交集又要一定的差别。
OTS数据迁移验证方案
OTS在业务停写的情况下,可以通过DATAX工具对OTS数据的全量迁移。本文描述了在进行业务割接的情况下,ots数据的全量迁移配置方法,以及数据校验方法。
1 OTS数据迁移方法
1.1 工具环境要求
tablestore客户端工具机:在本地安装表格存储客户端管理工具,提供图形化的操作界面,用于创建、更新和删除数据表。
从Mysql到阿里云时序数据库InfluxDB的数据迁移
作为阿里在APM和IOT领域的重要布局,时序数据库承载着阿里对于物理网和未来应用监控市场的未来和排头兵,作为业内排名第一的时序数据库InfluxDB,其在国内和国际都拥有了大量的用户,阿里适逢其时,重磅推出了阿里云 InfluxDB®。
机器学习笔记之K-means聚类
K-means聚类是聚类分析中比较基础的算法,属于典型的非监督学习算法。其定义为对未知标记的数据集,按照数据内部存在的数据特征将数据集划分为多个不同的类别,使类别内的数据尽可能接近,类别间的数据相似度比较大。用于衡量距离的方法主要有曼哈顿距离、欧氏距离、切比雪夫距离,其中欧氏距离较为常用。
DataWorks数据集成任务切分键妙用
对于数据集成任务,这些任务的时间消耗一般都主要花费在数据同步上,当查询表数据量较大时,其SQL本身在数据库中查询就是很慢的,那么对于这种情况有说明好的优化方法呢?
数据集成任务上提供了一个切分键的设置,那么该切分键是否可以对源库SQL查询有一定的提升,劲儿提高数据同步...