如何将Oracle的大宽表(8000w条数据,每条记录280多个字段)导入到hbase?
使用sqoop工具。
创新互联公司的客户来自各行各业,为了共同目标,我们在工作上密切配合,从创业型小企业到企事业单位,感谢他们对我们的要求,感谢他们从不同领域给我们带来的挑战,让我们激情的团队有机会用头脑与智慧不断的给客户带来惊喜。专业领域包括做网站、网站制作、电商网站开发、微信营销、系统平台开发。
1、在行键选择那里,通过用“”,将需要做行键的多个列写在一起就可以了。
2、例如要将a和b列同时做行键,那么--hbase-row-key "a,b"就可以了。
Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
关于oracle性能优化的提问 急!!!!!
哦,那看起来是因为group by 的原因了,难道这个sql的结果集很大么?
select count(*) c
from table
where column1= ......
and column2 = .......
and column3 in(.., .. , ..,)
and substr(trade_time,1,16) between '2009-01-01 01:01' and '2009-02-06 01:01 ;
你的oracle版本多少?如果是oracle9,在sqlplus中先执行这两个命令,然后执行你的sql看看
alter session set workarea_size_policy=manual;
--排序区设置为10M
alter session set sort_area_size=10240000;
如果能加快,证明确实是排序区的问题了。
----------------------------
好吧,我谈谈我的看法
1,你问题中的sql语句所反映的业务逻辑好像就不合理,很明显 trade_time 这个列的精度是到秒的,按这个列进行分组然后求各组合计....我不清楚这代表什么情形的业务,需求是不是不合理?
2. 如果你数据量增长那么快,靠这个函数索引会很吃力,建议你考虑一下分区表吧。
数据仓库数据建模的几种思路
数据仓库数据建模的几种思路主要分为一下几种
1. 星型模式
星形模式(Star Schema)是最常用的维度建模方式。星型模式是以事实表为中心,所有的维度表直接连接在事实表上,像星星一样。星形模式的维度建模由一个事实表和一组维表成,且具有以下特点:a. 维表只和事实表关联,维表之间没有关联;b. 每个维表主键为单列,且该主键放置在事实表中,作为两边连接的外键;c. 以事实表为核心,维表围绕核心呈星形分布;
2. 雪花模式
雪花模式(Snowflake Schema)是对星形模式的扩展。雪花模式的维度表可以拥有其他维度表的,虽然这种模型相比星型更规范一些,但是由于这种模型不太容易理解,维护成本比较高,而且性能方面需要关联多层维表,性能也比星型模型要低。所以一般不是很常用
雪花模式
3.星座模式
星座模式是星型模式延伸而来,星型模式是基于一张事实表的,而星座模式是基于多张事实表的,而且共享维度信息。前面介绍的两种维度建模方法都是多维表对应单事实表,但在很多时候维度空间内的事实表不止一个,而一个维表也可能被多个事实表用到。在业务发展后期,绝大部分维度建模都采用的是星座模式。
星座模型
标题名称:怎么做Oracle宽表 oracle 宽表查询性能
文章URL:http://scpingwu.com/article/hhjjjs.html