Hadoop知识点总结

HDFS 和YARN 的基本概念

HDFS

分布式文件系统,主/从架构

  • NameNode:负责管理元数据(文件名称,副本数量,文件位置,块大小)。HDFS 存储是以块存储 默认块大小 128MB,hadoop1 中默认的块大小是64MB。一个节点。
  • DataNode:主要存储真正的数据,多节点。
  • secondaryNamenode:辅助节点,用于合并两类文件。
  • Fsimage, edits:作为元数据的镜像和操作的日志记录。
Read more
HBase知识点总结

HBase的架构

Read more
Hive知识点总结

hive与mysql的区别

回答思路:hive背景(原理、本质)–>两者操作、本质的差别–>读写差别–>其它差别。

Hive的诞生背景:学mysql的也想入门大数据,但又不会java,于是hive就诞生了。Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表。本质是将HQL语句转化为MR程序。

Read more
数据库知识点总结

1. 事务四大特性(ACID)原子性、一致性、隔离性、持久性?

  • 原子性(Atomicity)

    原子性是指事务包含的所有操作要么全部成功,要么全部失败回滚,因此事务的操作如果成功就必须要完全应用到数据库,如果操作失败则不能对数据库有任何影响。

  • 一致性(Consistency)

    事务开始前和结束后,数据库的完整性约束没有被破坏。比如A向B转账,不可能A扣了钱,B却没收到。

  • 隔离性(Isolation)

    隔离性是当多个用户并发访问数据库时,比如操作同一张表时,数据库为每一个用户开启的事务,不能被其他事务的操作所干扰,多个并发事务之间要相互隔离。

    同一时间,只允许一个事务请求同一数据,不同的事务之间彼此没有任何干扰。比如A正在从一张银行卡中取钱,在A取钱的过程结束前,B不能向这张卡转账。

  • 持久性(Durability)

    持久性是指一个事务一旦被提交了,那么对数据库中的数据的改变就是永久性的,即便是在数据库系统遇到故障的情况下也不会丢失提交事务的操作。

Read more
Hive数据倾斜优化总结

1. 数据倾斜的原因

1.1 操作

关键词 情形 后果
Join 其中一个表较小,但是key集中 分发到某一个或几个reduce上的数据远高于平均值
Join 大表与大表,但是分桶的判断字段0值或空值过多 这些空值都由一个reduce处理,非常慢
group by group by 维度过小,某值的数量过多 处理某值的reduce耗时
Count Distinct 某特殊值过多 处理此特殊值的reduce耗时
Read more
sqlload用法总结

总体流程

  • 创建bad、log、ctl、discard目录
  • 在数据库中创建需要导入的表
  • 编写控制文件,例如test.ctl ,放到ctl目录下(数据文件也在ctl目录下)
  • 执行命令 sqlldr username/password@10.119.169.126:1521/dtlkdvapdb control=’ctl\test.ctl’ log=’log\test.log’ bad=’bad\test.log’ discard=’discard\test.log’ direct=true;
  • 导入完成后需要检查log和bad日志,看是否存在问题导致数据并未入库
Read more
数据架构随记
更多详情请点击
Read more
hadoop常用命令
hadoop fs -ls / 显示hdfs目录结构hadoop fs -du / 显示该目录中每个文件或目录的大小hadoop fs -du -s / 显示该目录总大小hadoop fs -mkdir /home 在hdfs指定目录内创建新目录hadoop fs -touchz /wahaha 创 ...
Read more
Oracle删除重复数据

1.查找表中多余的重复记录,重复记录是根据单个字段(id)来判断

select * from
where id in (select id from
group by id
having count(id) > 1)

Read more
Oracle行列转换

pivot 列转行

select * 
from (select name, nums from demo)
pivot(sum(nums) for name
in ('苹果' 苹果, '橘子', '葡萄', '芒果'));
Read more