事务:之前了解到的是,转账(一个帐户上都加、一个帐户上进行减)
行级事务(要保存一条insert\update不会出现只插入一部分的情况)
实时:查询速度快,响应速度快。
在企业里面,一个请求发送出去,如果不是太复杂的话,在做需求的时候,整个响应过程一般不会超过3S
OLTP:一般指的是数据库
OLAP:重点在于分析上,用于查询或者分析使用。没有实时要求一般是按天、周、月、年来进行数据统计。
OLTP是要求实时性高,一般是用于业务系统。
OLAP对实时性要求不高,一般用于数据分析(但是一般情况下是比业务系统的存储的数据量更大)
CAP原则:
Consistency(一致性)、 Availability(可用性)、Partition tolerance(分区容错性)
ETL? ETL有一个职位在:ETL工程师
经过抽取(extract)、转换(transform)、加载(load)至目的端的过程
爬虫、数据的算法(清洗、转换)、ETL工具
HIVE的定位是数据仓库,所偏向的是数据分析存储和计算方向。
在新的技术范围内。计算引擎mapreduce中是其中之一。有些公司会有到spark来作为计算引擎。HIVE与spark的集成。
主备模式:有主也有从。当主的挂掉之后,备机可以马上启动起来。这就是【高可用】单点故障
存储格式:.txt(文本格式)、gzip(压缩格式)、二进制文件(序列化文件)
存储过程:类似于java中的一个方法(里面可以有多条语句、同时可以包含判断、循环等等)
selectsubstring(name,1,7) from t_user;
该函数会不会影响输出的记录数?不用这个函数的条数与用了函数的条数是一致。没影响。
selectcount(name) from t_user;
selectsplit(address,',') from t_user;
UDF(不影响条数)、UDAF(会让条数减少)、UDTF(会让条数增多)
多接口:指的是可以直接或间接的方式,操作hive。hive支持操作方式
视图:让使用者更简洁
视图里面可以包含很复杂的sql语句,但是语句中又没有逻辑的东西(如果有逻辑的东西应该用存储过程)
数据会临时存储到数据库中,会提高查询效率。但是数据有更新或者删除的时候,需要对数据进行修改。
登录 | 立即注册