目录图
一、
二、
主要
基础篇
(1)git commit
Git 仓库中的提交记录保存的是你的目录下所有文件的快照,就像是把整个目录复制,然后再粘贴一样,但比复制粘贴优雅许多!
Git 希望提交记录尽可能地轻量,因此在你每次进行提交时,它并不会盲目地复制整个目录。条件允许的情况下,它会将当前版本与仓库中的上一个版本进行对比,并把所有的差异打包到一……继续阅读 »
wangting
1年前 (2022-12-23) 181浏览
0个赞
写这篇文的原题是《阿里职场潜规则》希望小白们尽快学会规则,利用规则,不对味儿就早点出火坑,对味儿了就往死里干,人这辈子青春与汗水是有限的,如果换不回理想那换些臭钱也行。
正确分析事情,少听对方怎么说的,要看对方怎么做的,职场套路很多,很多事情不会明说,甚至不会说,全靠意会,总结一下,有不对不认可的地方全当笑话:
1. 如果3.5- 那么有概率要方便让你主……继续阅读 »
wangting
3年前 (2021-08-11) 343浏览
0个赞
今天为大家分享一道FLAG和BAT都出现过的经典面试题。题目有一定难度,建议大家耐着性子看完!不要说没天赋看不懂。在这个浮躁到努力的人都很少的年代,还谈不上说天赋这件事。
#01、题目示例
这道题是非常好的一道题目,也是前面100道里最难的题目之一,相当经典!
第4题:寻找两个正序数组的中位数
给定两个大小为 m 和 n ……继续阅读 »
wangting
3年前 (2021-06-25) 333浏览
0个赞
Python在近几年越来越受追捧,很多童鞋或者职场小伙伴想要提升技能-学习Python。
这是非常好的事情,但问题在于很多人不知道学Python做什么,所以什么零碎细末、艰难晦涩、长篇大论的都去看,很容易陷入学不下去的困境。必须要有针对性、选择性地学!
针对性学习宗旨是按需去学,学以致用。这里有一份Python3.8教程,个人感觉主要还是偏基础,包括数据类型……继续阅读 »
wangting
3年前 (2021-03-31) 391浏览
4个赞
开篇
随着业务不断发展,软件系统的架构也越来越复杂,但无论多复杂的业务最终在系统中实现的时候,无非是读写操作。用户根据业务规则写入商业数据,再根据查询规则获取想要的结果。通常而言我们会讲这些读写的数据放到一个数据库中保存,通过一套模型对其进行读写操作。而在大型系统中往往查询操作远远多于写入操作,于是就有了读写分离的思想,将读操作和写操作的……继续阅读 »
wangting
3年前 (2021-02-02) 747浏览
2个赞
想通过配置调用agg方法, 不知如何构造spark.sql.Column, 所以研究了下, 记录下:
agg方法:
def agg(expr: Column, exprs: Column*): DataFrame = {
toDF((expr +: exprs).map {
case typed: TypedColumn[_, ……继续阅读 »
wangting
3年前 (2020-11-06) 484浏览
7个赞
技术晋级答辩,或称技术通道面试,说的都是一个意思。在许多大公司里,技术人员在职业通道上的关键晋升节点都是要有正规的技术答辩的,比如我所在的美的电商公司即是如此。
许多技术人员都非常热衷于技术,但很多时候却不善于表达,不知如何表现自己,往往在晋升方面会比较吃亏。幸好,竞争对手也大部分是同样不善于表达的技术人员,还不算太吃亏。
那么,如何才能充分准备一次技术晋升……继续阅读 »
wangting
4年前 (2020-05-19) 946浏览
6个赞
在面向对象的C++语言中,虚函数(virtual function)是一个非常重要的概念。
什么是虚函数:
虚函数是指一个类中你希望重载的成员函数 ,当你用一个 基类指针或引用 指向一个继承类对象的时候,调用一个虚函数时, 实际调用的是继承类的版本。 ——摘自MSDN
举例:
#include <iostream>
using ……继续阅读 »
wangting
4年前 (2020-03-31) 1147浏览
0个赞
java.net.SocketException如何才能更好的使用呢?这个就需要我们先要了解有关这个语言的相关问题。希望大家有所帮助。那么我们就来看看有关java.net.SocketException的相关知识。
第1个异常是 java.net.BindException:Address already in use: JVM_Bind。
该异常发生在服务……继续阅读 »
wangting
4年前 (2020-03-19) 1111浏览
0个赞
Dependency
Spark将RDD之间的依赖分为窄依赖和宽依赖,源码中对应的定义分别为NarrowDependency和ShuffleDependency。
其中NarrowDependency又有两种OneToOneDependency和RangeDependency两种实现。
NarrowDependency
OneToOneDependency……继续阅读 »
wangting
4年前 (2019-11-18) 875浏览
4个赞
昨天晚上我媳妇又“加班”到十一点多,如果我没记错的话这已经是第三次“加班”到夜里,上一次更是到零点之后。
“加班”内容是:吃饭,喝酒。
我认为这不是加班,不是工作。而她和我意见相左。
并且在我希望她在21:30左右的时候提出先行离开这件事上产生了一些意见上的分歧。
以上是引起我们这次沟通的小事件,也让我发现她现在对于融入新团队这件事情上竟然有了一些迷……继续阅读 »
wangting
4年前 (2019-11-14) 1290浏览
13个赞
SortShuffleManager
Reader使用BlockStoreShuffleReader,Writer根据传入的ShuffleHandler选择使用UnsafeShuffleWriter,BypassMergeSortShuffleWriter,还是SortShuffleWriter
override def getReader……继续阅读 »
wangting
4年前 (2019-11-13) 979浏览
4个赞
复现问题
Spark 1.4中使用spark-shell执行如下操作
scala> sqlContext.read.load("/app/dc/yarn/QA/p.txt")
报如下错误:
Job aborted due to stage failure: Task 7 in stage 0.0 ……继续阅读 »
wangting
4年前 (2019-11-13) 1046浏览
3个赞
相关参数介绍:
参数
默认值
说明
spark.sql.output.codec
none
使用的序列化方式,如snappy,lzo等,默认为不压缩。
spark.sql.output.coalesceNum
200
写入到指定目录的数据合并后文件的个数,仅当spark.sql.output.merge设为true时生效。
……继续阅读 »
wangting
4年前 (2019-11-06) 1286浏览
4个赞
通过GeneratedBlockHandler实现对数据的存储和确认逻辑。
/** Class to handle blocks generated by the block generator. */
private final class GeneratedBlockHandler extends BlockGeneratorList……继续阅读 »
wangting
4年前 (2019-11-01) 881浏览
3个赞
Feature:Spark支持GBK文件读取功能
需求分析
Spark默认的Text输入格式处理同Hadoop相同,均默认以UTF-8编码处理。
如果源本件本身是其他格式编码的,如GBK,在Spark处理后读出就会是乱码。
例如一张有关餐馆信息的数据可能是:
4504812|聚品面馆
5623102|金米粒抓饭
5623112|湘下茶饭
……继续阅读 »
wangting
4年前 (2019-11-01) 1310浏览
3个赞
阅读Hive Orc官方文档
Introduction
Orc格式支持自Hive 0.11引入。
The Optimized Row Columnar (ORC) 文件格式提供了更高效地存储Hive数据存储。其设计初衷是克服其他Hive文件格式的局限。
使用Orc文件提升了Hive的读写和处理性能。
相比RCFile,ORC文件格式由如下优点:
每个T……继续阅读 »
wangting
4年前 (2019-10-29) 1512浏览
6个赞
调度
调度相关配置说明详见下表:
配置项
默认值
说明
spark.scheduler.mode
FIFO
提交到同一个SparkContext的job的调度策略,有FIFO和FAIR两种。
Spark SQL
SQL组件相关配置说明详见下表:
配置项
默认值
……继续阅读 »
wangting
4年前 (2019-10-29) 1043浏览
4个赞
Dataset是1.6版本引入的新的实验接口, 整合了RDD的优势(强类型, 支持lambda方法)和Spark SQL执行引擎的各种优化. Dataset可以由JVM对象来构造并且使用transformation来变换(map, flatMap, filter等等). Dataset本身是DataFrame API的一种扩展, 它提供了类型安全, 面向对象……继续阅读 »
wangting
5年前 (2019-10-17) 1126浏览
3个赞
Sql由SQLContext处理,HQL由HiveContext处理。二者使用不同的parser进行解析。
Sql parser的实现在Spark SQL catalyst源码中,基于scala ddl paser的库文件实现了一套词法语法分析器。
HQL是SQL在Hive中的”方言”,它的解析借助开源语法分析器antrl实现。
在H……继续阅读 »
wangting
5年前 (2019-10-14) 1235浏览
5个赞