• 如果您觉得本站非常有看点,那么赶紧使用Ctrl+D 收藏吧

最新发布 第4页

程序员灯塔天道酬勤,关注互联网+大数据相关技术.

大数据

大数据开发工程师如何避免成为取数机器?

大数据开发工程师如何避免成为取数机器?
从事互联网数据仓库工作好多年了,其中最大的感触就是数据仓库开发人员每天做的最多的工作就是为业务方取数。简单重复的取数工作,一方面很难让大家在技能上有提高,另一方面也慢慢的消磨了大家的积极性和意志,也让大家极没有存在感。 另外,在公司的整体架构中,取数这种工种很容易被替代,所以,也极不被重视。 那做为一名数据仓库的开发人员,该怎么反省提高自己?下面是我的一些……继续阅读 »

diligentman 1年前 (2018-10-31) 20浏览 0个赞

hadoop

接地气,到底什么才是大数据开发工程师?

接地气,到底什么才是大数据开发工程师?
最近发现有些同学并不太了解大数据开发工程师这个职位,自己转大数据开发也已经三年了,所以想简单介绍一下什么是大数据开发工程师,当前互联网公司的数据开发到底是什么样子的?和一般的java或者php工程师在工作上有什么区别? 声明:本文仅代表个人观点,有不同意见欢迎提出。另外本文对大数据开发工程师没什么参考价值~仅是我各人对这个职位做一个介绍。 1 先说我认为什么……继续阅读 »

wangting 1年前 (2018-09-23) 1839浏览 0个赞

java

JDK10源码阅读–String

JDK10源码阅读–String
jdk源码里对String的介绍: String 是不可变的,一旦被创建其值不能被改变. String buffers 支持可变String. 因为String是不可变的, 所以它们可以被共享. 例如: String str = "abc"; 等价于 char data[] = {'a', 'b', &……继续阅读 »

wangting 1年前 (2018-09-21) 3867浏览 79评论 0个赞

大数据

[java大数据面试] 2018年4月百度面试经过+三面算法题:给定一个数组,求和为定值的所有组合.

[java大数据面试] 2018年4月百度面试经过+三面算法题:给定一个数组,求和为定值的所有组合.
给定一个数组,求和为定值的所有组合, 这道算法题在leetcode应该算是中等偏下难度, 对三到五年工作经验主要做业务开发的同学来说, 一般较难的也就是这种程度了. 简述经过: 不算hr面,总计四面,第一天前三面, 然后过了一个多星期第四面(领导一般都比较忙~) 平均每一面都是一小时,面完前三面已经很辛苦了. 我之前去美团面试从一面到hr面,总计四面 面了……继续阅读 »

wangting 1年前 (2018-09-16) 11635浏览 0个赞

互联网

教程+资源,python scrapy实战爬取知乎最性感妹子的爆照合集(12G)!

教程+资源,python scrapy实战爬取知乎最性感妹子的爆照合集(12G)!
一.出发点: 之前在知乎看到一位大牛(二胖)写的一篇文章:python爬取知乎最受欢迎的妹子(大概题目是这个,具体记不清了),但是这位二胖哥没有给出源码,而我也没用过python,正好顺便学一学,所以我决定自己动手搞一搞. 爬取已经完成,文末有 python的源码和妹子图片的百度云地址 二.准备: 爬虫还是要用python(之前用过一个国人大牛写的java爬……继续阅读 »

wangting 1年前 (2018-09-13) 4404浏览 0个赞

互联网

python scrapy爬取知乎问题和收藏夹下所有答案的内容和图片

python scrapy爬取知乎问题和收藏夹下所有答案的内容和图片
上文介绍了爬取知乎问题信息的整个过程,这里介绍下爬取问题下所有答案的内容和图片,大致过程相同,部分核心代码不同. 爬取一个问题的所有内容流程大致如下: 一个问题url 请求url,获取问题下的答案个数(我不需要,因为之前获取问题信息的时候保存了问题的回答个数) 通过答案的接口去获取答案(如果一次获取5个答案,总计100个答案,需要计算的出访问20次答案接口……继续阅读 »

wangting 1年前 (2018-09-13) 6700浏览 0个赞

互联网

使用python scrapy爬取知乎提问信息

使用python scrapy爬取知乎提问信息
前文介绍了python的scrapy爬虫框架和登录知乎的方法. 这里介绍如何爬取知乎的问题信息,并保存到mysql数据库中. 首先,看一下我要爬取哪些内容: 如下图所示,我要爬取一个问题的6个信息: 问题的id(question_id) 标题(title) 问题描述(intro) 回答个数(answer_num) 关注人数(attention_uv) 浏览……继续阅读 »

wangting 1年前 (2018-09-13) 953浏览 1评论 0个赞

java

[java基础]一文理解java多线程必备的sychronized关键字,从此不再混淆!

[java基础]一文理解java多线程必备的sychronized关键字,从此不再混淆!
java并发编程中最长用到的关键字就是synchronized了,这里讲解一下这个关键字的用法和容易混淆的地方. synchronized关键字涉及到锁的概念, 在java中,synchronized锁大家又通俗的称为:方法锁,对象锁 和 类锁 三种. 先上结论! 1 无论是修饰方法还是修饰代码块都是 对象锁,当一个线程访问一个带synchronized方法……继续阅读 »

wangting 1年前 (2018-09-11) 10663浏览 117评论 0个赞

python

python scrapy 登录知乎过程

python scrapy 登录知乎过程
前面了解了scrapy框架的大概各个组件的作用, 现在要爬取知乎数据,那么第一步就是要登录! 看下知乎的登录页面发现登录主要是两大接口 一: 登录页面地址,获取登录需要的验证码,如下图 打开知乎登录页面,需要输入用户名和密码, 还有一个验证码, 看chrome 调试工具发现验证码是这个地址返回的: https://www.zhihu.com/api/v3/o……继续阅读 »

wangting 1年前 (2018-09-10) 3138浏览 4评论 1个赞

python

python scrapy爬虫框架概念介绍(个人理解总结为一张图)

python scrapy爬虫框架概念介绍(个人理解总结为一张图)
python的scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架 python和scrapy的安装就不介绍了,资料很多 这里我个人总结一下,能更加快理解scrapy和快速上手一个简单的爬虫程序 首先开始一个scrapy项目 用命令: scrapy startproject 项目名 创建出来的文件如下图:红框是我的命令,蓝框是scrapy自……继续阅读 »

wangting 1年前 (2018-09-10) 2122浏览 31评论 0个赞

未分类

Sublime Text3 + Markdown + 实时预览

Sublime Text3 + Markdown + 实时预览
Sublime Text3是一款给力的文本编辑器,通过安装插件可以编辑Markdown文本,在编辑Markdown文本的同时可以实时预览编辑效果。 安装准备: 找到菜单栏:Preferences → Package Control → Package Control:Install Package; 没有找到Package Control,那么点击……继续阅读 »

wangting 1年前 (2018-08-22) 2321浏览 64评论 0个赞

数据库

【译文】bitmap indexes (位图索引)

【译文】bitmap indexes (位图索引)
bitmap索引被广泛的用在有大量数据和即席查询(是用户根据自己的需求,灵活的选择查询条件,系统能够根据用户的选择生成相应的统计报表。即席查询与普通应用查询最大的不同是普通的应用查询是定制开发的,而即席查询是由用户自定义查询条件的)但是并发事务处理水平较低数据仓库应用中。 对于这类应用,bitmap索引支持: 1 缩短大型即席查询的响应时间 2 与其他类型索……继续阅读 »

wangting 1年前 (2018-08-10) 487浏览 1评论 0个赞

druid

【干货】一文理解Druid原理架构(时序数据库,不是ali的数据库连接池)

【干货】一文理解Druid原理架构(时序数据库,不是ali的数据库连接池)
Druid.io(以下简称Druid)是2013年底开源出来的, 主要解决的是对实时数据以及较近时间的历史数据的多维查询提供高并发(多用户),低延时,高可靠性的问题。 Druid简介: Druid是一个为在大数据集之上做实时统计分析而设计的开源数据存储。这个系统集合了一个面向列存储的层,一个分布式、shared-nothing的架构,和一个高级的索引结构,……继续阅读 »

wangting 1年前 (2018-08-07) 1349浏览 1评论 1个赞

大数据

地铁5分钟理解LRU算法

地铁5分钟理解LRU算法
LRU(Least recently used,最近最少使用)算法作为内存管理的一种有效算法,其含义是在内存有限的情况下,当内存容量不足时,为了保证程序的运行,这时就不得不淘汰内存中的一些对象,释放这些对象占用的空间,那么选择淘汰哪些对象呢? LRU算法就提供了一种策略,告诉我们选择最近一段时间内,最久未使用的对象将其淘汰,至于为什么要选择最久未使用的,因为……继续阅读 »

wangting 1年前 (2018-08-01) 407浏览 0个赞

大数据

整理一下17年自己和小伙伴们在大数据方向的一些面试题

整理一下17年自己和小伙伴们在大数据方向的一些面试题
一:美团金融服务部 1 讲一下主要是工作内容 2 hashmap 的结构, 数组+链表.   如果其中某一个数组过长怎么?办 3 线程和进程的区别. 线程如何共享数据, 进程如何共享数据 4 八种各种排序 及其时间复杂度 5 mysql几种索引 6 计算机网络 tcp,udp, 区别    如何用udp实现tcp 7 数据仓库的一些概念 美团金融服务部(另一……继续阅读 »

wangting 1年前 (2018-07-06) 680浏览 0个赞

linux

mac里 为vmware fusion中的虚拟机分配固定ip

mac里 为vmware fusion中的虚拟机分配固定ip
默认情况下,vmware fusion中的虚拟机,网卡设置成dhcp(动态分配 )时,会分配一个IP地址,但这个IP通常很难记, 最重要的是重启虚拟机后有可能ip地址会变,如果要用这几台机器装hadoop,zookeeper等集群的话,ip固定不下来会很麻烦. mac中如果我们想为某台虚拟机挑一个好记的IP地址,可以按如下步骤操作: 命令行下,输入 sud……继续阅读 »

wangting 1年前 (2018-07-02) 504浏览 0个赞

hive

hivesql : hive.groupby.skewindata 和hive.map.aggr 组合的坑

hivesql : hive.groupby.skewindata  和hive.map.aggr 组合的坑
hive.map.aggr=true;在map中会做部分聚集操作,效率更高但需要更多的内存。 hive.groupby.skewindata=true:数据倾斜时负载均衡,当选项设定为true,生成的查询计划会有两个MRJob。第一个MRJob 中, Map的输出结果集合会随机分布到Reduce中,每个Reduce做部分聚合操作,并输出结果,这样处理的结果是……继续阅读 »

wangting 2年前 (2018-04-20) 684浏览 2个赞

SPARK

spark-streaming中用spark-sql(insert into table)方式落地文件,group by 落地影响文件个数

spark-streaming中用spark-sql(insert into table)方式落地文件,group by 落地影响文件个数
程序描述: sparkstreaming读取kafka文件,把需要的数据实时落地 例如只落地去重字段可以计算 实时pvuv,实时累计的pvuv   两种方式, 第一种每个批次落地只产生一个文件 第二种每个批次落地产生partitions个数个文件, 区别只在标红的地方   方式一, 每10分钟一个批次,只会产生一个文件 package c……继续阅读 »

wangting 2年前 (2018-01-30) 666浏览 0个赞