hive从3.1.2升级到3.1.3
一、先对比两个版本中的jar包差异
由于代码版本兼容的问题,需要记录好原来的包以及升级后的包之间的差异。比如jackson编解码问题,由于版本不同造成的编码错误。此外,DophinSchedur的版本升级,导致ZK必须要升级为3.4.13的版本。之前这些兼容问题,已经做过很多调试,本次升级仅仅是为了解决hive动态分区的问题,至于能否解决还需要看后续的情况。
二、修改配置文件
在hive/conf目录中,执行下面命令,先把文件名改为正式可用的文件名:
1234567mv beeline-log4j2.properties.template beeline-log4j2.propertiesmv hive-exec-log4j2.properties.template hive-exec-log4j2.propertiesmv hive-default.xml.template hive-default.xmlmv hive-log4j2.properties.template hive-log4j2.propertiesmv hive-env.sh.template hive- ...
linux xsync和xcall脚本
一、xsync同步脚本
xsync脚本是复制单个文件或者目录到其他服务器相同目录的快捷高效的脚本,我们需要在在/usr/local/bin目录下创建xsync文件。如果我们的服务器的hostname是hadoop001、hadoop002、hadoop003,那么文件内容如下写便可:
123456789101112131415161718192021222324252627282930#! /bin/bash#1. 判断参数个数if [ $# -lt 1 ]then echo 请输入需要同步到集群的文件名! exit;fi#2. 遍历集群所有机器for host in hadoop001 hadoop002 hadoop003do echo ======================== $host ======================== #3. 遍历所有目录,挨个发送文件 for file in $@ do #4. 判断文件是否存在 if [ -e $file ] then ...
DolphinScheduler调度平台批量上传文件的脚本
0x00 批量上传脚本
通过DS的文件上传接口,制作批量上传文件的脚本。init方法中的token需要改为自己的token,DS在导航安全中心->令牌管理中可以创建token。
12345678910111213141516171819202122232425262728293031323334353637383940414243import osimport requestsimport json class UploadScript2DS: def __init__(self, local_path): self.headers = { 'token':'xxxxx' } self.host = "http://hadoop003:12345" self.local_path = local_path def upload_signle_dir(self, pid, current_dir,decs=No ...
修改hive元数据字符集编码
hive元数据存储选择了mysql,默认字符键编码是拉丁文,建表时的中文注释,显示为乱码,需要修改mysql中标的字符集编码。
1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162636465666768697071727374-- alter database hive default character set utf8; alter table AUX_TABLE default character set utf8;alter table BUCKETING_COLS default character set utf8;alter table CDS default character set utf8;alter table COLUMNS_V2 default character set utf8;alter table DATABASE_PARAMS default character set ...
DataX同步hive数据到mysql时死锁问题初步排查
原文已发布在微信公众号:融媒体技术社
文章链接:https://mp.weixin.qq.com/s?__biz=MzAwMzY3NDY1Ng==&mid=2647660979&idx=1&sn=d8266a96c07ea5061938192d0f1465c3&chksm=83133efcb464b7ea109f224908781675a613ee50f8abddffb89f72a2afb6667c76e92d76914d#rd
1 DataX配置说明
数据仓库中有7700万的数据需要从hive同步到业务的MySql库,选择DataX作为同步工具,DS作为任务调度平台。在DS中拖拽datax的组件,选择自定义模板,并将脚本生成的datax的json配置粘贴到JSON配置栏中,配置内容如下(已删掉额外信息):
123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566 ...
hive从复杂文本中抽取金额
环保处罚的中,各地行政在描述处罚内容时,对于处罚金额的写法各种各样,然而最多的还是大写数字金额。
1.违法排放大气污染物环境违法行为处以人民币壹拾伍万元(¥150000.00)罚款;2.违法排放水污染物环境违法行为处以人民币叁拾伍万元(¥350000.00)罚款。两项合并处罚人民币伍拾万元(¥500000.00)罚款。
2018年4月14日至4月15、17日、19日至28日共计13天,每天处以罚款壹拾万元,共计处以罚款壹佰叁拾万元整。同时,责令你公司立即改正以上违法行为
罚款:20万元;其他:责令改正违法行为
罚款人民币拾万元整(?100,000元)
罚款人民币35,000元
罚款人民币2,000元
罚款人民币0.232万元
123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990with punis ...
汉字年月日转化为阿拉伯数字的年月日
法律诉讼中,判决日期中出现汉字日期、全角日期、错误字符等数据。光是0的形式就有很多种:Ο○o〇零。
二〇二〇年十一月二十四日
二0一七年九月二十二日
二 ○ 二 ○ 年 六 月 三 日
二〇一九年五月二十二日 执行员 陈 良
早期版本的写法如下,300万数据,执行时长约为12个多小时后,而且卡着不动,最终kill了这个任务:
1234567891011121314151617select cid, case_reason, full2half(replace(SUBSTR(COALESCE(trim(replace(replace(replace(replace(replace(replace(replace(replace(replace(replace( CONCAT(split(judge_time,'年')[0], if(length(regexp_replace(regexp_replace(split(split(judge_time,'年')[1],' ...
DolphinScheduler-企微告警机器人
配置调度任务告警机器人,如果使用wechat插件,需要企业在微信中生成的秘钥,秘钥只有公司管理员才会生成,鉴于执行太过麻烦,因此直接通过webhook的方式配置机器人。
0X00 开通群组机器
在企业微信的群组中,在右上角的三个小点点中,点击下拉找到“添加群机器人”,生成一条webhook url。下图中左侧是告警的实际效果。
0X01 编写脚本
参考企微SDK接口,配合大数据调度平台的script alter的能力,编写符合SDK接口数据的格式。下面是一些常见的告警内容,dolphinAlterServer通过-c参数传入脚本,特别说明,DAS传入三个参数,-t 是告警标题,-c 是告警内容,-p 是用户自定义参数。
12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061626364656667686970717273747576// 告警内容格式1:[ { "pr ...
智慧供应链系统调研
[TOC]
0x01京东物流一体化供应链
京东物流一体化供应链,舒勇数字化手段实现供应链的落地,建设了供应链的超智脑系统。
京东超大脑供应链系统的建设是分层次的:数字化基础建设,包括长期沉淀的复杂的业务系统,以及支撑业务在网络上执行运作,还有数据中台的建设以及一些配套设施。
超大脑供应链系统在数字化基础建设的基础上,打造了1个算法中台、2个工程服务平台(易卜工程化平台和数字孪生平台),孵化3套系统应用(智能规划塔、智能计划塔、京慧供应链系统,用于对外部客户进行赋能和服务)。
1.1 算法中台
算法中台并不是一个算法组件堆砌的库,它是以业务场景为依托,通过京东内部和外部客户的业务场景的积累,抽象和沉淀形成的算法能力支撑平台。这套算法中台和行业上其他同类产品最重要的异同点是,建立了丰富的供应链行业知识,沉淀出了面向业务和解决具体问题的逻辑方法论和流程步骤。
1.2 易卜工程化平台
一个工程化平台叫易卜,到目前为止,该平台更多的应用于商物的预测。算法中台有了算法策略后,在易卜平台上可以快速地部署和应用,提升算法工程的效能,实现快速的串联成型。易卜平台实现了让整个过程可视、可配,同时可以把 ...
USDP大数据平台中配置ranger加固yarn
为啥要加固yarn的rest API,如果你不知道这个危害,请先跳到[验证开启后Ranger加固的yarn API能否任意用户提交](#0x04 验证开启后Ranger加固的yarn API能否任意用户提交)做一个小实验。
0x00 编译Ranger 2.10
Ranger当前在GitHub中最新版本是2.2.0。安装ranger需要源码安装,官方没有提供编译好的二进制包,同时,对于要使用ranger部署的Hadoop组件,需要考虑到版本之间的兼容性。
官网地址:https://ranger.apache.org/
Git地址:https://github.com/apache/ranger
需要提前安装JDK 8
和Maven 3.6.2,git,python3。
1git clone --branch release-ranger-2.1.0 https://github.com/apache/ranger.git
编译RANGER-2.1.0
12cd /opt/ranger-release-ranger-2.1.0mvn clean compile package inst ...