在你所在的公司(行业、领域),正在用大数据处理哪些业务?可以用大数据实现哪些价值?
目前所在银行,已经建立了功能相对丰富的大数据平台,在大数据平台之上提供的服务主要有
1.风控:结合行内数据和第三方数据进行各类风控处理
2.监管报送:在大数据加工处理基础上给各监管机构提供各类报表数据
3.各类数据集市:包括财务数据集市、风险数据集市、信用卡数据集市、风险负债数据集市等,为银行提供各维度的指标分析服务
分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?
INSERT OVERWRITE TABLE pv_users
SELECT pv.pageid, u.age
FROM page_view pv
JOIN user u
ON (pv.userid = u.userid);
Page_view 表和 user 表结构与数据示例如下:
map
输入:page_view 输出:key:userid ; value:<1,pagid>
输入
<偏移量,<1,111>>
<偏移量,<2,111>>
<偏移量,<1,222>>
输出
其中1表示第一张表,最后输出结果类似如下:
<111,<1,1>>
<111,<1,2>>
<222,<1,1>>
输入:user 输出: key:userid ; value:<2,age>
输入
<偏移量,<111,25>>
<偏移量,<2,32>>
输出
其中2表示第一张表,最后输出结果类似如下:
<111,<2,25>
<222,<2,32>
经过shuffle以后,相同的 Key 被输入到同一个 reduce 函数,就可以根据表的标记对 Value 数据求笛卡尔积
reduce 输入:
<111,<1,1>>
<111,<1,2>>
<111,<2,25>
<222,<1,1>>
<222,<2,32>
输出
<1,25>
<2,25>
<2,32>
整个过程整理成图像如下: