在你所在的公司(行业、领域),正在用大数据处理哪些业务?可以用大数据实现哪些价值?

目前所在银行,已经建立了功能相对丰富的大数据平台,在大数据平台之上提供的服务主要有

1.风控:结合行内数据和第三方数据进行各类风控处理

2.监管报送:在大数据加工处理基础上给各监管机构提供各类报表数据

3.各类数据集市:包括财务数据集市、风险数据集市、信用卡数据集市、风险负债数据集市等,为银行提供各维度的指标分析服务

分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?

INSERT OVERWRITE TABLE pv_users
SELECT pv.pageid, u.age
FROM page_view pv
JOIN user u
ON (pv.userid = u.userid);

Page_view 表和 user 表结构与数据示例如下:

map

输入:page_view 输出:key:userid ; value:<1,pagid>

输入

<偏移量,<1,111>>
<偏移量,<2,111>>
<偏移量,<1,222>>

输出

其中1表示第一张表,最后输出结果类似如下:

<111,<1,1>>
<111,<1,2>>
<222,<1,1>>

输入:user 输出: key:userid ; value:<2,age>

输入

<偏移量,<111,25>>
<偏移量,<2,32>>

输出

其中2表示第一张表,最后输出结果类似如下:

<111,<2,25>
<222,<2,32>

经过shuffle以后,相同的 Key 被输入到同一个 reduce 函数,就可以根据表的标记对 Value 数据求笛卡尔积

reduce 输入:

<111,<1,1>>
<111,<1,2>>
<111,<2,25>
<222,<1,1>>
<222,<2,32>

输出

<1,25>
<2,25>
<2,32>

整个过程整理成图像如下:

图片来自李智慧老师在极客时间上的课程https://time.geekbang.org/column/article/69459