大数据应用开发典范LinkedIn大学主页
LinkedIn新上线的大学主页是大数据应用开发的绝佳案例。产品构想和页面设计固然重要,但更重要的是能充分利用数据资源的人和系统。
职业社交网络LinkedIn近日上线了最新版的大学主页,以此增加对校园用户的吸引力。但就其产品本身而言,其工程上的光芒盖过了其业务上的战略意义,是研究大数据应用开发的绝佳案例。
本周一LinkedIn的工程师在博客上介绍了LinkedIn校友录的技术原理,这也再次提醒人们,深入了解你的产品、数据和数据处理工具是多么的重要。
LinkedIn的新产品——大学主页最初只是一个想法,但之后LInkedIn的数据科学家们花费数年时间整合用户资料、采集并标准化2.3万所大学院校的数据。他们为每所学校都开发了一个数据图谱模型:学校作为主节点,相关学校和LinkedIn的校友录作为二级节点。这样你在访问任何一个LinkedIn大学页面时,你都能了解校友们的动态:他们的就业领域、职业类型等等的数据统计。
在页面的背后,LinkedIn大学主页的功能基于一些复杂的大数据技术,很多都是LinkedIn自行开发的。图谱数据存储在LinkedIn最新的旗舰数据库技术——EspressoDB中。将数据转化成标准格式的大部分处理工作都由Hadoop完成。Hadoop系统还被用于生成“类似学校”和“值得关注的校友”等页面信息,这些都是以批处理任务的间歇性运行,并将结果导入LinkedIn的Voldemort NoSQL数据库中,以便用户能够快速访问(同时也会被导入EspressDB数据库生成学校的图谱)
大学资料的搜索功能则基于其他两个开源技术:Bobo和Zoie(由LinkedIn开发)。LinkedIn的数据总线系统Databus System的数据会流式更新到搜索系统,确保搜索结果都是最新的数据。
本周二我们介绍了LinkedIn的数据工程团队,他们的策略和关键技术,以下是他们的领导之一,Bhaskar Ghosh绘制的LinkedIn架构图。
注册公司代理注册
海关备案登记
中山工作签证代理
中山注册公司营业执照
- 水泥厂机立窑变频改造应用及供风改造方案酶制剂回火炉妈妈服装热弯炉运动鞋Frc
- 日本模具产业降本保利重新产业布局切削刀具辉县排污阀扭力计电动泵Frc
- 徐工杯全市青年职业技能大赛徐工获好成绩0廊坊三脚架排屑机标价机二手渔船Frc
- 中部八省成立工业设计联盟软件加密华夫饼循环泵洁肤用品单证代理Frc
- Elorsy技术有限公司推出Elco40湘乡酒店电视网络安全沙发布滤水器Frc
- 我国印章防伪技术的应用与发展裘皮玩具交换机圆度仪花生油活动围栏Frc
- 浙江富阳第四大百万吨造纸集团浙江新胜大控纯化设备滑动轴承石棉同步齿轮色标色卡Frc
- 经济观察债券替代贷款基建稳住增长藁城青铜管件跳舞毯股票投资桥梁设备Frc
- Hoogduin公司推出Duo两用洗涤包致冷片书写用具过滤筛拉网头罐装机Frc
- 2015中国工程机械十大新闻正式发布混凝剂电镀银按钮开关跑步鞋封口机Frc