梁堰波:数据挖掘与机器学习算法

原创
数据库 算法
本届WOT软件技术峰会特邀小象科技作为大会特邀合作伙伴,汇集大数据社区技术精英,于7月27日举办大数据专场培训。本次培训主要讨论如何建立用户标签系统和如何使用这些标签系统实现商业价值。

无论是电商还是互联网广告,直接面对的是用户,用户的属性决定了他会购买哪些商品或者点击哪些广告。那么建立用户标签系统对于这些企业非常重要。

本届WOT软件技术峰会特邀小象科技作为大会特邀合作伙伴,汇集大数据社区技术精英,于7月27日举办大数据专场培训。本次培训主要讨论如何建立用户标签系统和如何使用这些标签系统实现商业价值。

[[116386]]

梁堰波

ChinaHadoop小象社区核心成员

讲师介绍:美团网,数据开发与数据挖掘;北京航空航天大学,计算机硕士;法国电信研发中心,云计算与大数据研究员;百度基础架构部存储组,软件开发实习生;VMware中国研发中心Big Data & Cloud组,研发实习生。

 

1.  从技术来说,您认为大数据在今年还会有什么革新?总体感觉,如何与行业应用结合?

今年大数据的革新从技术的角度来看主要体现在几个方面,包括Spark生态系统的崛起,Hadoop生态系统越来越多地朝着实时的方向改进,以及各大企业对这些系统和数据基础设施的使用和改进不断深入,这个可以从今年已经召开的Hadoop Summit(http://hadoopsummit.org/)和Spark Summit(http://spark-summit.org/2014)上看出一些趋势。从行业应用上来看,越来越多的行业和企业开始使用这些技术解决他们遇到的问题。从目前来看主要还是集中在互联网广告、电子商务、搜索引擎、推荐系统、游戏等一些大数据应用的常规领域。但是随着今年互联网金融等新兴领域的发展,这些领域也越来越多的使用大数据的技术和方法解决他们遇到的问题。

2.行业大数据其实早就存在,但对此认知并不一样,您认为这种差异性表现在哪里?

大数据的行业应用是大数据产生价值的关键。我们经常提到的Hadoop、Spark等各种系统是数据基础设施,各个行业利用这些基础设施存储和积累了很多数据。对于企业来说积累这些数据的目的就是要产生商业价值,那么从存储在Hadoop等系统里的数据到商业价值的转换就是各个行业的Data Scientist所需要探索的,而且这个变现或者价值实现点就是在大数据时代一个行业的核心和关键。我认为行业大数据重点在于用大数据的方法把握住这个行业的信息制高点和核心问题。

3.行业大数据的实施,您认为技术难点在哪里?

行业大数据的实施目前的难点在于人才的缺乏。行业大数据的实施需要的人才要求对所在的行业领域知识有所了解和涉猎,掌握数据化的思考问题的思维和方法,会用统计、计算机等系统和工具解决问题。所以本质上行业大数据对人才的需求是复合型的,而且对经验的要求比较高。对于这样一个比较新的领域来说,市场上对于这方面的人才还是相当缺乏的。

 4.  请分享一个您参与的传统企业大数据项目。这个项目大致分几个阶段?

我目前主要还是以互联网企业的大数据项目经验为主

5. 大数据项目的实施,对已经存在的业务分析架构,会带来怎样的影响?

大数据项目的实施,对已经存在的业务分析架构产生的影响还是比较大的。这个也是传统企业利用大数据的主要的困难所在。一个是既有IT基础设施不能适应大数据时代的分析和挖掘的需求,另外就是既有的分析师还保持着传统的分析的思路。可以举几个例子简单说明下这个不同,过去的企业的CRM系统只能记录下用户的交易信息,虽然交易信息是用户的最重要的行为,但是影响用户产生一次交易行为所涉及到的信息非常多,例如用户浏览了什么、筛选了哪些类型的商品、搜索过什么、收藏过哪些商品等等。所以在互联网上可以记录的用户的行为非常广泛,这些数据对于企业实现商业价值也有非常大的影响,所以对于数据基础设施的建设也提出了新的挑战,很多传统的系统和软件架构已经不能满足新的业务需求,对于大多数企业构建大数据基础设施来说开源的Hadoop生态系统是一个不错的选择。

 6.大数据应用工具的大量出现,会取代数据分析人员的位置吗?

大数据应用工具的大量出现不会取代数据分析人员,而且对数据分析人员提出了更新的需求和挑战。需要数据分析人员使用这些工具结合业务思考实现商业价值,这个也就是我们经常提到的Data Scientist的作用。工具和分析师的作用是相辅相成的,使用大数据的思维解决这些商业问题是与具体的行业有紧密联系的,而工具是没有特别多的行业属性的,所以就需要分析师/数据科学家做好这个桥梁工作,把枯燥的数据和计算机工具利用起来,结合行业规则和业务特点实现商业价值。

 7.数据是传统企业最核心的资产。我们在大数据的分布式处理方式下,该如何保证数据的安全性和完整性?

数据的安全性和完整性是目前许多传统企业使用大数据的主要担忧点。传统行业普遍对数据安全性要求比较高,例如金融、电信等领域,所以这些领域对大数据系统和基础设施提出的要求也比较高。在开源Hadoop社区也在不断完善和安全相关的一些feature和组件。例如对HDFS和HBase在安全和权限管理方面的不断增强,Cloudera开源的Sentry提供了丰富的安全、权限管理和认证机制等方面的特征,这些都为企业使用Hadoop生态系统作为大数据基础设施扫清了障碍。

 8.在51CTO举办的WOT软件技术峰会上,会有大数据专场培训。这里面会涉及哪些方面的内容?这些培训适合哪些技术人员?

这个培训主要涉及到如何用大数据的方法解决实际商业社会的问题,是通过一个电子商务用户标签系统的案例给大家展开的。主要涉及到一些数据挖掘和机器学习算法、工具、分布式实现,数据团队的建设与构成,用户数据建模,以及一些相关的案例。这些案例相对比较基础,但是在很多行业又比较常见,希望能够对大家的行业和业务中应用大数据有所帮助。

责任编辑:彭凡 来源: 51CTO
相关推荐

2018-04-23 11:11:52

数据挖掘机器学习Python

2019-11-21 14:01:37

Python数据挖掘机器学习

2016-11-15 14:08:02

机器学习数据挖掘

2015-07-28 15:41:06

机器学习算法数据挖掘

2016-04-11 14:35:59

机器学习数据挖掘数据模型

2016-04-12 17:12:29

机器学习数据清洗美团

2024-03-04 08:00:00

PythonOrange3机器学习

2023-03-10 08:57:31

机器学习电商数据挖掘

2017-11-22 12:44:14

机器学习数据挖掘

2020-07-13 14:50:51

机器学习模型算法

2013-10-29 09:13:14

程序员数据挖掘

2016-11-15 15:02:00

机器学习算法

2021-04-11 18:09:57

机器学习业务价值人工智能

2020-12-16 15:56:26

机器学习人工智能Python

2013-04-27 10:52:09

大数据全球技术峰会

2018-06-25 11:35:01

2020-09-26 21:42:37

开源数据挖掘工具

2015-09-21 09:20:55

2021-07-21 11:25:17

机器学习?AI人工智能

2020-06-18 16:05:20

机器学习人工智能算法
点赞
收藏

51CTO技术栈公众号