- 《架构师》2017年4月
- InfoQ中文站
- 490字
- 2020-06-26 06:05:03
如何保护AI业务?
AI研究较前沿的团队都比较开放,常常发布研究成果。百度的AI研究论文也没有隐藏什么成果——在人脸识别等论文里,都分享了所有的细节。既然很难把算法本身隐藏起来,如何保护AI业务?当前稀缺资源有两种,一种是数据,二是人才。获取巨量数据很难,要包括输入A+响应B。比如语音识别用了5万小时的音频来训练,今年准备用10万小时,相当于百度10年积累的音频。
以人脸识别所用的训练图像数量为例:
• 学术上最常用的基准测试/比赛:1百万幅;
• 所用图像数最多的计算机视觉对象识别学术论文:1500万幅;
• 百度用来训练世界上最先进的人脸识别系统:两亿幅!
如果只是5-10人的研发团队,很难获得这样规模的数据。百度这样的大企业的经常推出一些新产品不一定是为了营收,而是为了数据,然后通过后续的产品来获得收益。
另一个稀缺资源是人才。AI的应用需要根据具体业务场景来定制。仅仅下载个开源包,无法解决问题。实际情况下,是否适合用某种垃圾邮件识别或语音识别技术?针对某种场景,机器学习怎么用?所以各个公司都在为数据挖掘争夺AI人才,来定制AI技术,找到所需要的A和B各自代表什么,怎么找到这些数据和如何调整算法来适应业务场景。