第一批被AI累死的人
一双眼睛的局部细节图出现在电脑屏幕上,小慧对着放大的眼睛,一步步地做好标记点。
一眼望过去,一排排的电脑屏幕上,都是类似的画面。也许是因为窗帘的遮光效果太好,略显昏暗的办公环境加上电脑屏幕上被放大的各种物体细节,颇为惊悚。
在某人工智能研究院看到这一幕,不觉惊叹即使是头部的AI创业公司,最关键的一环依然是从数据标注员开始的。
而这是一群被称作第一批被AI累死的人。
AI的老师:画框的这些人
伴随着AI兴起的最关键的技术莫过于深度学习,作为深度学习的基础,神经网络是一种以输入为导向的算法,其结果的准确性取决于接近“无穷”量级的数据。
所以摒除那些复杂的中间环节,深度学习最关键的就是需要大量的数据训练,这也是为什么在互联网大数据的时代,AI可以崛起。而在数据训练之前,又必须先对大量的数据进行标注,作为机器学习的先导经验。
因此,催生了大量数据标注员的产生。
简单的说,数据标注员类似于AI的老师,举个形象的例子,我们要教机器认识一个苹果,你直接给它一张苹果的图片,它是完全不理解的。我们得先有苹果的图片,然后在上面标注着“苹果”两个字,机器通过学习了大量的图片中的特征,这时候再给它任意一张苹果的图片,它就能认出来了。
据了解,目前标注员的工作内容常见的有拉框标点、打标签、分割、批注等等。其中分类就是最常见的打标签,比如标注画面上动物毛发颜色、动物耳朵等等;框选是将画面中相对应的对象标框标注;还有一种是描点标注,一般用于更细致的人脸标注:需要在眉毛、眼睛、鼻子、嘴巴等关键点做二十多个标记点。
从他们的基本工作内容就可以看出来,数据标注是个非常枯燥而又考验人耐力的工作,并且相比较AI所代表的高科技,标注看起来毫无技术含量。
一条产业链的开始
但巧妇难为无米之炊,AI算法的训练离不开这些大量的数据标注,与之相伴生的数据标注外包业务也成了热门的产业。
在IT桔子的大数据标注公司专辑中,一共收纳了6家,其中,有5家都在2017年到2018年这个时间周期内获得千万的融资:
2017年7月,BasicFinder完成1000万人民币Pre-A轮融资;
2017年11月,龙猫数据获得A轮3370万人民币融资;
2018年1月,星尘数据获得1000万人民币Pre-A轮融资;
2018年3月,爱数智慧获得A轮融资;
2018年5月,周同科技完成2000万人民币A轮融资。
同时,他们业务方向也有一定细分区别,有的以处理图像见长,有的数据标注公司更擅长做一些视频标注。而这些公司的服务企业有百度、小米、京东、今日头条这样的互联网公司,也有出门问问、云从、深鉴等AI公司。
另外,像京东、百度、腾讯、阿里其实都有自己的标注平台和工具。
而在国外方面,亚马逊有推出众包数据平台Amazon Mechanical Turk,初创公司方面则有CrowdFlower、Mighty AI等。
这些已经算是这个领域的佼佼者了,在他们的下面,还有成百上千的小的数据标注公司。
据悉,数据标注行业实行这样一套分工流程:上游的科技巨头把任务交给中游的数据标注公司,再由中游众包给下游的小公司、小作坊,有的小作坊还会进一步众包给“散兵游勇”,比如学生或家庭主妇。
这条产业链上,分包现象越严重,最终落到最底层的数据服务公司的价格就越低,一层层的“数据黄牛”压缩了利润空间,所以一些任务经过数手转包,酬劳已低得惊人。
图片新闻
最新活动更多
-
直播中立即观看>> 【线上&线下同步会议】领英 跃迁向新 年度管理者峰会
-
11月30日立即试用>> 【有奖试用】爱德克IDEC-九大王牌安全产品
-
即日-12.26火热报名中>> OFweek2024中国智造CIO在线峰会
-
限时免费下载立即下载 >>> 2024“机器人+”行业应用创新发展蓝皮书
-
即日-2025.8.1立即下载>> 《2024智能制造产业高端化、智能化、绿色化发展蓝皮书》
-
精彩回顾立即查看>> 2024 智能家居出海论坛
推荐专题
发表评论
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论