第一批被AI累死的人

2018-07-16 08:37

目前的数据标注工作主要是集中在河北、河南、山东、山西等劳动力密集的地区，这样的选址也因为能够以更加低廉的劳动力成本去完成大量的数据标注工作。

在很多数据标注的报道中，出现频率最高的都是那些毕业于职业技术学校的学生，他们在三四线城市，只需要会操作电脑，就能做数据标注的工作。然而枯燥而又乏味的重复性工作，导致数据标注人员的流动性非常之大。此前，在澎湃新闻的一篇视频采访中，某数据标注公司创始人表示他们有500名左右的在职人员，但是全职的只有11、12个。

在一些大的数据服务公司，他们宣称平台用户（数据标注人员）超过20万人，其中很多都是兼职人员。

不过，快速的人口流动也依然阻挡不了低门槛数据标注生意的红火。

有多少智能，就有多少人工

即使现在有一些数据服务平台开发了AI工具来辅助人工标注，但依然需要数据标注员去检查和修正其中的错误。在一些专业数据标注公司，机器占30%，而人工标注占比达到70%左右。

梳理数据标注员的工作逻辑，就像一个悖论，AI能否进化的更为智能某种程度上取决于这些标注工作的人，而这个工作却是最不智能、最没有技术含量的。

记得在一篇采访中，管理标注员的负责人用特斯拉（Tesla）的自动驾驶事故给员工“打鸡血”，他提到2016年，一辆自动驾驶模式下的特斯拉发生车祸事故。事后特斯拉公司发表声明称：白色卡车在蓝天背景下识别不出来，特斯拉因此没有启动刹车。

“我一直跟他们说：‘你们打磨的每一个数据都会为人工智能做出巨大贡献，将来的无人驾驶车能够识别出蓝天下的白色卡车，就是因为你当年把它标出来了。’”

这种看似无意义的低效率工作应该由AI去做才符合我们对技术的认知，因为我们发展人工智能的初衷，就是为了解放生产力、提高生产效率。

最需要AI去做的事情，AI反而无能无力，而我们为了能让AI取代劳动密集型的工作，得先为AI服务，付出密集、辛勤的劳动，这让数据标注工作看上去有点赛博朋克、反乌托邦的“魔幻”感觉。

然而更令人觉得沮丧的是，人工去训练AI依然存在很多问题。

此前，清华大学人工智能学院院长张钹院士就提到纯数据驱动的系统也存在很大问题——鲁棒性很差，易受到很大的干扰。即便训练出的系统模型准确率高达99%，但在实际应用中，仍然会犯很多“弱智”的错误。

这就陷入了死循环，人不可能像AI一样，在工作中严格按照数据程序毫无瑕疵地完成工作，纰漏或者技术本身的问题，会导致人工智能的不准确性。最终，就在这个无限循环中不停地优化。

而且考虑到数据的隐私和公司的商业利益，同类型的数据是无法相互打通的，就像一位数据标注资深从业者所说， “以自动驾驶领域的数据标注为例，我用A公司的数据模型放到 B公司的设备上跑不通，甚至摄像头换了一个角度、位置或分辨率，都跑不通。”

“有多少智能，就有多少人工。”这似乎是AI进化必须经历的过程。

结语：

当然，最完美的情况应该是：AI能够自己消化大量的数据自学成才。目前无需标注数据的无监督学习已经从实验室走向应用，而类似的迁移学习算法也能减少一定的数据标注工作量。

Facebook人工智能研究部门负责人Yann LeCun曾经说过，AI的核心在于预测，AI的下一个变革是无监督学习、常识学习。研究人员正努力让 AI 不依赖人类训练，自己去观察世界是如何运转的，并学会预测。

所以理想环境下，可能我们探讨的悖论过几年或者十几年就能完美解决了，这批为AI服务最终会被AI取代的人，也“功成身退”了。

<上一页 1 2

本地收藏打印推荐给朋友

声明： 本文系OFweek根据授权转载自其它媒体或授权刊载，目的在于信息传递，并不代表本站赞同其观点和对其真实性负责，如有新闻稿件和图片作品的内容、版权以及其它问题的，请联系我们。

发表评论

共0条评论，0人参与

登录登录即可访问所有OFweek服务

用户名/邮箱/手机：
密码：
忘记密码？
用其他账号登录： QQ | 微信 | 新浪微博

请输入评论内容...

请输入评论/评论长度6~500个字

暂无评论

图片新闻

行业报告