侵权投诉
焊接机器人 喷涂机器人 搬运机器人 装配机器人 切割机器人 其它机器人
订阅
纠错
加入自媒体

人工智能发展最大的问题是没有平台化?

2016-06-17 09:28
黯影冰风
关注

  深度学习挑战之二:数据的收集和运算

  当然作为一个心怀天下的码农,这点小事肯定是难不倒你的,你应该很快就找到了合适的语言系统,比如Tensorflow,比如Scikit,开开心心的编起了程序。不过接下来你要面对的问题可能就没有那么好解决了:它们都从两个方向分别决定着你的算法训练的效果:训练数据的量和训练的速度。李开复老师将这个问题拆成了两个问题,但我们认为,其实他们都是关于算法训练的问题,因此其实可以归于同一个问题。

  深度学习的网络太大,需要海量的数据。

  因为数据太多,所以计算特别的慢,所以需要非常大的计算量。

  如何识别网站内的正文位置倒还是个比较好解决的问题,如果你心一横,决定只从几大(十几大)主流媒体内复制文章的话,用ifelse都是可以解决的,毕竟虽然每个网站之间正文部分的规律不同,但每个网站内部的文章还是基本遵循相同规律的。实在想做一个通用的算法来说,规律也不难找,比如正文部分的文字密度会突然变大而html代码的密度则会暴跌,比如正文的始终基本都是<p></p>。如果网站每天能更新四五百篇文章的话,估计训练个十天左右就能达到非常高的准确度了。

  难点在于“追热点”啊!

  互联网的热点每天都在变化,你的算法怎么知道今天的热点是什么?又如何知道算法正在扫描的这篇文章是不是跟热点有关的文章,写的如何?要让算法训练出判断这些信息的能力,怎么说也要扫描个几千万上下篇文章来训练吧?作为一个终极发烧友码农,你第一次感觉到了你面前的那台电脑里的8核i7和GTXTitan是那么的无力,哎,写个爬虫慢慢爬着先吧。看改天能不能改天网络低峰期用公司的服务器偷偷跑一跑。

  要让深度学习算法自己进化到一个比较高的水平,李开复老师估计至少要有10亿级别的数据,如此庞大的数据是相当难以收集的。而且,只有这些数据都是你自己的时候,他们在你手中才能发挥出真正的价值,并且由于数据量的庞大其需要的运算量也是相当庞大的,要在深度学习领域大展身手,最好有自己的计算设备,比如拥有自己的服务器机群。因此我们看到,初期在人工智能有所建树的都是世界级的、像微软、谷歌和Facebook这样的公司,他们不仅拥有更多的资金、更好的人才,最重要的是,他们拥有海量的数据。

  深度学习挑战之三:没有反馈

  “有点奇怪但也合理:机器无法用人的语言告知做事的动机和理由。即便机器训练做了很棒的深度学习,人脸识别、语音识别做的非常棒,但它不能和人一样,它讲不出来这是怎么做到的。虽然有人也在做这方面的研究,但是在今天,如果一个领域是不断需要告诉别人该怎么做,需要向别人去解释为什么的,那这个领域对于深度学习来讲还是比较困难的。比如AlphaGo打败李世石,你要问AlphaGo是为什么走这步棋,它是答不上来的。”

  深度学习只是一个算法,它只能根据自己的初始设计不断改变自己,但没法通过一个有效的途径告诉你它是怎么改进自己和怎么在改进后做出每一次选择的,因此很多时候你只能通过它的最终表现来猜测它的运行状态,然后瞎猫碰死耗子的改进最初的算法了。而且你可能也没法从算法的进步上获取帮助自己进步的信息,比如李开复老师举的AlphaGo的例子。

  当然,作为一个世界级的码农,你是肯定知道这些的,而且也一定能根据算法最终的表现发现问题在哪里的,因为毕竟这个问题在结果上体现的还是比较明显。

  在这个虚拟的世界里,我们决定给所有苦逼的编辑们一个完美的结局:心怀天下的码农成功开发出了一套“全自动文章转载机”,这家媒体的编辑们终于能够腾出一些精力,写一些能够精细打磨的文章了。

  所以你看,虽然不知道AI最终会不会毁灭我们,但看起来它们倒是很快就能拯救不少人呢

<上一页  1  2  
声明: 本文由入驻维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。

发表评论

0条评论,0人参与

请输入评论内容...

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

文章纠错
x
*文字标题:
*纠错内容:
联系邮箱:
*验 证 码:

粤公网安备 44030502002758号