正文部分

八年之痒!除了NLP和CV,人造智能就不及干点别的啥了?

原标题:八年之痒!除了NLP和CV,人造智能就不及干点别的啥了?

大数据文摘出品

来源:medium

作者:Sergii Shelpuk

编译:王转转、junefish、武帅、钱天培

从2012年AlexNet惊艳亮相最先算首,AI已经经历了将近8年的振兴发展期。

这一迅猛发展尤其逆映在了AI顶会的参会数据上。2013年,ICML的参会人数仅有数百名,但到了2018年,这一数目上升到了5000众。2019年12月,机器学习周围的最大型的会议NeurIPS更是荟萃了13000名AI钻研人员和工程师。

大型会议参会人数转折图

AI钻研人员的快捷涌入也直接导致了论文数目的爆炸增补。现在,arXiv已有六万众篇AI论文。

睁开全文

2013年,一位AI行家能够会熟识其子周围中的一切出版物。在2019年,这是不能够的。现在,走业中的绝大无数AI工程师都倚赖“最好论文”和其他简要名单来晓畅最新收获。

从最最先星辰大海般的追求,到现在钻研周围的细分再细分,AI钻研好像也进入了“幼修幼补”阶段。

那么,AI钻研中吾们能够解决的宏大题目是否已经十足被解决了呢? 下一次的AI大突破是否就要期待新的里程碑式的钻研呢?

AI基因钻研公司Deeptrait的创首人Sergii Shelpuk认为,吾们在这一轮AI发展期中照样大有可为。

除去自然说话处理和计算机视觉两大周围,吾们还有太众周围能够开拓。

下面,吾们对Sergii Shelpuk的不悦目点进走了编译清理。

arXiv上AI子类论文数目转折图

最先,让吾们来梳理一下现在AI从业者面对一个新题目时的常见心路历程。

以计算机视觉为例,只需望一望图像识别的最新技术,然后选择正当请求的体系组织即可。在比如自然说话处理,倘若必要进走感情分析等义务,同样只需涉猎相关此题目的出版物,然后选择适用于您的数据,硬件和所需性能的解决方案。

即使现有出版物不存在针对特定题目的解决方案,它也涉及“关于子题目的子题目”。例如,传统的数据添强技术无法给你的数据集带来理想的效果,或者,神经网络在搜集到的数据荟萃外现欠安,亦或是最好的词语嵌入技术在特定义务情境下外现欠安,等等。

这些年来,人们不息遇到这些关于子题目的子题目,好像关于AI的一切宏大题目都已得到解决,越来越众的针对不息缩短的钻研周围的论文的发外更添深化了人们的这栽印象。

当吾们最先行使DeepTrait开发用于基因组分析的AI体系时,吾们查阅了现有文献。吾们以为,深度学习的钻研者已经详细探讨过一切相关的题目,例如异构数据分析。现在,基因组分析已成为人类钻研中最有前途和最主要的周围之一,并且该周围中一切已有6万众篇AI论文发外。钻研者们一定已经完善了相对普及而深入的做事,不是吗?

但原形表明并不是。在2019年12月12日访问arXiv并搜索“深度学习”,共有22,140篇论文。然而将搜索内容更改为“深度学习基因组”后,发现只有76篇相关的论文,其中很众论文并未解决基因组数据的题目,只是挑到基因组是异日湮没的相关行使倾向。

在其他论文来源(包括bioRxiv)中搜索相关基因组学的深度学习论文,也就仅有200众篇。其中绝大无数行使的照样过时的神经网络架议和训练技术,另外很大一片面舛讹地行使了这些工具,例如,将卷积神经网络行使于异构数据(例如SNP),这导致了模型外现欠安。吾们发现如许的论文并不在幼批。

那些切确行使AI工具的人主要将其行使在分析基因组的较幼子序列,例如启动子或蛋白质结相符位点。他们的输入数据最长为一到两万个核苷酸。相比之下,拟南芥基因中的核苷酸数目挨近1.35亿,而这仅仅是吾们在第一次测试中所行使的基因之一。所以,吾们异国现成的范例或已有的神经网络架构可供参考,也异国针对这栽大幼序列的训练技术,十足异国!吾们必须从头最先。

行家都在钻研什么?

吾感到稀奇,由于钻研基因组数据具有庞大的潜力。高通量测序可产生大量数据,而AI好像是理所自然的钻研工具。然而,按论文的比例衡量,基因组学只占AI钻研关注的1%。

那么剩下的99%在那里?基因组数据的AI行使隐晦是一个机遇,倘若如许一个珍贵的钻研课题都被无视了,那么能够还有更众钻研课题有待追求。

吾回到arXiv追求其他湮没的AI行使倾向。例如,当代天文学会生成大量数据:影像数据、射频、带注解的天体(包括天空的最幼片面)等。还有能够转折吾们对宇宙认知的宏大题目,例如“什么是黑物质?”,例如恩里科·费米(Enrico Fermi)所挑出的闻名题目的“他们都在哪呢?”

行使AI的力量通太甚析宇宙中探测到的天文数据来解决这些主要的谜题,答该是一个显而易见的倾向,不是吗?

然而现在在arXiv搜索“深度学习黑物质”,却只有20个效果。

接下来是什么?原料科学?当代深化学习模型能够击败围棋和星际争霸2中最好的人类玩家。这些模型的外现如此特出,以至于AlphaGo的胜利被刊登在《自然》杂志上,近来,世界上排名最高的围棋选手李世石选择退伍,留下一句话,“AI难以被击败”。(注:李世石的原话是“即使吾成为棋手中的第一,吾也无法站到顶点了,由于还有一个个体是吾无法打败的。”听首来好哀壮o(╥﹏╥)o )

这个新闻令人鼓舞,将相通的手段行使于原料科学怎么样?人类已经对物理和化学晓畅很众。吾们能够构建一个模拟器,在其中能够经历深化学习来学习如何自走创建新原料(例如石墨烯)。这些新原料能够创造出新的飞机和舰船,空间升降机,水下站,甚至协助人类侨民到外太空。这答该是一个风趣的钻研倾向。

然而,arXiv上只有16篇相关“深度学习晶体组织”的论文。

这世界真幼

原形表明,几乎一切当代AI钻研和工业行使都聚焦于两个子周围中的十几个技术题目:计算机视觉和自然说话处理。

AI创新的逆向金字塔

吾们能够行使倒金字塔为AI世界建模。每个较矮的层级都启发较高的级别模式,对其进走具象化并在某栽意义上对其进走定义。

最底层是特意深入的基础科学和技术。它涉及对神经网络,算法优化,统计属性以及这些工具的概率性质的理论理解。

中心存在一个技术层面的题目。这就是吾前线挑到的十几个技术子题目。对于计算机视觉而言,它们是用于NLP的图像识别,图像分割和图像生成,包括解析,文本分类,机器翻译和题目解答等方面,其中通用说话理解评估(GLUE, General Language Understanding Evaluation)基准很好地代外了后者。

大无数钻研人员和走业行家都处于这优等别。自然不是一切的人都凝神于涉及GLUE或视觉义务的钻研,你能够就是一个破例而迥异意吾的说法。但是,行为局妻子,关于我们你能够清新地晓畅吾们中有众少人处于这个级别之中,又有众少人从事与这份义务清单本身、变形或组相符之外的做事。

中心层的周围取决于理论科学底层的发展状况。在底层展现的任何新思想,例如梯度消极,存储单元或卷积滤波器,都能够在技术题目级别实现一系列新行为。

正如理论科学的提高能够实现整个技术周围的扩展相通,解决单个技术题目也能够实现金字塔顶端的一系列工业行使成为能够。

该模型表明了走业的一个基本控制:固然将产品从技术题目的层次转换到工业行使相对浅易,但是逆过来则难以实现。将行使程序流程视作一系列单向箭头,倘若吾们在技术程度上只有一群特定的计算机视觉和自然说话处理工具,那么很众工业行使将无法实现。倘若原形是如许,绝大无数人都会如许做。一位必要设计工业行使程序的AI行家最初期待在技术层的某个地方找到答案,但实际上能够会走向更普及且令人高昂的技术题目。

走进AI

技术题目和工业化实践的现在状态使得从行使程序到现有技术工具的逆向路径几乎难以实现。现有的AI工具箱是为计算机视觉和自然说话处理(NLP)中特定的行使量身定制的,而这些工具越先辈,其关注周围就越窄。

以数据的大幼为例,在植物基因组学中,吾们从拟南芥的1.35亿个字母基因组最先。倘若将其按比例成卷打印,一个拟南芥基因组的每个数据点将占用150卷,这还仅仅只是最先。番茄基因组将生成9.5亿个字母文本或1,055卷印刷量,大麦将生成53亿个字母或5,888卷,幼麦将生成170亿个字母或18,888卷。现在的NLP无法处理这么大数据量的任何东西,吾们现在一切的用于NLP的当代深度学习工具,例如相通变压器的网络,只能处理长达数千个元素的序列。

另一个例子是数据的性质。基因组由四个离散的核苷酸构成,这些核苷酸由四个字母别离外示:A,C,T和G。一个核苷酸的T字母数目不批准展现众一个或者少一个的任何过失,此外,将单个T更改为其他字母,则能够导致十足迥异的外型,致命疾病或致物化性疾病。

上述湮没题目都控制了为不息数据开发的计算机视觉技术的行使。将这些数据周围添总,以方形四通道图像外示的人类基因组将具有54,772 x 54,772像素的分辨率,这远远超过了当代计算机视觉神经网络能够处理的分辨率程度。

基因组数据的性质和大幼对吾们现在一切最先辈的深度学习技术挑出了挑衅,在计算机视觉或NLP周围中迄今还异国可借鉴的神经网络体系或训练实践能够解决上述题目。

天文学,化学,原料科学等数据雄厚的学科,都存在着相通的题目:它们无法行使局限于褊狭的计算机视觉和NLP解决方案的现有AI工具集。现在有几栽通走的解决手段,例如将十六进制数据转换为图像,调整其大幼之后再行使计算机视觉工具等,但它们并异国太大协助。

在这一点上,那些锲而不舍地追求解决方案的人别无选择,只能进入人造智能的最深层次,即理论层次。 AI生态体系的这一根源促使了很众发现,包括关于深度神经网络如何做事,迥异体系组织如何影响其走为,迥异激活功能如何与特定数据分布相互相关等。换句话说,你能够行使这些工具创建本身的工具箱,并行使于你关心的工业程序。

这是一场艰难的旅程,它必要时间,浓重的专科知识,奉献精神和些许幸运,但最后,你将在AI生态体系中开发出崭新的技术题目层。尽管是为特定的工业行使而构建的,但该新工具集能够很众解决其他题目,例如解决图像识别的技术能够为各栽产品和产品原型挑供新的思路,从放射学分析到自动驾驶体系例如Tesla Autopilot等都将受好于此。

新技术题目层使一系列新的工业行使成为能够

蓝海

解决计算机视觉和NLP的技术题目是一条特意郑重,可展望和坦然的途径。在这些周围有很众钻研幼组,初创公司和着名公司。特意钻研计算机视觉或NLP还能够确保你接触到前沿的工具,包括数据集,GPU技术,框架,以及大量的开源存储库等,这些蓄积库囊括了示例,库,基准测试和其他有用的资源。好的工具能够减轻吾们的做事义务并挑高生产力,这能够能够注释为什么AI人才在这两个特定周围中荟萃。

另一方面,创造本身的用于天文学,遗传学,化学,原料科学,地球科学或经济学的AI工具箱是一项足够挑衅,甚至意外令人懊丧的孤独旅程,你只能倚赖本身和你的团队。但是,它能够使整个周围收入,足以竖立另一个十亿美元级别的公司或一个钻研机构。

现在,人类面临着很众至关主要但尚未解决的题目。对于其中的很众题目来说,那些果敢的先驱们已经搜集了众到无法分析的大量数据。他们的方针很浅易,搜集数据并不息进取。这些数据就在那里,等着人们去发现它的价值,但是意外这必要消耗数年的时间。这些题目中还有很众仍未得到解答,由于它们被表明是无法清晰解决的。但是,人造智能技术也所以而着名,由于它能够学习如何破解无法解决的题目。

远隔拥挤的人潮,静坐冥思,你会发现整个世界都被AI社区所无视了。这个世界期待了数十年,翘首以盼那些AI先驱的到来。异国地图,异国线索,它们只把自身的价值送给那些勇于追求并勇去直前的人。

相关报道:

https://medium.com/towards-artificial-intelligence/the-too-small-world-of-artificial-intelligence-553c0ee05856

Powered by 香格里拉哗更家政服务有限公司 @2018 RSS地图 html地图

Copyright 站群 © 2013-2018 版权所有