My Think About Career Industry - Intelligent Robots
机器的智能化是人类历史上最重要的事件之一,AI + 机器人 将改变现实世界。
人工智能和机器人作为一种通用目的技术,其应用的深度和广度会远超计算机和互联网,对人类社会的影响,对真实世界的改变将是史无前例的,或许会远远超过过去几十年计算机和互联网对世界的改变。
History : 2017.07.13 初步的 AI + 机器人的想法; 2017.08.03 坚定决心; 2017.09.11 丰富完善; 2019.01.07 基于现有认知完成基本结构; 将随着学习和实践的深入不断调整
我们总是高估了未来两年里将发生的变化,过于低估了未来十年将发生的变化。所以,不要让你自己陷入无所作为的窘境。
— 比尔盖茨 1995 <<未来之路>>特龙(Sebastian Thrun)有着工程师的思维方式,并希望走向一个自由主义的未来…他认同一个在硅谷备受推崇的观点,那就是未来30年内,90%的工作都会因人工智能和机器人技术的进步而被淘汰。在特龙眼中,大多数人的工作实际上都是毫无成就感的无用功。
— 约翰 马尔科夫 <<与机器人共舞>>简单来讲,人工智能就是自动化,正如卡尔·马克思所解释和理解的,自动化就是替代人力成本。因此,拥有资本的人能够获得这项技术的主要经济收益。和其他形式的自动化一样,人工智能也将加剧社会的贫富分化。我们需要做的是不要让社会政策为经济服务,而是让经济政策为社会目标服务。我们应努力最大限度地提升整体的幸福感,而非只为了少数人的利益创造GDP。
— 2019年9月26日,Jerry Kaplan参与录制 <<与任正非咖啡对话(第二期)>>的观点
参考书籍:
- <<浪潮之巅>>
- <<全球科技通史>>
- <<与机器人共舞>>
- <<第二次机器革命>>
- <<人工智能时代>>
- <<智能时代>>
- <<AI·未来>>
- <<第四次工业革命>>
- <<无人驾驶>>
- <<伟大的中国工业革命>>
- <<中国制造2025>>
- <<商业的本质>>
- <<奇点临近>>
- <<探寻人工智能>>
AI + Robots 时代
在经历了PC,互联网,智能手机时代之后,下一个时代浪潮是? 智能时代的概率最高。
Robot这个词汇是在1921的小说Rossum’s Universal Robots中首次出现,In the 1950s, Isaac Asimov coined the term ”robotics” and first examined the fundamental concepts of HRI, most prominently in his book I, Robot.
1950年10月,Turing发表论文《机器能思考吗》。这一划时代的作品,使图灵赢得了“人工智能之父”的桂冠。为了纪念他对计算机科学的巨大贡献,由美国计算机协会(ACM)于1966年设立一年一度的图灵奖,以表彰在计算机科学中做出突出贡献的人,图灵奖被喻为“计算机界的诺贝尔奖”。
1956年,达特茅斯会议,约翰·麦卡锡(John McCarthy)、马文·闵斯基(Marvin Minsky,人工智能与认知学专家)、克劳德·香农(Claude Shannon,信息论的创始人)、艾伦·纽厄尔(Allen Newell,计算机科学家)、赫伯特·西蒙(Herbert Simon,诺贝尔经济学奖得主 第一次提出 AI 的概念,开启了 AI 这个学科。
1957年,乔治·德沃尔(George Devol)与约瑟夫·英格伯格(Joseph Engelberger)成立了世界上第一家机器人(机械臂)公司:Unimation,1959年制造出第一台工业机器人Unimate。由于英格伯格对工业机器人的研发和宣传,他也被称为“工业机器人之父”。
1962年,计算机图形学之父伊凡·苏泽兰(Ivan Sutherland)(1938.5.16 ~)在MIT(导师是信息论的开创者Claude Shannon)发明Sketchpad,标志着 计算机图形学 的诞生,获得1988年图灵奖。
1965年,Sutherland发表了论文,”The Ultimate Display”,描述了AR的雏形;
1968年, 和他的学生Bob Sproull 一起 创造了世界上第一台virtual reality and augmented reality head-mounted display system, “The Sword of Damocles”
1974年,苏泽兰前往加州理工学院,成为这所大学计算机科学系的创始院长。
1977年,苏泽兰与Marc Raibert一起研发早期 行走机器人,数年后,在苏泽兰的建议下,两人”投奔”到CMU(卡内基·梅隆大学),继续对行走机器人的研究。1981年,Raibert在CMU创建了Leg实验室,后来又转投MIT,1986-1992年一直担任这所大学的教员。之后,他选择离职,并创建了Boston Dynamic(波士顿动力)
苏泽兰的学生Alan Kay发明了OOP和GUI,也是Smalltalk之父;Edwin Catmull是Pixar Animation的创始人之一;James Clark创建Silicon Graphics;Netscape;John Warnock创建了Adobe Systems
1966年到1972年间,斯坦福国际研究所(Stanford Research Institute, SRI)研发了全球首个人工智能移动机器人(mobile robot):Shakey。它可感知周围环境,根据明晰的事实来推断隐藏含义,创建路线规划,在执行计划过程中修复错误,而且能够通过普通英语进行沟通。Shakey的软件架构、计算机图形、导航方式、开创性的路线规划都为现代机器人的发展带来了深远的影响。当时计算机的体积庞大,但运算速度缓慢,导致Shakey往往需要数小时的时间来分析环境并规划行动路径。
Shakey used programs for perception, world modeling, and acting. Low-level action routines took care of simple moving, turning, and route planning. Intermediate level actions strung the low-level ones together in ways that robustly accomplished more complex tasks. The highest-level programs could make and execute plans to achieve goals given it by a user. The system also generalized and saved these plans for possible future use.
1978年,美国Unimation公司推出通用工业机器人PUMA,这标志着工业机器人技术已经完全成熟。
1997年,IBM超级计算机深蓝(Deep Blue)战胜堪称国际象棋棋坛神话的加里·卡斯帕罗夫(Garry Kasparov)
1999年8月,Gary Bradski在Intel创立了OpenCV开源跨平台计算机视觉库。
2004年,DARPA 举办第一届无人驾驶挑战赛DARPA Grand Challenge,没有团队完成任务。
2005年10月8日,在第二届挑战赛中,斯坦福大学教授 Sebastian Thrun 领导开发的 Robot Car : Stanley完成任务,获得冠军奖励200万美元更多详情
2007年的DARPA Grand Challenge也被称为“城市挑战赛”(Urban Challenge),多个车队完成比赛,最终卡内基梅隆大学CMU凭借他们的车辆Boss(2007款雪佛兰太浩)获得了200万美元的奖金。赢得100万美元奖金的第二名是斯坦福Stanford赛车队,他们的车辆为Junior(一辆2006款大众帕萨特)。排在第三位的是VictorTango车队,凭借2005款福特Escape混合动力车Odin赢得了50万美元的奖金。麻省理工学院MIT获得第4名,康奈尔大学和宾夕法尼亚大学也完成了该赛程。 DARPA 无人驾驶挑战赛的目标已经达成,剩下的就是 工业界 的产业化了。参考资料
2007年Thrun加入谷歌,领导了谷歌街景的研究,后来创建了Google X 实验室,2009年领导谷歌无人车项目,开发了第一辆谷歌无人车。2011年 Thrun 创建了Udacity,开启了MOOC的风潮。Udacity的目标是给各个年龄段的人提供高等教育机会。
2007年,斯坦福大学教授 Andrew NG 发起STAIR(STanford Artificial Intelligence Robot)项目,目的是创造一个通用智能机器人研究平台,集各分散的AI子领域技术于一身。项目的初步成果发表在ICRA 2007上,论文题目是<<STAIR: Hardware and Software Architecture>>
“Our single robot platform will integrate methods drawn from all areas of AI, including machine learning, vision, navigation, manipulation, planning, reasoning, and speech/natural language processing.”
项目持续2年,共有30多位研究人员参与,分为多个team:Perception/Manipulation,Navigation,Vision,SW Integration, Spoken dialog
在此基础上,诞生了PR1,ROS,PCL。交由Willow Garage继续发展和维护。
Willow Garage由斯坦福大学计算机博士Scott Hasson 于2006年创办,此后每年个人投入2000万美金,直到2013年(昂贵的硬件阻碍商业化,PR2定价为 40 万美元),团队孵化出Suitable Technologies,Industrial Perception, Beam/telepresent, savioke/酒店服务。技术和人才扩散到机器人的各个领域和公司。
ROS交由Open Source Robotics Foundation维护,关于ROS的更多历史,可以参考华东师范大学张新宇教授的机器人操作系统ROS史话
2009年,斯坦福大学教授 李飞飞 发起了 ImangeNet项目, 2010年,启动 ImageNet Large Scale Visual Recognition Challenge (ILSVRC) 挑战赛。2011年,最佳的分类算法的TOP5的错误率在25.8%,2012年,Geoffrey Hinton和他的学生提交的基于CNN的算法AlexNet将错误率降到15.3%。神经网络的突破性进展在学术界引起震动,后续几年比赛的所有算法都基于CNN。2015年,来自微软亚洲研究院的ResNet,获得了ImageNet的冠军,错误率仅为3.5%,而人类专家的错误率大概是5.1%。可以说,在特定场景下,计算机在图像识别上的能力已经超过了人的水平。可以work,可以商业化了。在2013年左右,大量CV(四小龙:商汤/2014,旷视/2011,依图/2012,云从/2015), SR, NLP等领域的创业公司如雨后春笋般出现,以先知先觉的拥有AI实验室的大学及大公司科研机构的博士教授为主。
在2012年前,CV技术在工业界很少应用,很多博士找不到工作,如今却成了炙手可热的人才(50万是起薪),可见技术的突破是难以预测的,我们能做的是及时作出应对。 马后炮的总结分析来说,AI的发展得益于移动互联网可以收集大量数据,GPU等并行计算设备的普及,更在于学术界中Geoffrey Hinton等人的坚持(30年时间)。2019年Geoffrey Hinton,Yann LeCun, Yoshua Bengio获得 图灵奖 是实至名归。
2012年到2015年,DARPA发起了DARPA Robotics Challenge 挑战赛,奖金依然是200万美元,使用人形机器人(humanroid)执行灾难救援任务(非完全自主): 开车,下车,开门,扭阀门,钻孔,拔插插座,通过杂物通道,爬楼梯, 最终决赛上,来自韩国科学技术院KAIST的HUBO机器人耗时44分28秒完成全部任务,获得冠军。
2017年,DARPA又发起Subterranean Challenge,挑战隧道,城市地下,洞穴 环境下的自主导航
2015年12月16日,特斯拉CEO埃隆·马斯克(Elon Musk)和创业孵化器Y Combinator总裁山姆·奥特曼(Sam Altman)创建了人工智能公司OpenAI,并表示将开源其研究成果分享给研究人工智能的每一个人。国外知名科技媒体《连线》杂志发表评论文章,称开源的OpenAI的成立将人工智能研究推向高潮,同时也转变了目前由谷歌、Facebook等巨头引领的人工智能领域竞争格局。未来,OpenAI有望成为这一领域的监管者,将其引向对人类更为安全的发展轨迹上来。
2016年3月15日,Goolge公司下属的DeepMind研发的基于Deep Learning和Reinforcement Learning的AlphaGo 以4:1战胜李世石,吹响 智能时代 的号角,这次事件引发了全世界对AI的关注。2017年5月27日,Alpah Go 以3:0战胜世界排名第一的围棋冠军 柯洁,Alpah Go将不再参加围棋比赛,转向探索医疗,机器人领域,机器智能在特定领域已经超越人类智能。下一个挑战是什么,如果说围棋还是限定条件下决策,那 计算机游戏 ,DeepMind,OpenAI 这些研究AGI的结构将研究方向指向 计算机游戏(Dota2, STarWar2) 和 机器人
时机
领先一步是先驱,领先三步是先烈
— 任正非人的商业知识和眼光不是天生的,需要不断地、有心地学习。经过多年的学习、思考和实践,我认定这样一个规律,就是:科技的发展不是均匀的,而是以浪潮的形式出现。每一个人都应该看清楚浪潮,赶上浪潮,如此,便不枉此生。
— 吴军 <<浪潮之巅>>近一百多年来,总有一些公司很幸运地、有意识或者无意识地站在技术革命的浪尖之上。一旦处在了那个位置,即使不做任何事,也可以随着波浪顺顺当当地向前漂个十年甚至更长的时间。在这十几年间,它们代表着科技的浪潮,直到下一波浪潮的来临。… 这些公司里面大大小小的人在外人看来都是时代的幸运儿。因为,虽然对于一个公司来讲,赶上一次浪潮不能保证它长盛不衰;但是,对于一个人来讲,一生赶上这样一次浪潮就足够了。对于一个弄潮的年轻人来讲,最幸运的莫过于赶上一波大潮。… 在这些公司兴衰的背后,有着它必然的规律。和世界所有事物的规律一样,科技行业的规律性也是可以认识的。…
— 吴军 <<浪潮之巅>>
机器人并非新生事物,然而机器人的定义是模糊和变化的。普通人对机器人的认知大概是科幻小说和电影中的形象,如星球大战中的R2-D2和C-3PO,终结者中的T800等等,但人们在工作和生活中并没有见到这样的机器人。
现实中的人形机器人Humanoid和通用机器人还只存在于试验中,从本田的ASIMO(300万美元),到Willow Garage的PR2(40万美元),再到波士顿动力的Altas(200万美元),不但昂贵,也还没啥用(当然有其技术价值,科研价值)。简单的说,技术水平还达不到,短期也看不到商业价值,能坚持可以说是理想主义者的情怀。科幻的想象与实际科技水平相差甚远,总是超出预期的过度宣传也不利于整个行业在商业上的成长。
也许我们需要的是拥有人的部分能力但能更好的完成工作的机器,而不是外表长得和人一样的机器“人”。事实上真正已经取得商业成功的是如下几种机器人:
被工业界已经抢占了话语权的”工业机器人“,或者叫机械臂,他们是没有智能的机电设备,而且只有人的”胳膊“的功能,但比胳膊的精度更高,更稳定,更持久。
Intuiive Surgical在1996年开发的达芬奇医疗机器人,2000万人民币一台,2018年销售收入接近31亿美元,常年毛利70%,净利20%,市值640亿美元;
2006年创建于深圳的大疆创新(DJI),可以说是 无人机 领域的世界级的领导者,是我国在机器人领域的骄傲,2018年销售额做到60亿人民币、占据了70%的国际市场份额
然而,虽然取得一定的成功,但这些机器人产业的市场规模还很小,不到300亿美元。这些机器侧重点是机械电子,只有较少的IT技术(嵌入式),很少 网络化,更谈不上 智能化。2012年开始,新的技术和市场机会到来。
AI works
2012年,基于CNN的AlexNet将ILSVRC的TOP5的错误率降到16%,相比传统算法提升10个点;2015年,同样基于CNN的ResNet在ImageNet上的分类错误率(3.5%)上已经低于人类专家水平(5%),这是个里程碑式的成果;2016年基于DRL开发的AlphaGo更是打败人类最顶尖的围棋选手,AlphaStar正在向需要更复杂决策的游戏领域。
正如Stanford大学教授李飞飞所说:“人工智能已经到了可以真正走进工业、产业界,为人类服务的阶段。这个阶段不是最后一个阶段,但是人工智能发展了60多年,这是第一次有这样的机会。” AI或者说深度学习的崛起,是 算法(Algorithms) + 数据(Big Data) + 计算力(Computing) 共同作用的结果。
AI作为一种通用技术,要和其他行业结合,提升效率,目前主要应用于数字世界 : 互联网(ML应用在搜索,推荐,广告应用上),手机(美颜,照片分类),安防(人脸识别,行为分析),金融(人脸识别,投顾),智能家居(智能音箱), 这些都不需要和物理世界交互。
对于AI的发展历史和趋势,李开复老师在<<AI 未来>> 一书中归纳为四波浪潮:
互联网智能化 Internet AI
搜索,推荐,虚拟助手,视频分析
第一波人工智能浪潮创造的种种经济价值仍局限于高科技产业及数字世界。商业智能化 Business AI
金融(小额微贷,智能投顾,保险精算),医疗/辅助诊断,法律,在线教育实体世界智能化 Perception AI
人脸识别摄像头,智能音箱,车流量分析等各个行业 : 安防,交通,零售,线下教育,家居,城市管理等
李开复称之为OMO(Online-Merge-Offline),将数字世界和现实世界完全整合起来,把线上世界的便利性带进线下世界里,把在线下世界里感知到的内容带到线上世界里。 第三波人工智能创新将为第四波完全自主化的人工智能奠定基础。自主智能化 Autonomous AI
自主人工智能是前三波人工智能浪潮的集大成者,也是顶峰,把极复杂的数据和机器感知能力结合起来,就会得到不仅了解世界,也能 改变世界的机器 。自主人工智能将首先应用于商业领域,因为这些机器人创造了可预见的投资回报,它们执行的是人工成本更昂贵或找不到人执行的工作。 比如物流分拣,高速货车,这些工作劳动强度大,重复枯燥,甚至危险。
每一波浪潮都将以不同方式利用人工智能的力量,颠覆不同产业,这四波浪潮是同时进行的,只是所处的阶段不同。各方力量竞相投入,尤其 互联网行业 巨头更是全方位布局。
正是因为AI技术能Work了,与传统的机器臂相比,近几年在互联网巨头催熟下的爆发的智能音箱市场,2018年的出货量达到8620万台,其中Amazon Echo 一年就卖了2420万台。虽然商业模式上依然是延续互联网公司烧钱补贴,抢占市场,进而垄断的思路。
机器人的定义很模糊,比如工业机器人(臂)是一个成熟的产业,但基本与AI无关,我个人觉得是拥有与真实世界交互,拥有某些人的能力能完成某些人类社会工作的机器。人的能力是多样的,除了手(抓东西),脚(走路),眼(感知周围环境),耳(与人类交流),最关键的是大脑(学习,思考)。机械臂在力量,速度,耐力,精度都已超过人类的手臂(手指的精细度还在研究);汽车在速度,耐力上也远超人的腿脚。工业革命以来,分工越来越精细,很多人成为流水线上的螺丝钉。技术的成熟,使得简单重复的体力劳动被替代只剩下成本的考量。
现在基于DL的弱AI在感知上取得了巨大的进步,在某些场景下已经超过人类水平。因此,AI + 机器人 = 智能机器人 的商业化成为可能。将AI能力赋予机器人,让机器能自主执行任务,将使得很多简单的脑力劳动工作可以被替代。最新的智能机器人代表,是具有最大商业价值,最广泛影响力的由Google X/WayMo引领的 无人驾驶汽车。
AI 作为软件,在虚拟世界(信息世界,主要第三产业)提升效率,而AI和机器人的结合,在真实世界降本增效,提升生产力,将更深层次的变革不同行业(三大产业中机会所有行业),对社会和个人造成颠覆性的影响,更深入的想法在下文中。
商业上,以目前DL的技术能力,应用场景逐次从结构化受限到非结构化开放场景,所以除非技术有大的突破,落地的顺序是 工业机器人(非常受限场景) -> 服务机器人(比较受限场景) -> 家用机器人(开放场景)。
人口拐点
2012年我国劳动年龄人口首次下降 ,15-59岁(含不满60周岁)人口为93727万人,占总人口比重为69.2%,人数比上年末减少345万人。到2018年末,7年间减少了2600余万人,同时 全国就业人员总量 也首次出现下降,比上年减少54万,但总量依然达到77586万人。
如果说现在的AI技术还是弱智能,有各种限制,还有不确定性;那么我国劳动人口的大幅减少在未来30年是确定的,必然的事实和趋势。更具体分析需要大量数据工作,这里只考虑大的商业机会,不考虑社会影响。
劳动人口数量 : 到2035年,将减少1亿
根据 国家统计局 2010年第六次人口普查,各个年龄层的总人数是确定的: 50年后人口总数约为2.03亿,60年后人口总数约为2.45亿,70后人口总计2.15亿,80后人口总计2.28亿,90后总计1.74亿,00后总计1.46亿。
从各年龄层人口总数来看,90后比50后少了3000万,00后比60后要少近1个亿。从劳动年龄人口总量(16岁-59岁的劳动者)来看,2012年达到峰值9.22亿人,2018年为8.97亿人。这个数据很不精确,比如从就业来说,因为随着义务教育普及,高考扩招,16岁就工作的应该越来越少;从退休来讲,很多公职人员,国企人员55岁甚至50岁就退休,农民工干到50岁就回乡村了;还有全职带孩子的;以及失业人员等等,所以实际就业人口比劳动年龄人口少1.2亿,总数是7.76亿。
趋势上,劳动年龄人口减少从2022年开始将加速,因为1962年-1975年出生的婴儿潮一代将逐年退休,00-10后开始工作,连续14年劳动人口都是减少的,平均每年在800-1000万左右,预计到2035年,劳动年龄人口总数将减少近1亿。
虽然劳动年龄人口减少,但人口总量还在增加,也就意味着需求仍在增长。我国人均寿命是78岁,也就意味着生育高峰的一代在2040 ~ 2055年后才去世,那么从2022 ~ 2040年国家将面临最大的养老金支付压力,但同时也带来旅游,保健,医疗等老年服务的需求和机会。
在总量上,劳动年龄人口的大幅减少,大幅缓解了劳动者就业压力,但同时总人口数仍在增加,需要创造更多的物质和精神财富,目前看通过自动化和智能化提高生产和服务效率是解决此矛盾的唯一方法。
劳动人口质量 : 到2035年,高等教育劳动人口要占50%
一个趋势是:劳动者从制造业向服务业转移,在第四次经济普查中:
2018年末,全国第二产业和第三产业法人单位从业人员38323.6万人,比2013年末增加2721.3万人,增长7.6%,其中女性从业人员14446.7万人。第二产业的从业人员为17255.8万人,减少2005.0万人,下降10.4%; 第三产业的从业人员为21067.7万人,增加4726.2万人,增长28.9%;个体经营户从业人员14931.2万人,其中女性从业人员6900.9万人;剩下的农村就业人员2.4亿。
即使是80,90后的富士康工厂的流水线工人也有了很多选择,更愿意送快递,送外卖,开共享汽车,做直播,微商等等。坦白说这些工作也没有技术含量,所以当这些工作的成本增高后,资本同样会选择用机器人替代。
对于制造业来说缺的是高级技工,管理人员,技术研发工程师,而不是流水线的重复劳动者。在简单重复的劳动者的工资达到自动化替代点后,制造业必然采用自动化技术,当然具体到各个子领域,这个时机关键是考察人力成本及技术难度。
第二个趋势是,产业从中低端升级到高端,创造更多高技术岗位。高附加值产业需要更多 专业技术人才,如软件,半导体,新能源汽车,大飞机产业,军工,航空航天装备,机器人,医疗器械,工业互联网等等,由”人口红利”转为”工程师红利”,低端产业要么升级要么转移。
未来的00后,10后,他们的教育水平,思维眼界,知识技能,就业机会等等决定了他们不会选择低水平的流水线及普通服务业工作。至于出现的高等教育供给与需求的错位,那是教育(不只是高等教育,还有中职教育)要改革的事情。
简单说,危险,高劳动强度的工作,工资低的脏活,累活,机械重复,没有发展的工作年轻人不愿意干了。事情总要做,都不愿意干,就只能提高工资,到一定临界点,这些工作就只能靠自动化技术解决。在制造业,自动化技术(机械臂)在汽车,3C,食品等领域早已采用,但新一代的自动化(智能)技术应用领域更广泛,影响力要大的多,几乎适用于所有行业。而且这些技术和产品具有一定的共性,也就是当某些行业首先出现人力成本过高,达到”人机替代点”,采用了智能+机器人技术,促进智能+机器人技术的积累和产品的规模化,将进一步扩大智能+机器人的应用场景,并降低成本,从而可以规模复制替代其他行业简单重复的工作。所以未来的工作岗位供应并不乐观。
所以到底是自动化,智能化技术的采用会使得人们大规模失业,还是刚好填补了劳动人口减少的缺口,这是个复杂的系统问题。总之,事实是:未来30年,一方面总劳动人口减少,另一方面教育水平大幅提高,还有就是新兴产业创造新的就业。
对于劳动人口减少,生育率降低,以及老龄化的问题,有些人想的不是靠科技,而是鼓励普通大众多生来解决此问题,真是非蠢既坏。我国的发展水平已经过了靠低成本劳动力的时代,而且劳动总量压力依然很大,又面临AI和自动化的挑战,美国的打压,人多工资低,生活何来幸福? 没有足够的工作岗位,失业人口就是社会甚至政治动乱之源。而且,生育更多人能解决老龄化养老问题么? 那么60年后这多生育的人谁来养老?完全是不负责任的做法,将问题推给下一代。不是多生,而是优生优育,根据自身家庭情况选择。
日本,韩国比中国提前遇到此问题,目前看自动化,智能化是唯一的解决办法。当前韩国的机器人密度世界第一,日本着力发展智能机器人产业,孙正义甚至提出机器人拯救日本 2050年让日本经济成为全球第一。
国际竞争
一个现实是,对于国家间的竞争来说,资本可以自由跨国流动,但劳动者无法自由流动。制造业可以产业转移,农业和服务业无法转移。 人力成本太高,资本用脚投票;工资长期低,生活压力大,人们也会用脚投票(减少生育)。
当前在产业竞争上,我国面临”围追堵截”。产业升级上,<<中国制造2025>>要面对美国的打压,以及高科技支持下的制造业资本回归;中低端面临着越南,印度等更低劳动力成本的挑战。
解决的方法一个是从“全要素生产率”入手,提高工资的同时通过技术和管理提高生产效率;另外就是产业升级,转变经济发展动能,也就是”新旧动能转换“,提升产品全球竞争力,获得更高附加值,这就需要提高人口素质,提升科技水平。这就是国家推动 “互联网+”,”智能+”的原因。对各个行业来说,这些就是生产力工具。
产业升级关乎国运,是必须成功的,否则陷入”中等收入陷阱”,不只是社会问题,更是政治问题,伟大复兴无从谈起。从人口红利到工程师红利,科技强国是唯一选择。
习近平在2018金砖国家工商论坛上发表<<顺应时代潮流,实现共同发展>>的重要讲话,提出未来10年,将是世界经济新旧动能转换的关键10年。人工智能,大数据,量子信息,生物技术等新一轮科技革命和产业变革正在积聚力量,催生大量新产业,新业态,新模式;给全球发展和人类生产生活带来翻天覆地的变化。我们能够做的和应该做的就是抢抓机遇,加大创新投入,着力培育新的经济增长点,实现新旧动能转换。要树立全球视野,深化国际创新交流合作,发挥各自比较优势和资源禀赋,让科技进步惠及更多国家和人民。同时,要妥善化解信息化,自动化,智能化对传统产业的冲击,在培育新产业过程中创造新的就业机会。
综合上述因素,总的来说,AI技术的进步,人口数量和结构的变化,国际竞争都会促进 智能机器人 产业的发展。同时对芯片,工业机器人,汽车等产业的国内企业也是重大战略机遇,在优势的互联网,AI的技术支撑下有望实现对美欧日的”弯道超车”。
影响力
科学技术是第一生产力。
— 邓小平 1988 全国科学大会从空间维度上看,科技在文明过程中的作用是独一无二的,是一种进步的力量。工业革命堪称人类历史上最伟大的事件。而工业革命的发生就是科学推动技术,再转化为生产力的结果。
从时间维度上看,科技几乎是世界上唯一能够获得叠加性进步的力量,它的发展是不断加速的。
— 吴军 <<全球科技通史>>数千年以来,人类发展曲线一直呈现出平缓向上的趋势。社会的发展与进步极其缓慢,以至于几乎无法辩清。牲畜和农业,战争和帝国,哲学和宗教都没有发挥更大的影响力。但正好在200多年前,剧变发生了,人口和社会发展使得人类历史的发展曲线几乎弯曲了90度。是什么大大改变了人类历史发展曲线?答案是 工业革命。 我们甚至可以更准确的判断出,哪一种技术是最重要的。这种技术就是蒸汽机,或者更准确的说,是18世纪后半叶,詹姆斯瓦特以及他的伙伴们发明和改造的蒸汽机。工业革命引领了人类第一次机器革命—我们的社会发展进程第一次主要由技术创新驱动,这一次机器革命堪称我们整个世界最深刻的社会大转折。
现在,第二次机器革命时代到来了。就像蒸汽机及其后来的技术发展克服并延展了肌肉力量一样,计算机和其他数字技术—那种用我们的大脑理解和塑造环境的能力,正在对金属力量做着同样的事情。… 对这种背景进行调查和分析之后,我们非常有信心地认为我们现在正处在一个重大的转折点上—和工业革命所带来的深刻变革几乎相同的重大转折的早期阶段。不仅仅是新技术指数级,数字化和组合式的进步与变革,更多的收益还在我们的前面。
我们这一代将很可能会幸运地经历人类历史上两个最让人吃惊的事件:真正的智能机器被创造出来,以及所有人通过共同的数字网络彼此互联。这两个事件将改变我们这个世界的经济发展模式。
— 埃里克布莱恩约弗森 安德鲁麦卡菲 <<第二次机器革命>>一个公有制占主体,一个共同富裕,这是我们所必须坚持的社会主义的根本原则
— 邓小平1985.3.7 <<一靠理想二靠纪律才能团结起来>>(一九八五年三月七日)
人类(现代智人)历史的三个关键时期,5万年前从非洲大陆扩散到世界各地;1万年前,人类进入农业时代;250年前,人类进入科技和工业时代。工业革命是迄今为止,人类历史上最重要的事件,大大改变了人类历史发展进程。工业革命短短250年创造的物质财富比农业1万年还要多,少数公司/人站在浪潮之巅,多少国家/人民的命运被改变。
第一次工业革命,改变了世界格局,让区区5000万人口的英国,通过贸易,武力殖民,船坚炮利 成为日不落帝国; 而中国则陷入长达100年的屈辱,抗争,苦难,奋斗…直到新中国的成立。
第三次工业革命,信息时代,起源于1969年的大规模集成电路,从PC到互联网再到智能手机,美国都是领导者,微软,亚马逊,facebook,谷歌,苹果等私人公司借助全球化可以富可敌国。中国抓住了机会,也诞生了阿里巴巴,腾讯,百度,华为,小米等等有影响力的公司,同时一些借助第一二次工业革命崛起的发达国家,如欧洲,日本,韩国基本都无所作为,更不谈发展中国家。
随着AI,量子计算,生物技术的突破,新一轮科技革命和产业变革正在萌芽。单单从IT领域来看,以AI为核心的技术集群 : AI + IOT + 5G + 云计算 + 大数据 + 机器人 + VR/AR + 区块链 等综合应用到 三大产业,实现“自动化,数字化,网络化,智能化”,将深刻影响和改变人类的生产,生活的各个方面,也就是 第四次工业革命,“智能时代” 的开端。这一次可能是中美全方位的竞争。
这些新方向,包括AI,云计算,大数据,IOT, 5G, VR/AR,区块链都是有彼此的关联的,比如这一轮AI的应用是靠深度学习算法 + 云计算 + 大数据 来支撑的;AI特别是计算机视觉对VR/AR也是有帮助;VR/AR也许是5G的杀手级应用,从而推动5G的普及;5G,AR,区块链的普及推动IOT的发展,IOT的发展进一步提升AI的精度和准确度。
AI 是一种 GPT(通用目的技术),和 蒸汽机,电力,信息技术 一样,可以应用到各行各业。AI本身是软件,需要与硬件(PC,手机)结合。
这一轮的AI(Deep Learning)的再次崛起,得益于三个方面的积累:
- 深度学习算法Algorithms
Deep Learning深度学习在语音,视觉领域取得突破性进展,在真实世界的一些特定任务,特定应用场景上超过人类专家的精度 - 大量数据Big Data
手机,移动互联网的普及,使得数据规模极为庞大,而且易获取,尤其是与人有关的图片,语音,视频数据 - 计算能力Computing
GPU并行计算的利用,专用芯片摩尔定律的推动(Inference)以及云计算的普及,超大规模的分布式计算(Training)成为可能
从自动化,数字化,网络化,智能化 的角度看,不同行业的技术水平参差不齐,信息化程度越高(数据多),经济利益驱动越强(软件,硬件,科学家都有成本),智能化的应用就越快:
- 金融
量化交易,智能投顾;信息化程度高,劳动力成本高,商业回报巨大,有很强利益驱动力 - 互联网
广告,推荐,搜索; 数据量大,算力,人力充足;利益回报明显,网络搜索,产品推荐,内容过滤,超分辨率/视频质量提升… 在上亿的用户前,1%的精度提高,也能带来巨大的商业价值
搜索/百度,推荐/今日头条,美颜/美图,视频分析/快手 - 安防
人脸识别,车牌识别,行为分析 … CV应用最多 : 旷视,商汤,依图,云从 以及 行业巨头 海康,大华,
目前 安防行业 在中国的产值6000亿人民币,主要是公共安全(公安,企事业),交通(城市,公路,民航,轨道),中小商户(家庭,超市,商店),有近1000家公司,主要玩家(海康35.95,大华14.7%,宇视4.5%),这三者占50%市场份额;行业集中度较高。 - 手机
美颜,人脸解锁,人脸支付 - 零售
流量统计,自动结算,客户行为分析,无人超市 - 医疗
医疗图像分析,电子病例
腾讯觅影 - 制造
缺陷检测 - 法律
庭审记录 - 芯片
Nvidia,Intel,Google;海思,寒武纪,深鉴,比特大陆
AI 的应用是数字世界的效率提升,AI + IOT设备是理解真实世界,但 AI + 机器人(智能机器人)则是改变真实世界(Real World) : 主要体现在Mobolity(移动),Manipulation(操控),HRI(人机交互)
这里的机器人是一个通用概念,包括工业机械臂,轮式机器人(汽车,卡车等…),足式机器人,无人机等。
智能机器人也是一种通用目的技术,也可以应用到各行各业,需要人的地方就有机会需要它,比如交通,物流,制造业,服务业,农业等等。
将信息化(计算机,互联网) + 自动化(机器人) + 智能化(AI) 结合起来赋能农业,工业,服务业,本质是 降本增效提质,会极大的提高全社会的生产效率,未来的社会将是一个低生活成本,物质和服务极为丰富的社会。
历次工业革命提高生产效率,在减少工作的同时,增加新的工作机会,劳动者可以通过学习掌握新的工具从而分享生产力提升创造的价值。这些都只是生产工具上的更替,但这一次不一样,工具替代了劳动者本身。正如工业机器人在制造领域的应用,但这次影响范围大得多,因为机器人在AI助力下拥有了学习能力,能自主感知环境,根据任务自行决策和执行。当然,现在还处于 自主 的初级阶段。
因此,AI + 机器人的普及不仅仅是 科技 问题(可行性,规模化),经济 问题(生产力极大提高,创造更多财富),更是 社会 问题(财富向极少数,失业问题), 政治 问题(制度变革),甚至 文化 问题。
AI + 机器人作为通用技术可以应用到各行各业,但这并不会一蹴而就,技术和成本是决定因素。智能机器人 本身也是劳动的产物,是有成本的(目前成本还很高),在整个社会的普及可能是一个缓慢但突然加速的过程。首先重点突破的可能是 自动驾驶汽车,物流机器人,协作机器人等,在这些领域的技术,人才的积累,规模应用导致的软硬件成本大幅下降,会加速在其他领域的应用。即使是自动驾驶,存量汽车的更新需要20年的时间。
对从业者来说,按照新兴技术渗透的一般规律,从军事(DARPA自动驾驶挑战赛,DARPA机器人挑战赛)到工商业(Waymo自动驾驶汽车,Amazon Picking Challenge)再到家用(?),是长期(20-50年)可持续且可叠加进步的,是值得作为终身事业的方向。
计算机在计算能力,记忆力上早已超越人类,机械臂和汽车在力量,速度,耐力,精度上也远超人类。人工智能和机器人技术的终极目标是什么? 强人工智能? 一个感知,认知,行为都能达到甚至超越人(人的能力层次也是千差万别的)类专家程度的机器?
国家战略
拥有先进技术,资本,专利,品牌的国家可以对其他后发国家发起降维打击,从而获取垄断性超额利润。利用先进的自动化智能化机器降低高昂的人力成本,将 制造业 重新带回本土,这就是美国的意图。
智能机器人在 军事 上的先进性的体现 : 5G无人机集群,无人驾驶飞机,坦克,舰船;无人操控自动武器;自主排雷机器人等等无人自主军事装备。 DARPA支持的无人驾驶挑战赛,机器人挑战赛的最终目的就是应用在战场上。
在 经济 方面,农业,工业,服务业,AI+机器人都可以应用,这一轮新的科技革命和产业变革的战略机遇,中国是绝不能错过的。
“落后就要挨打”。中国错过了第一次工业革命,第二次工业革命,付出了惨痛的代价;抓住了第三次工业革命的尾巴,诞生了世界级的互联网公司。不管是第四次工业革命还是第二次机器革命,作为一个国家而言,不容有失。至于哪些公司会跑出来,那是自然竞争的结果。
总的来说,智能机器人:
- 机器人是AI的最佳载体,集大成者,作为一种通用目的技术,可以应用到各个领域,改变现实世界
- 这种技术的能量巨大,带来巨大的影响力,对整个人类的生产和生活具有深刻的影响
- 从商业角度,市场规模巨大,一旦普及,机器人数量会超过人类数量
- 机会多,产业链很长,难以有马太效应,会产生丰富的生态链
- 涉及的专业众多,技术难度,深度,广度很高,从而门槛很高,一旦形成产业链,将具有巨大先发优势
- 契合国家战略新兴行业,中国制造2025,”自动化,数字化,网络化,智能化”的科技发展大势
- 面对美国的政治,科技,产业的打压和竞争
2015.05.19 国务院关于印发<<中国制造2025>>的通知,制定制造业十大重点领域战略目标,向数字化,自动化,网络化,智能化方向升级:
机器人:围绕汽车,机械,电子,危险品制造,国防军工,化工,轻工等工业机器人,特种机器人,以及医疗健康,家庭服务,教育娱乐等服务机器人应用需求,积极研发新产品,促进机器人标准化,模块化发展,扩大市场应用。突破 机器人本体,减速器,伺服电机,控制器,传感器与驱动器等关键零部件及系统集成设计制造等技术瓶颈。2017.07.08 国务院关于印发<<新一代人工智能发展规划>>的通知,将AI上升为国家战略
2020年AI核心产业规模到达1500亿人民币,AI相关产业规模到达10000亿人民币;2025年AI核心产业规模到达4000亿人民币,AI相关产业规模到达50000亿人民币;2030年AI核心产业规模到达10000亿人民币,AI相关产业规模到达100000亿人民币2017.12.14 工信部,<<促进新一代人工智能产业发展三年行动计划(2018 - 2020)>>的通知:
抓住历史机遇,突破重点领域,促进人工智能产业发展,提升制造业智能化水平,推动人工智能和实体经济深度融合:
人工智能重点产品规模化发展,智能网联汽车 技术水平大幅提升,智能服务机器人 实现规模化应用,智能无人机 等产品具有较强全球竞争力,医疗影像辅助诊断系统等扩大临床应用,视频图像识别,智能语音,智能翻译等产品达到国际先进水平。2019年3月5日,政府工作报告,正式提出”智能+”战略
深化大数据,人工智能等研发应用。打造工业互联网平台,拓展”智能+”,为制造业转型升级赋能。
科研先行
2017年开始,美国几个顶尖大学强化 智能机器人 的研究,加强 AI 与 机器人 的融合,比如Stanford 李飞飞的 PAIR 组,比如新的机器人学习的学术会议Conference On Robot Learning的成立;以及早已成立的DeepMind,OpenAI等对机器人自主化的研究…更详细的内容参考,这方面我们国家还是有差距。
社会变革
在第四次工业革命的进程中,软件技术驱动的数字互联将会彻底改变整个社会。其影响范围之广,变革速度之快,使得这场变革有别于人类历史上的任何一次工业革命。
— 克劳斯·施瓦布 <<第四次工业革命>>生产力决定生产关系,生产关系反作用于生产力
如此强大的技术(集群)力量会带来巨大的社会变化。如同工业革命后人们生活方式,思维方式,社会变革,国家战争,政治思想涌现等等太过复杂广泛的影响。因为采用智能机器人会带来生产力的巨大提升,也就会创造更多的物质财富;同时AI+机器人替代部分人的工作,会引发工作,教育,社会(生产关系)的重新适应。在财富的分配来说,生产资料和生产工具的所有者将获得其中的绝大部分;伴随着很多简单重复工作的消失,如果不能创造出新的工作形式,或者教育无法适应社会的变化,大规模结构性失业在所难免。但这不会一蹴而就。
智能机器人作为一种具有更广泛应用的自动化技术,目的就是替代人工成本。但智能机器人本身也有成本。机器人的门槛很高,成本很高;AI的门槛更高,边际成本很低;在摩尔定律,规模效应的作用下,当技术和成本达到某个临界点 : 人机替代点 ,资本会选择使用技术替代劳动力。也许会以一种缓慢但突然加速的方式扩散:一开始技术很难,成本很高,但一旦有所突破,将会加速普及。
AI + 机器人 在各行业普及之后,最可能出现的3个问题: 大规模的结构性失业,人们跟不上变化;有史以来的最悬殊的贫富差距;生产力高度发达,需要重新定义“工作”,重新定义价值。
大规模结构性失业
麦肯锡全球研究院(McKinsey Global Institute)发布《失业与就业:自动化时代的劳动力转型》报告 : 以”中性“的速度,称到2030年,全球将有多达8亿人的工作岗位可能被自动化,大概有3.75亿人口将面临重新就业。其中中国将有至少1.18亿人的岗位被机器人取代,这要求他们学习新技能,适应与机器人的合作分工;其中700-1200万人需要转换职业(这意味着他们原有的岗位彻底被机器人取代,不再有人工的价值)。如果人工智能以更乐观的速度发展的话,这一数字将扩大到2.36亿,也就是三分之一的中国人。
在未来的十年中,尽管自动化将完全消除少数几个职业,但是他将或多或少地影响大部分工作,这取决于工作的类型。在当前的技术水平下,45%的人类工作可以由机器代替,而大约60%的职业中约30%的工作内容可以进行自动化。
技术可行性是自动化的一个不可或缺的先决条件,但它并不是决定某项活动能否自动化的唯一因素。需要考虑的第二个因素是开发成本,包括自动化的软件和硬件开发。第三个需要考虑的因素是劳动力成本和想的供求状况:如果劳动力充足,而且劳动力成本远远低于自动化成本,那就没有需要进行自动化,因此这也是一个决定性的因素。需要考虑的第四个因素是劳动力替代的好处,包括高水平的产出,更好的产品质量和更低的出错率。这些方面的收益往往比减少劳动力成本的收益要多。监管和社会认可问题也必须要考虑,如在某些特定的环境下人们对机器的接受程度。
这一次和以往革命不一样的地方在于,已经和体力劳动,脑力劳动(所谓的白领)无关,和技术水平及成本有关。如果符合经济利益,且技术可行,资本会使用技术替代劳动力,就这么简单。
具体到哪些工作,基于现有的技术水平(弱AI),主要就是李开复老师所讲的“五秒钟准则”,简单重复成本容易超过“人机替代点”的工作 : 交易员,翻译,售货员,编写简单格式化新闻的记者,客服(呼叫中心),助理,销售(电销,收银员),会计,初级律师; 司机(货车,公交车,出租车,私家车…),清洁工,保安,工人…
更详细的是: BBC基于剑桥大学研究人员的数据体系分析了365种职业在未来的被淘汰的概率。
目前看比较安全的是需要和人打交道的工作:医生,教师,心理学家,教练,或者是创新性,复杂性的工作:科学家,架构师/总工程师,设计师,文学家,技术管理者。
已经在发生的是,工资越高,越容易先被替代,比如金融行业交易员,咨询行业,初级律师…2019年突然火的RPA,尝试替代所谓的白领(文员,财务,会计,客服,HR)的部分甚至全部重复性工作。
不管是工作被完全替代,部分替代,还是转换为另外一种工作形式,都对人的能力提出更高要求。相对科技和产业的变化,人的改变缓慢得多。对于已工作的成年人也许很难适应,所以下一代的 教育 变得至关重要。教育需要家庭,学校,社会的共同作用,我想任何对AI的影响有所认知的人绝对不会让自己的后代从事 司机 这个工作。
考虑一种极端情况 :从 自动驾驶 开始,因为又便宜,又安全,又环保,所以 20年内,数千万司机(出租车司机,货车司机,火车司机,快递,外卖等等 运送人或物的行业人员) 失业; NLP取得突破,各行业 客服,推销员 逐次失业;自动驾驶的普及导致 传感器价格暴跌,感知,认知技术更成熟, 智能机器人 技术普及。制造业,服务业,逐渐采用 智能机器人,流水线工人,普通服务人员也会失业;
对社会上的个体而言,在一个行业中智能机器的采用意味着增加了更多的劳动力,失业人群在不同的行业迁移,进一步恶化供求关系,无生产资料的个体将面临更多的竞争,在供需失衡下,资本家有更多选择,各行业的就业环境恐怕更加恶化(比如996,,35岁裁员之类的),因此劳动者必然会经历一段黑暗期。 人的机器化与机器的人化恐怕会并行 ,比如3C代工厂的工人。也许当更多的行业中的人们经历这样的黑暗期,大多数人才会觉醒,对资本,阶级的认识会深刻起来,重新认识 马列主义。
培训再就业解决不了问题,先行者们在考虑UBI(Universal Basic Income),不仅是想法,已经有人付诸实施:杨安泽 已经以此作为基础理念竞选2020美国总统。
财富加速流向少数人
机器人有着人类无法比拟的优势:没有情绪,不需要涨工资,不需要休息,可以 7x24x365 工作,可以从事危险工作,知识和技能的更新可以以光速在所有机器人上同时完成;现在技术上的零界点已经达到(在特定场景下图像识别,语音识别准确率已经超过人类),接下来只要成本下降到可以接受的程度,那么替代人将是无可逆转的。
乐施会 : “2014年,全球最富有的1%的人拥有世界48%的财富,2009年这一比例为44%”; “2017年全球所创造的财富总额中,82%都流向了世界人口财富顶层的1%”
按照<<21世纪资本论>>作者托马斯·皮凯蒂研究中国经济时给出的数据,在中国,最富有的10%的人群占全部财产的比重为67%,最富有的1%的人群占全部财产的比重为30%。而最底层50%的人群,只占有全体财产的6.4%。中国的问题在于,短短40年时间,”集四次工业革命于一体”,走过了发达国家200多年的历程,发展太快。而总有少部分人抓住机会,迅速致富,大多数人被裹挟着往前走(尤其是农民农村做出了牺牲,纵向对比是天翻地覆,横向对比,还需要发展),可以说贫富差距是快速发展(效率重于公平,重资本轻劳动)必然的结果。
我国的制度优势在于,能认识到根本问题”党的十九大报告指出,我国社会主要矛盾已经转化为人民日益增长的美好生活需要和不平衡不充分的发展之间的矛盾。”,并有决心和能力“集中力量办大事”。包括”脱贫攻坚战”,“转移支付”,“国企划拨资金充实养老保险”,“全民精英教育(这里的精英教育是指努力将所有学生培养成德智体美劳全面发展的精英的教育,而不是欧美所谓的只为精英阶层服务的教育)”,“全民医疗”…
在 资本的原始积累 上,我国既没有掠夺,也没有战争,靠的是全体人民的勤劳和智慧。
IT技术的马太效应,资本的全球化,加速财富向资本而非劳动聚集。智能时代 只会更加剧烈,劳动不是分配财富多少的问题而是有无的问题。对 资本 而言,可以不再从人类劳动者而是从拥有人类技能的机器获得剩余价值。也就是说因为 生产工具 能自主的创造财富,资本的增殖从 人的劳动 转移到 机器的劳动。当然机器也是劳动者创造出来的,但极端情况下,当机器也能创造机器时,只需极少数的人参与劳动和财富分配。
对整个社会而言,AI + 机器人 能大幅提升生产效率和生活效率,也就意味着创造出更多的财富,但财富的分配以目前的生产关系而言,生产资料(土地,机器,数据)的所有者会获得绝大部分利益。我国社会主义制度的优越性将充分体现出来,以公有制为主体,意味着创造的财富大部分属于全体人民,而非少数资本家。具体来说,个体工商户,农民(我国农民是小资产所有者),受到的影响要远小于私有企业的工人,白领。
人的价值 ?
当机器接管大多数体力及简单的脑力劳动后,人除了接受更专业的教育,似乎别无他法,否则 人 的价值何在? 这个问题太复杂,涉及到社会学,政治经济学,伦理学,法律学等等…
农业时代,人们自给自足;工业时代,必须参与工业大分工才能交换所需的物质;智能时代,人被解放出来,是 “自由而全面的发展” 还是 “娱乐至死”,依赖于 社会,学校,家庭 教育,依赖于 精英们如何看待大众。(媒体,教育,舆论都是可操控的。)
商业化 : 智能机器人+
智能机器人的核心价值就是替代人力,提升生产力,为企业提质降本增效,因此成本是关键决定因素。人力成本越高的工作,替代的越快。
智能机器人本身是资本,技术,人力密集的行业,不管是汽车,还是机械臂,人形机器人。没有商业上的持续的利润回报,技术和产品无法在持续的迭代中改进和成熟。
智能机器人的生产者,有几种参与者:
一种是IT行业巨头或独角兽,采用“降维打击”,提供颠覆式的产品和服务的公司,如:Waymo,Telsa,Uber;
一种是行业巨头为了自己的的需要,自行研发,比如Amazon,富士康(1000机器人),美的(收购kuka),碧桂园(计划5年内在机器人领域投入至少800亿元,主要应用于建筑业、餐饮、物业管理、医疗、农业、智能家居、制造业等领域的机器人等等;
还有一股力量,就是风投助力的初创企业,比如收购Paper,波士顿动力的 软银孙正义(AI将重新定义所有产业, 我们只在一件事上投资了1000亿美元,这件事就是人工智能);
从从业者来说,关键可能有2点: 市场规模,总共蛋糕有多大,上限是多少; 自身实力在产业链的位置,有没有能力分一杯羹,能赚多少钱;
在 工商领域,作为 智能机器人 产品的消费者,资本家在选择使用机器还是人时,在技术可行的条件下,成本是唯一的考虑因素。从某种角度来说,低工资的劳动力其实是阻碍技术进步的。
但任何一项技术的成熟都需要在应用中完善,优化,如果没有需求,技术没有也就没有提升的,成本在规模效应中降低。所以会陷入”鸡生蛋,蛋生鸡“的问题。这也是风险投资和资本市场的作用。
参考中国公司在通信,互联网,智能手机产业崛起的发展路径,都是先从 应用层技术,下游产品 做起,与全球企业在中国市场同台竞争,占领市场,积累资本,人力,产品,管理水平后,开始尝试 基础技术 ,同时带动下游国产供应链的崛起,;在新能源汽车,人工智能,智能机器人领域也许会重复此路径,而且
通用任务
作为一种通用技术,凡是需要人的地方,都有智能机器人的应用之处:替代或增强。但不同 行业 的市场规模,利润率,人力成本,应用新技术的迫切性差别很大。
从功能来说,汽车相当于人类的腿脚,机械臂相当于人类的臂膀,机械手相当于人类的手指;各种传感器相当于人的眼,耳,口,而AI软硬件相当于人的大脑。
按照 国家统计局 2017年国民经济行业分类(GB/T 4754—2017)2018年,城镇非私营单位就业人员平均工资82461元,在国家统计局定义的3大产业,19个行业门类。最低的是农业36466元,住宿和餐饮业48260,交通运输,仓储和邮政业89380,建筑业60501,批发和零售业80551,采矿业81429,制造业72088
中国是全世界唯一具有联合国全部大中小分类的工业国,拥有39个工业大类、191个中类、525个小类,形成了一个举世无双、行业齐全的工业体系。
可以和各行业结合,功能上有类似之处。重复性,智能程度不高,经过简单培训,不需要 专业知识 的 事务性 动手动脑的工作。
自动化机械臂已经替代/增强人类的重复性重体力劳动,洗衣机洗碗机等生活自动化设备已经在普及。
从 智能机器人 的功能应用来看,可分为三大类: Mobility,Manipulation,HRI(Human-robot interaction)
Robot Manipulation
主要是机械臂Robot Arms的智能化。
工业机器臂 : 焊接,喷涂,搬运,打磨
协作机械臂 : 分拣,抓取
智能机械臂/手指 : 装配
3C,服装,等领域需要非常精细的手指操作。Robot Mobility
mobile robots,可以认为是 交通运输 领域的智能化,最大的市场是 载客汽车
从行业上属于 交通运输、仓储和邮政业 : 铁路,道路,水路,航空,装卸搬运,仓储;虽然机器的形态,功能各异,但其根本的功能就是将人或物从一个地点移动到另一个地点。
按 移动 方式可细分为 : wheeled,legged(双足,四足机器人),flight(无人机),swimming(水下机器人,无人船)
从技术角度有共同性,都要解决 : Localization,Mapping,Routing,Perception,Planning, Control的问题。
轮式(Motor Vehicle)细分场景: 私家车,出租车,小货车,叉车,卡车,园区,环卫,矿山…Human-Robot Interaction
智能音箱算不是机器人?
应用领域
机器人世界的大门,要靠智能驾驶来敲开。 与其期待家里的机器人用陪小孩玩的方式进化,还不如期待无人驾驶汽车促进机器人的进化。
— 李开复 AI创业的十个真相
按照 国际机器人联盟(IFR)分类:
工业机器人Industrial Robots : Automotive 汽车, Electronics 电子, Food and Beverages 食品
商用服务机器人Professional Services : 交通运输, Defense and Security 安防, Medical 医疗, Inspection & Maintenance 巡检, 清洁,住宿餐饮…
家用服务机器人Personal Services : 家政,玩具,娱乐,教育,家居 … 目前看市场规模很小,不到100亿美元,主要是扫地机器人
特种机器人 : 航空,军用,Demining 排雷,消防,Underwater水下…
从 落地路径 看,智能机器人的商业化,依赖AI技术的成熟度及人机替代成本。目前DL的应用,要达到高精度的结果,需要在约束的环境下达成,随着研究的进步再拓展到更少约束的场景。因此从机器人感知到环境的复杂性,空间范围的角度来说,可落地的商业化路径为:工业 -> 服务业 -> 家庭 -> AGI
工业 : 要执行的任务目标性强,生产环境较固定,人机交互也有目的性,不会天马行空 : 机械臂,协作机器人,流水线
服务业: 环境会更复杂,但要执行的任务也会较单一,难在与人的交互较多,对智能要求更高 : 餐饮服务员,酒店引导,银行柜员,安保巡视…
家庭 : 家庭的物理环境一般比较固定,也不复杂,但个人用户的要求很高,机器人要完成的任务多样化(洗衣,做饭,看病,按摩,洗水果,买菜等等)
从 市场规模 来看,传统工业机械臂的市场规模是300亿美金,只是算 工业机器人密度 ,还有3-6倍(97/中国 -> 303/日本 -> 631/韩国 )的市场空间。
传统的机械臂,自动化,在汽车领域,再向3C(平板,PC,手机等电子设备组装),消费品(食品,纺织) 产业渗透时,需要解决自主,及精细 手指活动的模拟。
自动驾驶汽车(L4/L5)可以说是市场规模最大,技术难度最高,资本投入最大的智能机器人方向,同时,预期的资本回报也是最高的。 由于门槛很高,所以这里是巨头(传统汽车供应链厂商,科技公司,出行服务公司)的战场。但由于技术的通用性,在自动驾驶领域在技术(软硬件平台统一,算法提升),产品(技术和规模效应导致的硬件成本大幅降低)上的工作会促进整个智能机器人生态的发展。
汽车的市场,不只是 汽车制造(2018年中国汽车制造业规模以上企业主营业务收入80484.6亿元),汽车后市场(2017年8000亿欧元市场规模),还包括 出行(2030年,预估数字出行服务业的市场估值将达2.2万亿美元,将远超今天的智能手机市场,达到其5倍以上),车内广告及娱乐。
从三大产业的角度应用:
农业
无人机播撒农药,无人收割机,插秧机;无人机放牧
无人机Drone/飞行机器人(Aerial Robots) : 大疆,零度,亿航,小米工业
制造业 : 抓取,装配,协作
建筑 : 砌砖机器人,无人机制图监理,机器狗巡视监理
工业智能机器人 : Mujin(2011/日本/B轮600万美元),梅卡曼德(2016.9/北京/A轮亿元),库柏特(2016.5/武汉/B轮1.02亿RMB),阿丘科技(2017/北京/A轮千万美元),XYZ Robotics(2018)服务业
交通运输: 自动驾驶汽车,物流机器人,仓储机器人;知名公司:Waymo,特斯拉,Intel/Mobileye, Baidu,
医疗:手术,康复
零售 : 无人售货机,无人超市
环保:清洁,垃圾分拣
安防:巡视机器人,巡检机器人,搜救机器人
餐饮 : 厨师机器人,无人自助餐厅,酒店服务机器人
教育机器人 :能力风暴,乐高,makeblock,优必选,大疆
医疗机器人(Medical Robotics): 达芬奇
扫地机器人 : irobot,科沃斯,小米
AI,机器人的门槛很高,所以初创企业大部分是博士,教授创建。
平台
智能机器人行业本身有巨大的产业链,作为一种通用技术,同时可以和各行业结合,共性的技术和产品就构成了平台。平台是大公司的战场,尤其是IT公司。
参考 Apollo 架构 https://github.com/ApolloAuto/apollo
机电平台
Mobility : 陆(汽车,卡车…),水(轮船,),空(无人机,客机),Legged Robots
Manipulation : 机械臂,机械手
HRI : 音箱
根据具体行业应用,具体场景设计,现有行业的巨头有优势,但也可能出现新技术新公司弯道超车,比如电动车的特斯拉。硬件平台 Hardware
涉及到真实世界的交互,从安全,稳定的角度来说,需要满足工业级的硬件要求。依赖传感,计算,存储,通信带宽,电池能量 等硬件的发展。
计算芯片 : CPU, Memory,Flash, DSP
AI芯片 : GPU/FPGA/IPU…云端Training,Inference;设备端Inference
传感器 : GPS,IMU,Camera摄像头(单目,双目,RGBD摄像头/TOF,结构光),LiDAR激光雷达,毫米波雷达,超声波雷达Radar
通信模块 : WIFI, BT, 5G Modem, V2X
Waymo/Curse以激光雷达为主,结合摄像头,毫米波 融合; Telsa 纯多个摄像头+毫米波雷达,哪一个了技术方案胜出,还未可知。
主要是中美两国大公司的战场,比如Google,华为软件平台 Software
OS : RT Linux
Runtime : ROS, Apollo
Module : Localization, Mapping, Perception, Planning, Control, HMI…云服务平台 Cloud Service
HD Map, OTA,Simulation,DL Training, Validation and Testing
和智能手机的发展一样,软硬件平台的架构统一是必然趋势 :
硬件上,成本,性能 遵循摩尔定律,计算设备(CPU,GPU,Memory,Flash),传感器(GPS,IMU,Camera,激光雷达),机电设备(汽车,机械臂等)会受益于规模效应,自动驾驶的资本投入和技术研发。
软件上,类似Android平台的生态会建立,通用软件模块,软件平台经过春秋战国的混战后,一两个平台会胜出,从ROS,Apollo可以初见端倪。
无人驾驶汽车 RoboTaxi
从人类出行的角度来说,发展出了各种交通工具,这些工具都需要 人 来驾驶。对应的从机器人的角度来说,就是Mobility无处不在,智能化就是不需要人,而是 机器 自主驾驶。
根据不同的需要,交通工具有有多种类型:
载人 : 火车,地铁,大巴,公交车,出租车,私家车,还有细分场景的园区,机场,景点的摆渡车
载物 : 卡车,快递,物流车
特种 : 采矿,农机,机械,清洁,救护车…
这些又可以按低速/高速,室内/室外,货物类型等等做细分。
细分是因为在现有的AI技术水平下,约束越多的场景越容易商业化,商业化带来的利润进一步推进技术的成熟和推广,形成正循环。当然waymo这种直接走L4的技术雄厚,财大气粗的除外…SAE J3016
不管是激进的直接开发L4,还是保守先从L1开始,都是基于自身资本,技术,资源实力的选择。对于相逢一杯羹的从业者来说,从细分领域开始更理性:农场矿场封闭中速区域;电商物流外卖低速半封闭场景;货车高速封闭场景;室内园区机场低速封闭场景;中高速,城市交通开放场景
技术的成熟和普及,也许需要20年的时间。到那时,除非是作为投资,利用自动驾驶汽车赚钱,否则个人购买自动驾驶汽车没有意义,终极的应用场景应该是基于出行服务商运营RobotTaxi as Service,用户拿个手机叫车”召之即来挥之即去”,其他啥都不关心。
增长停滞
英国汽车调研公司 Jato Dynamic,分析了 2018 年一整年的车市调查数据报吿,针对 54 个市场分析,在 2018 年全球一共销售出了 8600 万辆汽车。然而面对欧洲、中国以及美国市场的停滞,全球汽车销售还是下滑了 0.5%,但是对于电动车来说 2018 年可以算是最好的一年,比起 2017 年的销量,2018 年一共成长了 74%。增长停滞,行业进入存量竞争,裁员降本。
2018年,我国汽车销量出现了28年来的首次负增长,中国也开始进入存量市场/2800万(按人口规模来计算,达到发达国家水平,理论上是4000万-5000万规模),而其他发达国家早已进入存量市场:美/1100万,日/500万,德/350万,法/250万,韩/180万
当前全球主要汽车厂商的员工总数,销售额,净利润,市值: 参考财富500强
公司 | 国家 | 成立时间 | 员工数 | 营收(亿美元) | 净利(亿美元) | 净利率 | 2019.11.14市值(亿美元) |
---|---|---|---|---|---|---|---|
丰田 | 日本 | 1933 | 370870 | 2726.120 | 169.82 | 6.2% | 2950 |
大众 | 德国 | 1938 | 664496 | 2783.415 | 143.22 | 5.1% | 989 |
特斯拉 | 美国 | 2003 | 48817 | 214.613 | -9.761 | -4.5% | 630 |
戴姆勒 | 德国 | 1886 | 298683 | 1975.153 | 85.55 | 4.3% | 627.8 |
福特 | 美国 | 1903 | 199000 | 1603.38 | 36.77 | 2.3% | |
通用 | 美国 | 1892 | 173000 | 1470.49 | 80.14 | 5.4% | 551 |
本田 | 日本 | 1948 | 219722 | 1433.029 | 55.046 | 3.8% | 497 |
上汽 | 中国 | 1984 | 147738 | 1363.925 | 54.438 | 4.0% | 384 |
东风 | 中国 | 1969 | 167528 | 909.342 | 15.997 | 1.8% |
2019-11-14 特斯拉市值一度超戴姆勒 排全球车企第三名
2019-12-28 特斯拉市值触及778亿美元 超过五家老牌车企
特斯拉股价一度升至433美元,市值778亿美元。该市值已经超过了现代汽车(220亿美元)、福特汽车(370亿美元)、通用汽车(520亿美元)、宝马(520亿美元)以及戴姆勒(600亿美元)。但就销量而言,特斯拉在过去的12个月中仅售出了35万辆汽车,而现代和通用汽车在2018年分别卖出460以及300万辆汽车。
2020-02-04 特斯拉继续狂涨,在1.22市值突破1000亿美元后,2.4达到1600亿美元。已经有人高呼汽车产业拐点到来
对比一下IT行业巨头(尤其是互联网),汽车厂商成立时间长,员工多,营收高,利润薄,市值低。
产业变革
在面临负增长的同时,整个行业还面临新一轮科技革命的机遇和挑战,也就是”四化”: 电动化,网联化,智能化,共享化,从更大的视角来看这也是”互联网+”,”智能+”在汽车行业的应用,也是传统行业数字化,网络化,智能化的一个缩影。于是传统汽车厂商一边裁员,一边大笔投资,行业在结构性调整,变革来临,适者生存,公司只能转型,个体只能适应。
传统汽车制造商当然会很焦虑,害怕步功能手机行业的后尘,被IT行业降维打击,沦为富士康一样的代工厂商,Nokia,Motorola的历史不是不可能在汽车行业重演。
在商业模式上,通过持续运营而不是一次性卖车的方式获取利润也许是更加有利可图的方式,因为可以获得“机器奴隶”7x24小时的所有收益,去掉4S店(中间商差价),出租车公司(份子钱),出租车司机(车费)等等中间环节。这样还可以分摊引入IT技术后增加的成本。至少Telsa应该是这么考虑的。
新的机遇,引来新的搅局者。当前已是春秋战国,汽车厂商,IT巨头,初创公司 多方混战,合纵连横。 近几年,自动驾驶已成为汽车领域最火热的风口之一。根据中国电动汽车百人会的统计,2015年到2017年11月,自动驾驶汽车相关领域的投融资事件共193起,金额达1438亿美元,超过通用汽车和特斯拉的市值总和。在2018年,总共有5家自动驾驶企业获得了单轮超亿元美金的融资,而2019年两个月不到的时间里,已经有两家企业获得了单轮超亿元美金的融资。
但资本密集,技术密集,重资产的特性决定了这是巨头的战场,主要格局 : Waymo, Telsa, Uber-丰田-电装;福特-大众-Argo AI,通用-本田-Cruise,Intel-BMW-Delphi,Nvidia-奔驰-博世;一众初创企业
从国家角度来说,”汽车四化”对我国是百年难遇的”战略机遇”,不管是”弯道超车”还是”直道超车”反正就是有超车的机会窗口。不管是出于能源安全,环保原因,流通成本,劳动人口减少等等原因的国家政策扶持;植根于中国巨大的消费者市场;以及电池,通信,电子,互联网产业链的既有优势,新一代汽车产业重现互联网,手机产业的辉煌是高概率事件。产业链中大概率胜出的几家公司:宁德时代;比亚迪,上汽;百度,华为;蔚来,小鹏,威马;地平线;滴滴
2009年,Sebastian Thrun创立的Google X开始一个自动驾驶内部项目Chauffeur,2016年12月该项目团队独立公司Waymo,每年至少花费10亿美元,其估值由700亿美元飙升到1750亿,然后降到1050亿美元。符合技术生命周期曲线。
Tesla 作为汽车行业的颠覆者,集电动,自动驾驶于一体。与Waymo的技术方案不一样的地方在于,在交付给用户的车辆上预装相应的计算设备以及传感器(Autopilot),依靠用户的车收集数据,然后采用迭代的方式更新软件和硬件从L2渐进升级到L4,而不是用靠自己的车收集数据做到L4后才交付用户。 这种模式让Tesla可以获得大量的现实世界的数据,但同时也会带来安全或者说道德上的问题。但实事求是的说,法律才是道德的底线,商业本来就没那么高的道德。拥有更多的数据,以及自主开研发硬件(FSD)和算法(Vision)的能力,Tesla反而可能最快实现RoboTaxi运营,购买Tesla还能分享轮式机器人劳动的剩余价值。这有可能就是 智能机器人 普及后的生产力和生产关系模式。
2015年5月,Uber 把卡耐基梅隆大学 NERC 50 名顶尖机器人专家招致麾下 组建起自动驾驶研发团队 ,便是 Uber ATG(Advanced Technology Group)的雏形。Uber 的目标只有一个,那就是尽快用机器取代 Uber 的 100 多万名专车驾驶员,没有驾驶员的打车业务,营收能高出 70%;现在每月的花费达到了2000万美元;2019年4月,ATG获得来自软银、丰田和电装的10亿美元投资,估值达到 72.5 亿美金;
2016年3月,通用 收购 Cruise,传闻收购的金额超过10亿美元, 2018年5月,软银旗下愿景基金投资Cruise公司22.5亿美元,获取19.6%股份;5个月后 本田汽车 向Cruise投资7.5亿美元,获得该公司5.7%的股权;投后估值到146亿美元
2016年7月,宝马、Intel和 Mobileye 组建自动驾驶联盟,联合研发自动驾驶汽车。2017年3月13日,英特尔以约153亿美元收购Mobileye;2017年5月,联盟引入德尔福,作为系统集成商;
2017年2月12日,福特10亿美金投资Argo AI;2019年7月12日,大众26亿美元入股Argo AI,使估值达到大约70亿美元;
2017年4月19日,百度 发布”Apollo(阿波罗)”计划,向汽车行业及自动驾驶领域的合作伙伴提供软件平台,目标是成为自动驾驶的Android,比Android更加开放、能力更强。
2018年7月11日,英伟达和戴姆勒、博世宣布展开合作,致力于推动L4和L5级的自动驾驶发展,并且实现十年内将L4、L5级自动驾驶车辆推向市场的目标。
2019年5月27日,任正非签发华为组织变动文件,批准成立智能汽车解决方案BU,隶属于ICT管理委员会管理。该文件指出:华为不造车,聚焦ICT技术,成为面向汽车的增量ICT部件供应商,帮助企业造好车。
可以认为华为扮演的就是新四化的Tier角色,竞争对手是博世,大陆,德尔福传统Tier1,以及像Intel,Nvidia这样的IT厂商。
当下,以无人驾驶为核心技术的创业公司已达到 27 家,融资规模超过 80 亿人民币。Roadstar.ai、Minieye、中科慧眼、图森、Momenta、英倍汽车智能、景驰科技、地平线机器人、纵目科技、骥智智能、环宇智行、YINCAA鹰瞰、驭势科技、易航智能、FMC、蔚来汽车 、饮冰科技、云天励飞、禾赛科技、伟景智能、智行者、小鹏汽车、极目智能、清智科技、智驾科技、西井科技、Pony.ai
2019年初投融资:Aurora(5.3亿美元/25亿美元), Nuro(9.4亿美元/27亿美元), 文远知行(数千万美元), 图森未来(0.95亿美元/10亿美元)
个体
上面说到的是行业大势,对于个体而言,不同的角色,面临不同的机会和挑战。
作为 消费者 ,我不关心用什么手段和工具,只要安全,方便,便宜,快捷,舒适的把我运到目的地即可。至于有人说驾驶的乐趣,也许会和骑马一样,成为一种消遣运动。
无人驾驶的好处:具体数据参考
- 安全性高,减少交通事故和人员死亡 新技术可以同时升级
- 出行成本低,不需要支付驾驶员工资,车辆利用率高,规模效应降低成本,大概降低70%
- 个人不再需要购买汽车,也不用学车,不需要再承担各种费用:停车费,保险,保养,油费/电费…
- 更清洁更环保,车辆7x24小时工作,需求和供给更高效对接,减少空驶,对汽车需求量更少,只需30%
- 交通更高效,汽车彼此通信及智能调度,出行分配更合理,减少堵车
- 现在的私家车90%时间都处于闲置状态,占用停车场的土地可以利用起来
- 将驾驶员解放出来,学习,休息,娱乐,思考皆可
- 购买一辆自动驾驶汽车,除了10%的自用,剩余90%时间可以自行相当于购买一个机器奴隶给自己赚钱
但并非一蹴而就,初期的设备成本和开发成本高昂,同时安全性作为最重要的因素,不可能像互联网app那样快速迭代试错。量产车需要4年,10亿美元投入
- 技术和成本
- 法律法规
- 社会接受度
- 失业问题
如果以RobotTaxi的方式运营,出租车司机,公交车司机,4S店销售,路边汽车维修店,保险等相关人员面临失业的风险。
据公安部统计,2018年全国机动车保有量已达3.27亿辆,其中汽车2.4亿辆,小型载客汽车保有量达2.01亿辆,私家车(私人小微型载客汽车)保有量达1.89亿辆,载货汽车保有量达2570万辆;机动车驾驶人达4.09亿人,其中汽车驾驶人3.69亿人。2018年全年全国汽车类零售额接近3.9万亿元 https://d.qianzhan.com/xnews/detail/541/190201-fbbc510c.html
根据统计和估算,2014年底全国出租车从业人员 261万 人,2016年出租车行业市场规模在7170-11321亿元之间。
从 IT行业 的角度来看,汽车只是一种运输用途的IOT终端,如同手机是能打电话的PC一样。其实在汽车的”四化“变革中,除电动化外,其他网联化,智能化,共享化和IT都息息相关,而且生产和运营上的降本增效,正是AI,机器人的价值所在。所以汽车行业的种种变化对IT行业是绝对的利好,从更大的视角来看,这只是IT行业与传统行业融合的趋势中的一例罢了。
但和互联网应用开发有很大不同,自动驾驶更像是嵌入式系统的开发,与华为,小米等手机厂商开发类似,但要求更高。高资本投入(一辆车10万RMB,一个激光雷达10万RMB),高技术密集(需要AI,控制,优化等专业的博士,计算机系统,大数据,云计算,图形学等专家),高开发周期(Google的自动驾驶已经开发了10年)的系统工程。门槛很高,那些创业公司的创始人不是名校博士,就是名企专家。
正因为难度大,周期长,但又有巨大的金钱回报,非巨大的人才,资本,资源投入不可。所以这将是少数巨头的游戏(巨头尚且合纵连横),初创公司要么作为方案供应商,那么被收购。
从 机器人行业 的角度看,自动驾驶汽车 只是载人的高速轮式机器人(Wheeled Robotics) ,当然也是目前最明星的 机器人 应用领域。自动驾驶的商业化会促进 感知,规划,SLAM等算法,机器人操作系统平台,中间件等软件技术的成熟以及AI芯片,传感器等硬件成本的大幅下降。这些技术,产品的扩散会促进其他机器人应用领域的发展,让普通工程师受益。
比如对像我这样的普通工程师,能利用他们创造的技术,在其他领域做些有价值的产品就够了。软件开发上和汽车,出行相关的部分 : 自动驾驶系统,车载应用,手机出行应用。自动驾驶系统显然是更好的选择,涉及到的技术具有共性和持续性,即可以应用到其他领域,也可以叠加进步。
物流机器人 Logistics
RobotTaxi是运人,物流机器人是运物。主要的需要推动者是互联网电商公司,始作俑者是Amazon;有相同需求的还有 互联网外卖,传统快递公司。他们推动 物流机器人 的主要驱动力是“庞大的包裹增量,快递公司面临招不到人,人员流动率大的问题”
主要公司:Amazon Robotics,菜鸟 ET物流实验室(2015年开始,已有数百人规模),京东 X事业部,美团,Geek+(2015/北京/B轮1.5亿美元),快仓,海康机器人等
物流机器人涉及环节较多,按照场景分为高速干线,城市支线,社区配送,室内仓储:
高速无人驾驶卡车
卡车,又称作载货汽车,一般称作货车,指主要用于运送货物的汽车,有时也指可以牵引其他车辆的汽车,属于商用车辆类别。主要指物流的干线运输。
参考 中国卡车司机调查报告:2016年,我国的公路货运卡车已达1500万辆,卡车司机达到3000万人(美国350万人),年平均收入为7.8万元,受教育程度为“初中”的占58.1%,受教育程度为“高中”及“职高或技校”的占34.5%(“高中”占25.2%、“职高或技校”占9.3%), 农村户口占82%,城镇户口占18%。
在中国,开卡车并非一个让人乐意干的工作,中国卡车司机调查报告:96%的卡车司机不愿意让孩子再开卡车,调查显示:风险高、成本高和收入不稳定等因素,是促使卡车司机打算放弃继续从事这一职业的主要原因。卡车司机如果拥有卡车资产,可以通过加入自动驾驶运营公司,将现有卡车进行改造或者置换,获取分红收益来得到收入保障。
相比 乘用车 ,无人驾驶卡车的场景更简单,成本会更快商用。技术有相似性,所以 无人驾驶汽车 的大公司很容易转移过来,比如Waymo,Telsa等…2015年后也陆续新创企业。城市无人驾驶货车
与 无人驾驶汽车 面对的场景类似。物流的支线运输。配送机器人
类似园区,社区,低速,短距离的场景。也就是所谓的”最后一公里”。
一个是电商产品的配送,一个是餐饮的配送(美团,饿了么),配送物品不同,所以设计外观上会有差异,但从 机器人 角度,是相似的 : 低速末端自动驾驶送货。
全国快递员人数超300万,月薪约6200元,快递员特征: ■来源 大多来自农村 ■年龄 80后是主力 ■性别 男士占绝大部分,女士有所增加 ■学历 以大专、高中、技校生为主。
外卖骑手人数大概在400万,其中美团270万,月薪4000-6000仓储
仓储场景下,可细分为入库、存储、拣货、打包、复核、发货等工序,主要应用 搬运机器人,码垛机器人,分拣机器人。仓储这种室内场景的机器人应用对 餐饮,酒店 也适用。
2012年3月,亚马逊以7.75亿美元收购了机器人公司Kiva Systems引领了 仓储机器人 的兴起,但基于磁条或二维码的AGV。AGV可以认为是有轨电车,还是一种自动化设备,按照一个固定的轨道,或者固定的线路来走。AMR(Automatic Mobile Robot)是将包括自主感知、自主规划、自主控制、自主决策在内的人工智能、自动驾驶技术应用到了无人配送车上,AMR是一个自动驾驶技术应用产品。
AMR的应用在国外正在高速增长中,在国内也有Geek+, Syrius炬星
个人认为 电商仓储环境 是最理想的 智能机器人 落地场景:
- 室内场景,意味着场景可控,DL能落地;不需要高速,安全有保障
- 需求急迫,可采用租赁方式应对不同时间的销售峰值
- Manipulation,Mobolity,HRI 功能都可以应用,迭代
工业机器人 Robot Arm
工业机器人,主要是指机械臂(robot Arm),是一种电气化自动化机械装置,主要用于 工业 领域。根据 2017年国民经济行业分类-国家标准GBT4754—2017,工业包括采矿业,制造业,水电热燃,建筑业。
传统工业机器人是个小众市场 : 根据IRF的数据,2018年全球工业机器人市场规模为165亿美元,销量42.2万台;中国的销量是15.4万台,销售额54亿美元。全球存量工业机器人数量是300万台,平均下来,一台机械臂售价是3.5万美元,约24万RMB.
在中国,2018年,受到汽车,手机增长为负的情况下,工业机械臂销量首次负增长,但中国正在进入一个智能+的时代,机器人恰恰是智能+的巨大平台,而且中国的工业机器人密度只有万分之97,离日本的万分之303,韩国的万分之631还有3-6倍的发展空间。
核心零部件 : 服电机、控制器、减速器,占总成本60%-70%; 但零部件需要组装成本体,还要根据具体行业,场景需求做系统集成,开发相应的软件和调试整合。
主要功能 :焊接、喷涂、装配、搬运
主要应用行业: 汽车,3C电子,食品; 2016年我国3C产品销售总额达到9.8万亿,但自动化程度低,3C行业目前机器人密度仅为 11,而日韩则超过 1200,100倍的成长空间。
ABB(瑞士), 库卡(德国,2017年被美的以37亿欧元收购),发那科(Fanuc, 日本),安川电机(YASKAWA,日本),并称为工业机器人行业的”四大家族“,工业机器人是全球化市场,这些公司占据中国工业机器人行业70%以上的市场份额。这些公司并非只生产机械臂。
发那科 : 2017财年营收为7266亿日元(约合443亿人民币,65亿美元),净利润1820亿日元(约合111亿人民币,16亿美元),净利润率达25.0%,员工6700人,平均年龄42岁,平均年收入约80万人民币,2017年1231市值约497亿美元。
安川电机 : 2017财年的营收为4645亿日元,净利润417亿日元,净利润约为9.0%,员工16000人,2019年12月市值102亿美元。
日本在精密机械,新材料领域的确具有很大的优势,还有川崎,那智不二越,电装,Nebtesco(纳博特斯克)等等产业链公司,最值得关注是 基恩士,2017财年营收为5268亿日元(约合316亿人民币),净利润2106亿日元(约合130亿人民币),净利润率达到40%,员工(全球)约5600人,平均年龄36岁,平均年薪1861万日元,约110万人民币,2017年12月29市值681亿美元。
但这些所谓的工业机器”人”,称为自动化机器更合适,没有任何人的智能,只是根据预先设定的程序重复执行。工业机器人强调的是精度,速度,可靠性,寿命。
与面向2C的PC,手机,汽车等业务不同,2B要面对的业务可能千差万别,不只是行业间的差别,同一行业内不同公司的需求也可能不同,因此在规模化,标准化与需求多样化之间要做到平衡,软件化,智能化可能是解决之道。
和汽车领域一样,工业机器人领域因为AI有了新的变化:
在 成本 上,工业机器人产业链的各个领域,国产化都在进行中,10年前机械臂的均价50万RMB,现在20万RMB,未来有望降到5万左右。国产化公司,本体: 拓斯达、埃斯顿、爱仕达、机器人等;RV减速机:双环传动、中大力德、昊志机电等;还有知名的非上市公司,值得关注,包括埃夫特机器人和南通振康等。
在 技术 上,一是创新出 协作机器人 Universal Robots,可以满足新的需求;二是与AI技术结合,对工业机器人本身降本增效;同时这两者都极大扩大了机械臂的应用领域,将机械臂的使用从 制造业(汽车,3C) 向 服务业(仓储,零售,餐饮…),农业(水果采摘,) 扩展。
工业机器人应用AI/DL的特点:场景相对可控、对体积和功耗不敏感、时间要求低、价格承受力高,同时精度要求高,稳定高,安全性要求高
机械臂是比较成熟的领域,机械手这种精细度很高的应用还不普及。比如3C的装配,依然是人工。
商业服务
场景比较结构化,但功能更复杂,而且要与人交互。
建议关注:康力优蓝(康力电梯)、科沃斯机器人(拟上市)、大疆无人机、优必选机器人、云迹机器人和天智航(新三板)等。
清洁环保
属于脏乱差的工作环境,包括街道清扫,垃圾分拣。
高仙机器人/2013/上海/B轮1亿RMB安防巡检
替代保安,巡检员的工作。应用场景 : 小区,园区,电力,电信,石油管道等。餐饮酒店
服务员,厨师,清洁,送餐 等工作
盒马,京东布局机器人餐厅;海底捞;碧桂园 计划2年内全国开设突破1000家
初创公司 : 普渡/2016/深圳/A轮5000万RMB,云迹科技/2014/北京/B轮,擎朗科技/2010/上海/A轮数千万RMB零售
售货,收银,无人超市,刷脸自动售卖机商业服务
软银Pepper,优必选Cruzr,科大讯飞 小曼, 20W人民币左右,主要用于银行,地产,医院,商场等的导览,迎宾医疗
手术机器人,康复机器人,药品配送
Intuition Suigical的达芬奇手术机器人具有垄断地位。市场规模,预计全球医疗机器人在2020年达到 179 亿美元
家用机器人
教育
主要是以 STEM 编程教育为目的:乐高 EV3,大疆 S1,优必选 Jimus家务
扫地 : iRobot,科沃斯, 小米
通用机器人
阻碍普及的两大问题: 昂贵的价格 和 智能技术水平不足。除了资本,技术创新的助力,还需要时间。
- 价格昂贵
广义的理解,智能机器人就是对传统的机器赋予数字化,网络化,智能化能力,会增加硬件和软件成本 :
机电设备 : 汽车,机械臂
数字化+ : 计算设备(工业计算机)
网络化+ : 通信设备(5G, V2X)
智能化+ : AI计算设备(GPU, FPGA…),传感器(激光雷达,GPS)
当前,一台机械臂硬件成本平均3万美元(20万人民币),一辆自动驾驶汽车成本在7-15万美元(汽车,计算平台,激光雷达等硬件),而类似PR2这样的个人机器人成本达40万美元,取得DARPA Robotics Challenge冠军的DRC-HUBO造价在50万到100万美元之间。这些还没算上软件开发的成本,好在软件的特点是边际成本几乎为0。
高昂的硬件成本是问题,同时也是机会,降本增效可以从智能机器人本身开始。比如:Berkeley设计制造了5000美元的更适合Robot Learning研究的机械臂BLUE;Google将激光雷达成本降低90%,以及固态激光雷达的研发。在技术创新,摩尔定律,规模效应的作用下硬件成本大幅下降是必然的。
同时,新的商业模式,可能会加速普及过程。以自动驾驶为例,对个人来说,需要的是安全廉价的从A点移动到B的出行服务,而不是养着一辆汽车。对汽车厂商而言,商业模式由一次性卖车赚钱转变为永久赚钱的出行服务商(Robot As A Service),反而会从”机器奴隶”上获得最多的利益回报。RAAS的理念对智能机器人在其他领域的应用也有借鉴意义。
总之,其他所有智能机器人应用领域都会从 自动驾驶 的技术,产品,商业模式上受益,从而推动智能机器人在各行各业的普及。
- 智能水平不足
深度学习技术已经在特定场景单一任务上取得了超越人类专家的水平。当前的研究重点在:少样本学习,深度学习可解释性,多模态感知,多任务模型,认知能力
仰望星空,不同视角
最难进行自动化,且如今的计算机性能仍然无法满足的任务,是去完成那些在人们看来最自然不过的事情,比如看,听和用常识进行推理。根据在计算机视觉研究过程中的经验,我想我已经清楚造成这种困难的一大原因。其实很简单,我们现在用来研究的机器,比人类自身实现类似功能的神经系统的性能仍然慢上百万倍。
1975年 Stanford AIL The Role of Raw Power in Intelligence
莫拉维克 悖论 : 对人来说困难的事情对机器很简单,反之,对人很简单的对机器很难。天下难事,必作于易;天下大事,必作于细。
— 老子 <<道德经>>
参考资料:
- Apollo Architecture
- <<第一本自动驾驶技术书>>
- A Roadmap for US Robotics : From Internet to Robotics
- Stanford AI 相关课程
- CMU RI 机器人相关课程
- 粤港机器人学院——新工科教育创新人才培养探索 李泽湘
从高层视角:
- 从 技术 角度,就是三个大方向 : 感知Perception,认知Cogniton,行动Action。
- 从 商业 角度,无人驾驶仅仅在汽车制造和出行就是万亿美元规模,各个行业都有相应的机会
- 从 影响力 角度,这一波科技革命的影响比前三次工业革命更大,AI+机器人的成熟和普及将影响到整个人类社会的各个方面。
看到了大势,作为普通的个人如何参与这个“前所未有的科技时代浪潮”。 不外乎金钱,时间,精力。 如果要获得超额回报,除了投钱,从个人已有的经验和知识切入到行业中,是最佳选择。
但”细节中罪恶丛生”,从细节来看:
- 从商业历史来看,”一将功成万骨枯”,最后成功的是极少数公司,极少数人。但与2C的互联网,智能手机行业不同,智能机器人能2B,也能2C,应用领域及产业链深广得多。
- AI和机器人的技术,资本门槛很高,对工程师的要求很高。
- 智能机器人 只是各行业业务的一环,并不是全部。
- 智能机器人还处于早期,技术,成本,需求,场景还在摸索试错,处于核心的AI技术有巨大的不确定性。
参考之前的经验,个人的选择原则 :
- 有所取舍
个人的力量非常有限,而且机会太多,要 得 必先 舍,结合兴趣,专注做减法。技术上既要追根溯源,也不唯技术论,找一个切入点,先广再深后博 - 志同道合
要成功,必须依靠团队的力量。关键是找到志同道合的团队,具体做什么产品倒是没有那么重要。从 商业 角度来说,市场规模是 上限,团队能力是 下限,产品的持续盈利才能进入正循环,规模化企业才能做大,个人才能成长并分享利益。 - 选择大于努力
大的科技发展趋势方向选择对了,但具体的技术子方向,公司,团队没选对也是枉然。在个人的技能,以往履历,城市环境,家庭因素等等影响下,其实选择并不多,尽人事听天命。 - 以终为始
在历史的进程中,当预见到一件影响深远的事将会发生,作为个人能参与其中就足够了。如果相信AI+机器人在人类生产和生活的全面应用是必然的,那么,除了极少数天才在科研领域继续探索外,绝大多数人在现有意义上的工作方面可能都是“无用”的。但人并不是一定要工作的。在生产力极为发达后,人们反而可以获得“自由而全面的发展”。我们有足够的时间陪伴,教育,学习,运动,娱乐,旅行,探索…
高层概念
智能机器人是一个非常复杂的系统工程,涉及到不同专业学科,不同产业链。而且从技术,产品,平台,标准等等方面来说,智能机器人目前尚处于产业早期,并未完全清晰,明确,一切还在定义中。对个人来说,需要找到切入点,Perception是其入口,也是最重要的功能之一。
Tencent Robotics X的张正友博士,将智能机器人分为 6个组成部分 :本体(腿,手臂,手), 感知(理解环境),执行器(实现本体运动),动力系统(提供运动动力),交互(语音,手势,显示等),决策(识别,规划,学习)
根据 CMU 的课程,智能机器人的 四大 核心领域: Perception(感知,3D Reconstruction, 3D Scene Understanding),Cognition(认知,Decision,Planning,Learning),Action(执行,Manipulation,Mobility, HRI), Math。
自动驾驶的核心技术:定位,感知,规划/决策,控制/执行
定位是规划和控制的前提。 定位主要作用是确定车辆所处的绝对位置;感知的作用是收集和解析周围环境的信息;规划基于对当前位置和周围环境的理解,做出实时的安全有效的执行计划;执行是按照决策的计划控制车辆
AI是一种通用技术,可以应用到各行各业; 机器人 也是一种通用技术,也可以应用到各行各业;两者结合后,几乎可以应用到生产和生活的所有领域。不同行业,不同场景,在技术和产品层面有差异也有共性。
学科专业
Robotics是一门交叉性很强的学科,融合了EE,ME,CS三个领域的课程。 概括来讲,开设在EE下面的机器人方向偏重控制芯片的设计和集成,电路的设计;开设在ME下的偏重机械结构设计或控制算法设计;开设在CS下的相对灵活,可以是machine learning,可以是computer vision,也可以是机器人的软件系统设计,或者在特殊的robotic system上面做一些软件搭建。
从 学科,专业 的角度,智能机器人 是一个多学科交叉应用的领域,包括ME机械,EE电气,CS,以及材料科学,能源科学,认知科学,神经科学等…
ME : 结构设计,运动学,动力学分析,控制,优化
EE : 电路,电气,芯片,传感器,嵌入式
CS : System(OS, Networking), AI(Machine Learning,Computer Vision, NLP, Robotics),Computer Graphics(Simulation),HCI/HRI
CV的子领域 : 2D Vision(Object Recognition and Detection,Scene Understanding, Human Behaviour Understanding);3D Vision(3D Reconstruction,3D Pose Estimation, 3D Detection, 3D Scene Understanding), Matching and Alignment, Tracking, Video analysis, Visual SLAM
作为一种技术,要成为产品或solution,要改变现实世界,需要和行业结合起来。ME, EE, CS, 材料,电池 构筑庞大的产业链,同时不同应用领域的进步可以互相促进,协同进化。
产业链
智能机器人涉及到人工智能,机器人,通信,多个产业链的整合:机器人硬件平台 + AI硬件平台 + 通信硬件平台 + AI/机器人/通信 软件平台 + 行业应用
以RoboTaxi为例:相当于 汽车产业链 + 手机产业链 + AI产业链 + 出行服务
自从苹果的硬件,软件,服务于一体的商业模式成功后,有野心的公司都在布局 智能机器人 平台,可以说进入”春秋战国”时期,仿佛又回到 智能手机 崛起的初期:
高通 RB3
高通在2019年2月26日推出首款专为机器人打造的RB3平台,支持ROS和LinuxNvidia Isaas
GTC CHINA 2019宣布全新的Isaac SDK,提供感知,仿真,操控功能Baidu Apollo
百度的Apollo定位明确,就是自动驾驶领域的Android
我的判断是芯片公司的主要思维还是卖硬件,所以他们的平台只是锦上添花而已,必然不会投入多少资源,未来真正起主导作用的还是软件/互联网公司,目前看是Baidu。
如果以IT发展的视角来看,智能机器人的发展路径必然也是和PC,手机的路径类似 : 硬件的标准化,软件的平台化。硬件的发展,会受益于摩尔定律和规模效应;软件的平台化,促使技术扩散,会促进应用层软件的爆发。
智能机器人不一样的地方在于,早期要和行业结合起来,更多的是做2B的业务。更特别的是AI + 机器人技术的社会属性,除了增强人类能力,还能替代部分人的简单重复的工作。虽然也会创造要求更高的相关的工作,但显然前者的人数远高于后者。
目标任务
从机器人要完成的 任务/task 划分:
- Mobility(移动)
典型的例子是 无人驾驶出租车
从Mobility的目的来看:载人,载物,清洁,救援,监控,操控等等
子任务 : Driving,Flight,Swimming
Driving 从硬件机制来看可分为: 轮式/wheeled,履带/,腿式/Legged
单从 Driving 的应用场景 : 室外 : 高速货车,城市Taxi,园区/学校/商场/机场 慢速载人运货;室内 : 仓储运输,楼宇住宅扫地清洁,
功能模块 细分 : Location,Mapping,Perception,Planning(Path Planning,Motion Planning),Control/线控
Mobolity in the real world is enabled by perception, planning, and new mobolity implementations(quadrotors, legged machines, swimming robots).
Manipulation(操控)
传统 机械臂 任务 : 喷涂,搬运,
更为精细的 机械手 尚未商用
子任务 : Grasping, Pushing, Assemebly
功能细分 : Perception,Planning(Grasping Planning, Motion Planning),Control/机械臂,机械手HRI(人机器人交互)
子任务 : 对话交流,协同工作,
能听懂人的话,能和人交流,反馈
语音 : Speech Recognition,TTS,NLP
视觉 : 人脸识别,手势识别,表情识别,人体识别,行为识别
功能细分 : PerceptionLearning(自主学习)
感知可以通过学习,决策也可以通过学习获得,这样end-to-end的学习,而不是通过重新编程来适应新的场景,新的任务。
Software Architecture
AI机器人是一个复杂系统工程,根据不同的应用场景,但可以抽象出一些公用的模块。
本地系统硬件平台 : 计算设备,传感器,通信设备,控制器,机械电气设备
硬件就要涉及到设计,生产,供应链,物流等实物管理环节。
Application : 农业:播种,收割,采摘机器人,喷药测量无人机;工业/机械臂,协作机器人,采矿无人车,建筑机器人;服务业 : 运输/无人驾驶汽车,卡车,物流机器人,餐饮机器人…
Robot Tasks : Mobility, Manipulation, HRI, Learning
Robot Module : Perception, Planning, Control, Localization, Mapping, Simulation
Framework : Runtime
Software Platform : RTOS, Driver, HAL
Hardware Platform : CPU,GPU,Memory,Flash;LiDAR,Camera,GPS,IMU;Display/Sensors/…
Machine Platform : Vehicle, Robot Arm, Humanoid …
System系统
完整的可部署的生态系统,类似Android在手机一样,包括OS, HAL, Framework,Appplication 以及 IDE, 云端服务等
目前广泛使用的ROS,严格的说是一个分布式通信框架,只是其中一个中间框架层;Baidu的 Apollo 系统更符合这个定义。
构建起完整的产业链,包括技术的分工,迭代,供应链管理,法律法规,市场营销等等Perception感知
利用视觉,听觉,触觉传感器像人类一样理解真实世界的场景,以人类可理解的形式描述出来。感知是所有任务的第一步。Sensing and perception are of central importance to all aspects of robotics, including mobility, manipulation, and human-robot interaction.
以 自动驾驶 为例,在 感知 上,识别定位 车辆,行人,车道线,交通标志,红绿灯等
以 机器人分拣 为例,需要检测物体的3D,估计物体6D姿态,为机械臂抓取规划提供输入信息。
用于人机交互 : 手势识别,情绪识别,姿态识别,
Today perception is focused on recovering geometry, object recognition, and semantic scene understanding. We need to develop algorithms that go beyond recognition and geometry to task relevant characteristics of entities such as objects (rigid and deformable), piles, environments, or people. Such characteristics include material properties, object affordances, human activities, interaction between people and objects, physical constraints of the environments. These are all necessary precursors for the development of advanced robot capabilities.Localization定位
确定机器人自己的位置,可通过GPS/IMU,激光雷达,Camera SFM来估计姿态,单一技术都有优缺点,需采用Kalman Filter,Particle Filter 对不同信息融合,推算更精确到位置信息。Mapping建图
预先生成 高精度地图, 包括原始数据,点云生成,点云对齐,2D Reflectance Map,高精地图(HD Map)标注,地图生成等过程。Decision决策/Planning规划/Navigation导航/Learning
传统的基于Rule的决策系统,以及最近还在研究中的基于 DRL 的 Robot LearningControl控制
不同应用需要控制的机电设备不同。自动驾驶基于CAN总线通过 线控 方式控制底盘 加速,刹车,倒车,左右转向 等,传统汽车/Tier1厂商有绝对话语权; 机械臂,则大厂商私有协议…ModBus/Tcp, UR Ethernet/IP, IOCommunication通信
5G, BT, V2XSimulation仿真
使用基于物理的真实世界模拟,因为实物测试的成本非常高(人形机器人,机械臂,汽车都动辄几十万,加激光雷达甚至上百万)且迭代周期异常漫长(搭建系统,维修花费时间长),因此先仿真全面测试后再应用到实际设备是降低开发成本提升开发效率的必然手段。在虚拟3D环境的算法 迁移 到现实世界。Cloud Computing云计算
云端训练,数据收集,OTA,分布式模拟Learning学习
Online Learning, Deep Reinforcement Learning, Imitation learning, Meta-Learning
终极场景
想象未来家庭机器人的一个生活场景:一家三口人围坐着看电视,妈妈说“小A,帮我拿个大点的苹果”,机器人小A拿到苹果后递到妈妈的手里。 如此简单的场景,从技术角度来说,却是非常复杂的。我们从机器人小A的角度来逐一分解任务:
- 小A要有语音识别(Speech Recognition,Person Recognition)能力,知道是谁在说话,也知道是在和自己说话而不是机器人小Z
- 小A要有自然语言理解(NLP,Nature Laguage Processing)能力,知道这个人说的话是什么意思,并能将之分解为多个任务
- 小A要有与其他设备交互(IOT,5G)能力,知道其他设备有什么及它们的位置,要能推理出苹果在冰箱
- 小A要有移动(Robot Mobility)的能力,能规划(Path planning, Motion Planning),避障,导航(Navigation, SLAM)到苹果所在冰箱
- 小A要有物体检测(Object Detection)和定位(Object Location)以及操作能力(Robot Manipulation),可以精确定位冰箱的手柄位置,打开冰箱,检测到苹果而不是梨子,定位苹果在冰箱的位置
- 小A要有灵活的双手(Robot Grasping),能够像人手一样稳稳抓住而不是捏碎苹果
- 小A要有人的识别能力(Face Recognition,Person Search),能找到要交互的对象
- 小A要有与人物理交互的能力(HRI),定位到目标后,计算目标与自己的合适距离,将苹果精确递到对方手上
- 小A要有安全感知能力,能接近人的同时,绝对不能伤害到人
- 小A要有语音合成能力(TTS,),告知目标,任务已经完成,还需要做什么
- 小A要有自主学习(Increa Learning),持续学习(Meta Learning)多任务的能力,不只会拿苹果,还会炒菜做饭,扫地,按摩,辅导作业,医疗诊断,知识解答…达到人类水平的各种全能专业全才。但他不会有意识,也不会有感情,不会创新,只是拥有人类已有知识和技能的机器。
上面的场景可以算是智能机器人的一种终极应用。集计算机,通信,互联网,机器人等各学科的多种技术的集大成者。
脚踏实地,厚积薄发
纸上得来终觉浅,绝知此事要躬行。
— 陆游 <<冬夜读书示子聿>>合抱之木,生于毫末;九层之台,起于垒土;千里之行,始于足下。
— 老子 <<道德经>>
前面都只是从高层的视野,影响力,商业价值等角度的思考,作为一个 软件工程师 ,要真正深入其中,必须要扎进技术细节中。到实践中去方能理解更为深刻,否则就会流于空谈。
技术上来说,当前正处于科研,工程并行的阶段,考虑到技术的限制以及不确定性,商业上的成功,可持续的资金投入或利润回报,团队才能维持下去,才能推动技术和产品的积累和发展,所以在现有 弱AI 的技术条件下,盈利很重要。对 工程师来说,除了做项目,做产品,写代码(Coding),还需要与时俱进,跟踪阅读(Reading)最新的论文,算法代码,一边还要补齐基础知识。
术业有专攻。从专业来讲,机械,电子,机器人学有各自的专业知识,我只能从CS去切入。同时细分领域,可应用的行业也很多。 如李飞飞在IROS 2017所说,”CV是机器人的杀手级应用” 。 我选择以 Perception 作为切入点,以 Computer Vision 作为专业方向,聚焦在 Robot Vision 这个子方向,行业方向看团队。
目前CV以 深度学习 作为关键技术,但作为产品或方案,需要考虑更多工程领域工作。当一个需求出现,要做什么工作:问题定义,数据采集,benchmark测试,系统化自动化,edge case迭代,项目管理,模型调优,流程集成,设备优化等等,关键有几点:
- CV目前并未达到通用智能,一个是客户预期的管理,一个就是 任务的定义,尤其是场景定义,清晰的定义和边界至为重要
- 将 现实问题域 转换为 CV技术域,对各个子技术方向需要有所了解,包括约束条件,SOTA算法的精度和速度等
- 数据集 的收集,标注工具的开发,benchmark的定义等
- 框架,算法,训练/inference 的选型和验证,模型的优化与更新
- 应用场景对算力的约束,也涉及到成本,硬件方案的选择,间接影响到算法的选择
Foundations
数学,编程,CV, ML,Robotics 基础知识
Prerequisites
学习以下专业知识之前,需要一些必要的基础知识和编程技能 : 具体参见Stanford的课程。
数学 : 微积分/MATH41, 线性代数/MATH51,概率/CS109
计算机科学 : 计算机体系结构/CS107,计算机系统/CS110,算法/CS161,C++编程/CS106X
除此外,在编程方面,重点加强:
Python
Stanford大学中AI相关的课程都要求使用Python作为编程语言;基本上AI/DL相关的库和框架选择Python作为主要开发语言(底层是C++),比如OpenCV,TensorFlow,PyTorch,OpenAI Gym等等;
numpy, scipy, pandas, MatplotlibLinux开发环境
Cmake,Git, Linux Device Driver, Linux Kernel, gdb…通用代码库
STL, BOOST, ROS,OpenCV, PCL, QT..
根据需要精通,熟悉,了解
Computer Vision
入门,熟悉基本概念,算法及常用开发库
Stanford CS131 - Computer Vision: Foundations and Applications 阅读笔记
OpenCV
OpenCV提供了C++实现的Python封装API,可以快速开发原型,如果要深入,还是要掌握C++,阅读其源代码。参考书籍 Learning OpenCV 3: Computer Vision in C++ with the OpenCV Library
Machine Learning
- Stanford CS221 - Artificial Intelligence: Principles and Techniques
- Stanford CS229 - Machine Learning
Robotics
- Stanford CS223A - Introduction to Robotics
主要内容关于动力学,运动学
Robot System
感知,规划,定位 都是作为子模块而存在,机器人作为一个嵌入式系统,需要整合硬件,操作系统,核心框架,应用一整套的完整方案的产品,才有商业价值。现在的状况类似在Android系统取得绝对地位前的智能手机行业,各大芯片/设备厂商自成一套,不同的Linux Kernel,toolchain,Runtime,Framework…
机器人可以应用到不同行业,不同业务,但基础的软硬件具有共性,技术上如果建立起类似Android手机一样的生态系统,将各个模块抽象,整合为一个可以直接部署的完整系统,而不是片段化的部分代码,将极大提升开发效率,促进生态系统的良性正向循环。百度的Apollo定位为Autonomous Vehicles的Android,是个很好的开始,但自动驾驶汽车只是智能机器人的一种,相比而言ROS的生态更丰富。但相比松散的公共组织,商业巨头领导和支持的生态会发展更快更好。
ROS
ROS并非操作系统,可以理解为分布式通信框架,同时因为ROS的一些限制,ROS2计划是2017年12月发布1.0版本,但由于缺乏强力有的领导者,我不太看好他的发展。但ROS已经建立的一些生态,代码库,人才等等是可以复用的。
At the core of ROS is an anonymous publish-subscribe middleware system that is built almost entirely from scratch. Starting in 2007, we built our own systems for discovery, message definition, serialization, and transport. Using open source libraries : Zeroconf, ProtocolBuffer, ZeroMQ, Redis, WebSockets, DDSApollo
3.5之前基于ROS v1的改进,3.5后改用Cyber替代ROS深入理解和实践: TBD
Robot Perception
Sensing and perception are of central importance to all aspects of robotics, including mobility, manipulation, and human-robot interaction.
— From Internet to Robotics
现实世界是三维的,所以机器人要与现实世界交互,必然 建模,理解 3D 世界。深度学习最先是在2D RGB Image的基础上取得了成功,所以对2D vision的学习是基础。
感知只是第一步,为了完成任务,还需要决策,驱动机电执行。相比Manipulation,Mobility明显更热,商业来说,自动驾驶有巨大的市场价值,Manipulation是学术研究的热点。但最终会合二为一。
2D Vision
在Image Classification任务取得了超过人类专家的精度之后,深度学习已然成了计算机视觉研究和工程的标配。
计算机视觉的research从1966年MIT的一个项目开始,这期间一直是在学术界研究,工业界应用不多,因为精度还无法达到工业应用的要求。直到2012年Deep Learning的横空出世,基于CNN的AlexNet在2012年的 ImageNet Large Scale Visual Recognition Challenge (ILSVRC)表现出众,以比第二名高11%的85%的识别精度胜出。按照吴军博士在<<智能时代>>里的说法,“在机器翻译,语音识别和图像识别等领域,依靠技术进步大约每年可以改进0.5%左右”,所以11%的提升是数量级的革新了。此后所有的参赛队伍的算法都采用DL,到2015年ResNet错误率达到3.5%,已经低于人类专家的5%,然后到2016年的AlphaGo战胜李世石,AI成为人人皆知的显学。
但总有人先行一步。证明了CV是可以达到工业”基本可用”要求后,各领域有雄心的博士/教授们在嗅觉最灵敏的风投的助推下,在2014年前后成立了大量的CV创业公司,最知名的是”CV四小龙“:旷视/2011,依图/2012,商汤/2014,云从/2015,他们的主要应用领域都在 安防,金融,手机。时移世易,此一时彼一时,2011年前机器视觉&人工智能的博士生都找不到工业界的工作机会,现在他们炙手可热,应届博士平均年薪50-60万RMB,高的甚至200万。
值得一提的是华人在CV/AI领域是首屈一指的:李飞飞, Andrew Ng, 贾扬清(caffe), 李沐(Mxnet), 孙剑,何凯明(ResNet, Faster R-CNN…)… 在巨大的财富,机遇浪潮面前,学术界的教授博士涌入工业界: 工业界有数据,有算力,这两点是DL有效的关键。
Stanford的课程设计真的是具有前瞻性,而且与时俱进,这是2018 - 2019年度新增的课程。当然课程总体还是滞后于论文,同时也是对当前最新研究的总结和趋势的预判,课程有的讲的是基本知识原理,有的是探索未来方向,产业界关心的更多是具体任务。
Stanford CS231N - Convolutional Neural Networks for Visual Recognition 阅读笔记
Stanford CS205L - Continuous Mathematical Methods with an Emphasis on Machine Learning
Reading
技术并未成熟,尚处于科研和工程并行的阶段,所以要与时俱进 : 读论文,读代码,深入掌握一些通用代码库,框架。
主要关注2D Image的Image Classification, Object Detection, Semantic Segmentation任务的SOTA算法,数据集,度量方法等相关论文。
深入阅读和理解一些通用的库(OpenCV),框架(PyTorch, Detectron)的代码。Coding
和任何新技术的早期一样,各种框架,库,百花齐放,而且都是开源的 : tensorflow(Google), pytorch(Facebook), mxnet(Amzaon),cntk(Microsoft), PaddlePaddle(Baidu)等等,框架只是工具,按需选择即可。 “工欲善其事必先利其器”,对这些工具的理解和熟练应用可以更好的完成工作,待能力足够时甚至参与其中。
有机会做了些DL/CV 相关的项目。
HRI
人类社会主要是人组成,机器人要融入人类社会,需要研究人的外观,行为 :人脸识别(可以说已经完全商业化),行人检测,人体姿态估算,行为识别等,而且在安防(人脸识别,视频行为分析,行人重识别),交通(行人检测),金融(人脸识别) 等领域已经成功商业化。
在现有的智能水平下,还需要和人协作;在情感交流,医疗辅助等也需要和人交互。 语音和视觉是主要交互手段,限于能力和目标,只关注机器人和人的视觉交互
Robot Vision
3D Vision在Robot领域的应用 : Camera Calibration, SFM,SLAM,3D Reconstruction,3D Object Detection,3D Scene Understanding
真实世界是3D的,要和真实世界交互,机器人需要感知,理解3D环境,才能执行移动和操作任务,理想状况下,能将物体世界完全数字化,建立世界模型。
OpenCV 3D
包括Camera 标定,Stereo VisionPCL
点云相关算法Stanford CS231A - Computer Vision: From 3D Reconstruction to Recognition 阅读笔记
3D Vision既有基于传统方法,也从最新的DL在2D成功的借鉴。对于2D Image的借鉴,主要是网络结构上,对3D Data的表征Stanford CS331B - Representation Learning in Computer Vision
Stanford CS468 - Machine Learning for 3D Data 笔记
PointNet的作者 Charles Qi, Hao SU 在Stanford开设的课程Reading
在学术界,也是最前沿的内容,主要是紧跟几个实验室的最新成果。 读论文,读代码Coding
写代码,做项目 … TBD
Robot Learning
目前还处于学术研究阶段,提出的概念很多,什么时候可商业化还未可知。
虽然机器有一定的感知能力,但为了不同的应用场景需要编写不同代码,依然是不完全智能。那么是不是可以通过机器学习的方式将编程这个过程也自动化? 机器人替代重复劳动,给机器人编程的劳动也可以自动化。
End-to-End,从Perception到Actions,输入 传感器信息,直接输出 控制指令
CS336 - Robot Perception and Decision-Making: Optimal and Learning-based Approaches
Reading … TBD
Coding … TBD
AGI Robots ?
是终极目标还是技术禁区? TBD…