AI识物，是怎样做成生意的？

海思

智能AI能说能听，这事儿大家都知道。比如说目前的智能音箱和手机里的语音助手、语音输入法。
而在感知智能这个大方向里，AI当然不只能说能听，同时还能看——比如说在谁谁谁演唱会上抓个逃犯啥的。但AI的“看”不仅是识别人脸，同时也可以识别物体。比如谷歌的猜画小程序就是依靠AI识物的原理来实现的。

但这个领域，似乎还没有太多的应用于商业化。人脸识别可以用于大规模安防，但AI识物在今天的更多应用展示，还是停留在游戏与炫技的层面。
有没有办法让AI识物的能力商业化呢？
国内外各种AI势力正在努力破解这个问题。理想总是美好的，而现实则不尽人意。
AI之眼，似乎还没有给商业世界带来足够的吸引力。

Google Lens：下一个时代还是又一块鸡肋？
普通人能够应用的AI识物最主要还是在手机摄像头当中。当用户把摄像头对准现实中的各种东西，AI系统就会通过图像识别以及OCR技术，给出相应的结果。
听起来还是蛮厉害的。
目前这个领域探索最深的则是AI巨头谷歌。谷歌在2017年I/O大会上发布了集成在Google Photos里的Google Lens功能。这个功能，让手机用户可以将摄像头对准各种各样的东西，然后让AI开口说话，告诉你ta看见了什么。

具体来说，Lens的功能还是很实用的。比如当旅行者面对一个不知名的文物古迹，可以用Google Lens 来获知相关的历史以及文化知识；在异国他乡拍摄交通指示牌，AI会借助谷歌翻译的力量把这些信息翻译出来；对准一瓶葡萄酒，AI可以告诉你这瓶酒的各种信息，比如年份、品饮方式、价格等等。

谷歌没有公布Lens到底能识别多少东西，但就目前情况来看，是相当多的。在今年的I/O大会上，该功能还被进一步升级，可以用来拍照识别文字信息、推荐穿搭风格，甚至还能通过海报来给出的艺人资料与作品。
从一年的发展来看，谷歌对于Lens的期待很大，不断激发新功能，升级了它的产品地位，并建立与谷歌其它AI应用的联系。
但是看似无所不能的Lens也有软肋：Lens的真实工作流程是将识别物体与数据库进行匹配。数据库的大小直接影响着Lens的使用体验，它在技术本身的创造力则乏善可陈。比如有的人就无情嘲笑过：Lens的识花功能其实早就是百度玩剩下的。
不过Lens对于中国消费者的不便就更多了，比如Lens目前并不支持中文。

但是AI识物这区域却是科技公司的兵家必争之地，比如微软就不断宣称Bing搜索中的拍照搜索一点也不比Lens差。
不过无论是谷歌还是微软，都无法解决AI识图搜索的根本问题：用户打开率低，商业化程度较差。

国内的玩AI识物的几个场景
相比于谷歌非常强势地推出的“可以识别一切”的AI识物功能。国内的AI企业，无论是BAT还是创业公司，似乎都还处在这一技术的初级探索阶段，同时也更聚焦于此技术快速商业化的可能。最明显的就是，国内AI识物的应用大多集中在几个场景中：
1. 识图购物。这个功能已经屡见不鲜，无论是淘宝天猫还是京东，都已经投放了识图购物的功能。让用户可以通过拍照进行商品匹配，较高效率获知现实中商品在自家平台上的价格。但缺点也很明显，那就是用户打开的针对性太强。
2. 识花。各种各样的识花软件和产品功能早已经洗礼了国内用户的AI常识。目前花卉植物的AI识别能力已经被做得相当精准。但是这类应用大部分还是需要调用云端数据库进行匹配，识别速率并不高，应用场景太狭窄。

3. 识字。相比于识别花卉，文字识别其实对于OCR纠错、模糊识别等领域的技术挑战更大。尤其是识别手写体以及古文字。
4. 批作业。从文字识别引申出国内另一个AI识物的主要流派，是用AI来识题和批改作业。这一领域要求足够的数据支撑和手写体识别能力，目前只能说还处在早期应用阶段。
这四大领域当然各有市场可能性，但同样的问题在于拿起手机来拍摄物体，很难变成一个随时发生的使用习惯，用户可能不会花费大量时间沉浸在某个细分识别领域。
要全能还是要专精，AI识物到底应该如何商业化呢？

想象力与困难并存的AI视觉应用

从谷歌的产品逻辑中，我们能够发现，AI识物的出现是希望用户能够面对生活中各种东西，都拿出手机拍一下，让AI告诉你这背后的答案。
这个“让AI告诉我们一切”的出发点当然是好的。但问题在于这违背了大部分用户的搜索引擎习惯，而且我们生活中遇到的绝大多数问题都是无法用拍照来搜索的，甚至信息的搜索强度远远大于对眼前真实物体的不知所措。
另一方面，AI识物的准确度还有待提高，一两次发现AI识别错误或者恶意卖萌之后，用户就很可能会放弃再次尝试。
所以AI识别一切，似乎并不是这门生意的最终目的。
场景化的使用中，主要问题在于出现频次不高，难以培养用户的使用习惯，更难沉淀到商业化的层级当中。目前来看，这个问题的解决方案很可能在于将AI识物的技术与某些相对高频发生的移动互联网需求相联系，在营销的帮助下形成场景化习惯。
最有可能的当然是旅游。我们能够发现，无论是识别花草，识别碑额，还是识别名胜古迹、翻译交通指示牌和菜单，这些都是旅行中的某个行为。而识花用识花的APP，识别古迹用识别古迹的APP，翻译再用翻译机，这种体验恐怕大部分人会觉得超级烦。
因此来看，在旅行场景的统一规划下，整合各种AI识物应用，形成一站式旅行AI，似乎在今天比较有机会。
与旅行类似，AI识物的另一个机会在于儿童市场和教育市场。AI可以给好奇宝宝提供关于生活中各种事物的解答，似乎也比较能够被年轻父母所接受。而更重要的识别类应用在于教育，无论是老师批作业，还是家长辅导孩子，甚至于学生寻找答案，毫无疑问都是很痛苦的过程。能够用AI来整合和激活这个市场，那么前景应该是相对可观的。
AI识物的理想商业状态也是能够形成超级平台，让我们在面对生活中所有不解和好奇时，都拿出手机来拍一下，让AI告诉我们答案。AI语音的理想状态是通过对话来控制生活中的一切，包括智能家居硬件、内容、手机与购物。但世界搜索的需求限制以及技术目前本身的瓶颈，确实在降低这种超级平台的诞生可能性。
此外，目前也有若干问题在限制这一技术的应用度。比如上文提过的中文知识图谱体系不够完整，很多领域我们目前还没有足够AI回答的中文数据；模糊识别精度不高，经常会造成用户的需求与AI答案之间南辕北辙；还有一个问题，就是对摄像头的反应能力有一定要求，这就放弃了很多低端机入门机搭载AI识别应用的可能性。
让AI帮我们看世界已经足够近，却又比较远，这可能需要无数科技公司想破了脑袋去参悟。

我来回答

回答11个

时间排序

认可量排序