2927
- 收藏
- 点赞
- 分享
- 举报
AI识物,是怎样做成生意的?
智能AI能说能听,这事儿大家都知道。比如说目前的智能音箱和手机里的语音助手、语音输入法。
而在感知智能这个大方向里,AI当然不只能说能听,同时还能看——比如说在谁谁谁演唱会上抓个逃犯啥的。但AI的“看”不仅是识别人脸,同时也可以识别物体。比如谷歌的猜画小程序就是依靠AI识物的原理来实现的。
但这个领域,似乎还没有太多的应用于商业化。人脸识别可以用于大规模安防,但AI识物在今天的更多应用展示,还是停留在游戏与炫技的层面。
有没有办法让AI识物的能力商业化呢?
国内外各种AI势力正在努力破解这个问题。理想总是美好的,而现实则不尽人意。
AI之眼,似乎还没有给商业世界带来足够的吸引力。
Google Lens:下一个时代还是又一块鸡肋?
普通人能够应用的AI识物最主要还是在手机摄像头当中。当用户把摄像头对准现实中的各种东西,AI系统就会通过图像识别以及OCR技术,给出相应的结果。
听起来还是蛮厉害的。
目前这个领域探索最深的则是AI巨头谷歌。谷歌在2017年I/O大会上发布了集成在Google Photos里的Google Lens功能。这个功能,让手机用户可以将摄像头对准各种各样的东西,然后让AI开口说话,告诉你ta看见了什么。
具体来说,Lens的功能还是很实用的。比如当旅行者面对一个不知名的文物古迹,可以用Google Lens 来获知相关的历史以及文化知识;在异国他乡拍摄交通指示牌,AI会借助谷歌翻译的力量把这些信息翻译出来;对准一瓶葡萄酒,AI可以告诉你这瓶酒的各种信息,比如年份、品饮方式、价格等等。
谷歌没有公布Lens到底能识别多少东西,但就目前情况来看,是相当多的。在今年的I/O大会上,该功能还被进一步升级,可以用来拍照识别文字信息、推荐穿搭风格,甚至还能通过海报来给出的艺人资料与作品。
从一年的发展来看,谷歌对于Lens的期待很大,不断激发新功能,升级了它的产品地位,并建立与谷歌其它AI应用的联系。
但是看似无所不能的Lens也有软肋:Lens的真实工作流程是将识别物体与数据库进行匹配。数据库的大小直接影响着Lens的使用体验,它在技术本身的创造力则乏善可陈。比如有的人就无情嘲笑过:Lens的识花功能其实早就是百度玩剩下的。
不过Lens对于中国消费者的不便就更多了,比如Lens目前并不支持中文。
但是AI识物这区域却是科技公司的兵家必争之地,比如微软就不断宣称Bing搜索中的拍照搜索一点也不比Lens差。
不过无论是谷歌还是微软,都无法解决AI识图搜索的根本问题:用户打开率低,商业化程度较差。
国内的玩AI识物的几个场景
相比于谷歌非常强势地推出的“可以识别一切”的AI识物功能。国内的AI企业,无论是BAT还是创业公司,似乎都还处在这一技术的初级探索阶段,同时也更聚焦于此技术快速商业化的可能。最明显的就是,国内AI识物的应用大多集中在几个场景中:
1. 识图购物。这个功能已经屡见不鲜,无论是淘宝天猫还是京东,都已经投放了识图购物的功能。让用户可以通过拍照进行商品匹配,较高效率获知现实中商品在自家平台上的价格。但缺点也很明显,那就是用户打开的针对性太强。
2. 识花。各种各样的识花软件和产品功能早已经洗礼了国内用户的AI常识。目前花卉植物的AI识别能力已经被做得相当精准。但是这类应用大部分还是需要调用云端数据库进行匹配,识别速率并不高,应用场景太狭窄。
3. 识字。相比于识别花卉,文字识别其实对于OCR纠错、模糊识别等领域的技术挑战更大。尤其是识别手写体以及古文字。
4. 批作业。从文字识别引申出国内另一个AI识物的主要流派,是用AI来识题和批改作业。这一领域要求足够的数据支撑和手写体识别能力,目前只能说还处在早期应用阶段。
这四大领域当然各有市场可能性,但同样的问题在于拿起手机来拍摄物体,很难变成一个随时发生的使用习惯,用户可能不会花费大量时间沉浸在某个细分识别领域。
要全能还是要专精,AI识物到底应该如何商业化呢?
想象力与困难并存的AI视觉应用
从谷歌的产品逻辑中,我们能够发现,AI识物的出现是希望用户能够面对生活中各种东西,都拿出手机拍一下,让AI告诉你这背后的答案。
这个“让AI告诉我们一切”的出发点当然是好的。但问题在于这违背了大部分用户的搜索引擎习惯,而且我们生活中遇到的绝大多数问题都是无法用拍照来搜索的,甚至信息的搜索强度远远大于对眼前真实物体的不知所措。
另一方面,AI识物的准确度还有待提高,一两次发现AI识别错误或者恶意卖萌之后,用户就很可能会放弃再次尝试。
所以AI识别一切,似乎并不是这门生意的最终目的。
场景化的使用中,主要问题在于出现频次不高,难以培养用户的使用习惯,更难沉淀到商业化的层级当中。目前来看,这个问题的解决方案很可能在于将AI识物的技术与某些相对高频发生的移动互联网需求相联系,在营销的帮助下形成场景化习惯。
最有可能的当然是旅游。我们能够发现,无论是识别花草,识别碑额,还是识别名胜古迹、翻译交通指示牌和菜单,这些都是旅行中的某个行为。而识花用识花的APP,识别古迹用识别古迹的APP,翻译再用翻译机,这种体验恐怕大部分人会觉得超级烦。
因此来看,在旅行场景的统一规划下,整合各种AI识物应用,形成一站式旅行AI,似乎在今天比较有机会。
与旅行类似,AI识物的另一个机会在于儿童市场和教育市场。AI可以给好奇宝宝提供关于生活中各种事物的解答,似乎也比较能够被年轻父母所接受。而更重要的识别类应用在于教育,无论是老师批作业,还是家长辅导孩子,甚至于学生寻找答案,毫无疑问都是很痛苦的过程。能够用AI来整合和激活这个市场,那么前景应该是相对可观的。
AI识物的理想商业状态也是能够形成超级平台,让我们在面对生活中所有不解和好奇时,都拿出手机来拍一下,让AI告诉我们答案。AI语音的理想状态是通过对话来控制生活中的一切,包括智能家居硬件、内容、手机与购物。但世界搜索的需求限制以及技术目前本身的瓶颈,确实在降低这种超级平台的诞生可能性。
此外,目前也有若干问题在限制这一技术的应用度。比如上文提过的中文知识图谱体系不够完整,很多领域我们目前还没有足够AI回答的中文数据;模糊识别精度不高,经常会造成用户的需求与AI答案之间南辕北辙;还有一个问题,就是对摄像头的反应能力有一定要求,这就放弃了很多低端机入门机搭载AI识别应用的可能性。
让AI帮我们看世界已经足够近,却又比较远,这可能需要无数科技公司想破了脑袋去参悟。
我来回答
回答11个
时间排序
认可量排序
认可0
认可0
认可0
认可0
认可0
认可0
认可0
认可0
认可0
认可0
认可0
或将文件直接拖到这里
悬赏:
E币
网盘
* 网盘链接:
* 提取码:
悬赏:
E币
Markdown 语法
- 加粗**内容**
- 斜体*内容*
- 删除线~~内容~~
- 引用> 引用内容
- 代码`代码`
- 代码块```编程语言↵代码```
- 链接[链接标题](url)
- 无序列表- 内容
- 有序列表1. 内容
- 缩进内容
- 图片![alt](url)
相关问答
-
2020-08-14 17:02:47
-
2023-07-27 15:02:42
-
2020-03-11 21:46:34
-
2015-03-16 18:48:24
-
2019-02-18 16:29:54
-
2019-09-30 17:34:53
-
2013-08-28 11:29:32
-
2020-11-29 08:55:08
-
2016-03-15 11:22:59
-
2020-11-22 18:53:57
-
2008-06-20 21:21:04
-
2023-11-10 13:40:09
-
2018-11-16 12:06:03
-
2018-10-21 08:50:09
-
2018-01-02 16:51:01
-
2018-06-14 18:56:45
-
2018-12-04 14:30:54
-
2016-06-12 19:56:23
-
2023-08-17 15:36:30
无更多相似问答 去提问
点击登录
-- 积分
-- E币
提问
—
收益
—
被采纳
—
我要提问
切换马甲
上一页
下一页
悬赏问答
-
50如何获取vpss chn的图像修改后发送至vo
-
5FPGA通过Bt1120传YUV422数据过来,vi接收不到数据——3516dv500
-
50SS928 运行PQtools 拼接 推到设备里有一半画面会异常
-
53536AV100的sample_vdec输出到CVBS显示
-
10海思板子mpp怎么在vi阶段改变视频数据尺寸
-
10HI3559AV100 多摄像头同步模式
-
9海思ss928单路摄像头vio中加入opencv处理并显示
-
10EB-RV1126-BC-191板子运行自己编码的程序
-
10求HI3519DV500_SDK_V2.0.1.1
-
5有偿求HI3516DV500 + OV5647驱动
举报反馈
举报类型
- 内容涉黄/赌/毒
- 内容侵权/抄袭
- 政治相关
- 涉嫌广告
- 侮辱谩骂
- 其他
详细说明
提醒
你的问题还没有最佳答案,是否结题,结题后将扣除20%的悬赏金
取消
确认
提醒
你的问题还没有最佳答案,是否结题,结题后将根据回答情况扣除相应悬赏金(1回答=1E币)
取消
确认