您正在使用IE低版浏览器,为了您的跃门娱乐站账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
跃门娱乐站
此为临时链接,仅用于文章预览,将在时失效
宏观理财 正文
发私信给跃门娱乐站
发送

0

杭州灵伴科技(杭州灵伴科技怎么样)

本文作者:跃门娱乐站 2026-02-05 22:49:28
导语:今天给各位分享杭州灵伴科技的知识,其中也会对杭州灵伴科技怎么样进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!杭州灵伴科技有限公司怎么样?杭州灵伴科技有限公司是2014-03-1

今天给各位分享杭州灵伴科技的杭州杭州知识,其中也会对杭州灵伴科技怎么样进行解释,灵伴灵伴如果能碰巧解决你现在面临的科技科技问题,别忘了关注本站,杭州杭州现在开始吧!灵伴灵伴

杭州灵伴科技有限公司怎么样?

杭州灵伴科技有限公司是2014-03-18在浙江省杭州市上城区注册成立的有限责任公司(自然人投资或控股),注册地址位于杭州市余杭区五常街道西溪艺术集合村艺轩路3号102室。杭州杭州

杭州灵伴科技有限公司的灵伴灵伴统一社会信用代码/注册号是9133010209477388XY,企业法人魏达,科技科技目前企业处于开业状态。杭州杭州

杭州灵伴科技有限公司的灵伴灵伴经营范围是:服务:计算机软硬件、网络工程的科技科技技术开发、技术咨询、杭州杭州成果转让,灵伴灵伴经济信息咨询(除商品中介),科技科技设计、制作国内广告;第二类增值电信业务中的信息服务业务(仅限互联网信息服务)。(依法须经批准的项目,经相关部门批准后方可开展经营活动)。在浙江省,相近经营范围的公司总注册资本为6618083万元,主要资本集中在5000万以上和1000-5000万规模的企业中,共2681家。本省范围内,当前企业的注册资本属于良好。

通过百度企业信用查看杭州灵伴科技有限公司更多信息和资讯。

灵伴科技的外包怎么样

好。

1、工资方面。灵伴科技的外包工资在3200元到3600元,与同阶级外包工资相比,工资更高。

2、工作方面。灵伴科技的外包工作量少,按时下班,有双休,不累,因此灵伴科技的外包好。

智能音箱调研报告|语音交互功能详析

2014年11月发布亚马逊低调发布智能音箱Echo,内测半年后于2015年正式发售,当年销量为250万台,16年销量520万台,超越传统音箱领头羊Sonos ,成为在线音箱行业霸主,一度在细分的智能音箱市场占据了99%的市场份额。亚马逊发布的智能音箱Echo 受到市场强烈反响以后,google在2017年5月发布google home,苹果在2017 年WWDC 发布智能音箱HomePod,国内厂商京东和科大讯飞合作推出叮咚音箱……一时间国际互联网和硬件行业巨头纷纷加入战局,争夺语音交互流量入口,带动了AI落地的一轮热潮。

智能音箱已经成为全球增长最快的消费级硬件。2017年6月苹果home pod发布以来,下半年至今,每月都有一两家科技公司发布智能音箱新产品或二代、三代产品。目前为止国内科技巨头BAT、小米,老牌电器厂商联想、苏宁,语音技术企业科大讯飞、思必驰,硬件技术创业公司出门问问、若琪等都陆续通过自研或合作的方式入局。

智能音箱的爆发离不开语音技术的支撑,掌握语音技术的有两类厂商。一是互联网巨头如Amzon、Google、BAT、苹果、微软等,二是专研语音交互技术的厂商如科大讯飞、思必驰等。语音技术厂商通过自主研发软硬件产品,或对外输出技术,赋能传统智能音箱厂商、内容和互联网服务厂商,获取用户和数据,建立平台生态。

1.Amzon Alexa

基本信息: Amzon Alexa是亚马逊的智能虚拟助理和开放平台,2010年启动研发,于2014年11月和Echo同时发布。Alexa 具备语音技术能力,并通过运行独立的程序,称为“技能”(Skills)来实现不同功能应用(类似手机里在操作系统上运行APP),支持音乐播放、语音购物、智能家控、智能通讯等一系列功能。由于其先发优势与大量的落地产品,不论是从产品搭载数量和智能水平上,alexa都已远超其他技术厂商(CNET在CES2017的统计)。

开放情况: Alexa 2015年6月,亚马逊将Alexa开放给第三方开发者,发布了 Alexa Skills Kit(ASK) 和Alexa Voice Service (AVS)两套开发工具包,让开发者能够更加容易开发Alexa的“技能”;并 设有了风险投资基金alexa found专门扶持语音交互领域的初创企业,以及大学生开发竞赛Alexa prize。从2014年发布时的29余项技能,到如今近4w项技能,积极开放政策和不断优化的开发工具,使得Alexa拥有了远超其他技术厂商的海量技能。

应用范围: 截止目前Amzon Alexa已陆续在全球38个国家开通(中国暂未开通),涵盖英语、德语、法语、意大利语、西班牙语和日语等6种语言(暂不支持中文)。除了搭载自家echo系列音箱产品外,Alexa也赋能sonos、联想、哈曼卡顿等音箱产品,amzon fire TV 等智能电视,amzon fire、华为mate9、HTC等平板电脑和智能手机,华硕、惠普、联想等笔记本电脑和PC,智能冰箱、智能灯、智能开关等智能家居产品,智能耳机、智能手表等可穿戴设备,以及包含福特、宝马、雷克萨斯、丰田等品牌的智能汽车。

2.Google Assistant

基础信息: Google assistant是谷歌的虚拟助理,于2016年5月在谷歌开发者大会正式发布,支持语音交互,搭载在Google的智能手机和智能音箱中。

开放情况: 2016年12月,Google推出开发者平台Actions on Google,2017年4月发布了SDK(软件开发工具包)以便第三方开发者为Google assistant开发应用程序,并进一步扩展支持智能汽车和其他智能家居设备。Google assistant支持语音输入和视觉响应,可通过设备的相机识别物体并收集视觉信息。

应用范围: 当前Google assistant已支持英语、日语、法语、德语、西班牙语等8种语言,预计2018年底将支持30多种语言,覆盖95%的Android手机(暂不支持中文)。除了搭载自家Google home系列音箱和Pixel系列智能手机外,Google assistant还赋能索尼、诺基亚等智能手机,松下、LG、Sonos等品牌的智能电视、智能机顶盒、智能音箱产品,联想、爱可视等电脑及沃尔沃等智能汽车产品。

3.Microsoft Cortana

基础信息: Cortana是微软的虚拟智能助理,于2015年1月正式发布,逐步应用于搭载windows操作系统和Android/ios系统的移动设备。Cortana具备语音交互功能,并使用bing的搜索引擎信息回答问题,能够调用应用程序、查询天气、提供餐厅和景点推荐,控制智能家居。

开放情况: 2017年的build开发者会议上,微软退出Cortana技能开发平台,允许第三方开发者为cortana开发技能。

应用范围: 截止目前cortana支持包括中文(简/繁)、英语、德语、法语、日语在内的近10种语言。Cortana已集成到微软众多产品,如Edge浏览器、windows10、车机系统、Skype(微软的即时通讯服务),并赋能微软与harman kardon合作的智能音箱invoke等。

4.Apple siri    

基础信息: Siri(Speech Interpretation and Recognition Interface)是苹果的虚拟助理。Siri 公司创建于2007年。起初 Siri 只是 iOS 平台的一个应用程序,苹果在 2010 年 4 月收购了 Siri 公司并重新开发后,Siri 成为了苹果设备的内置软件,于2011年重新发布,并只允许在 iOS、macOS 中运行。Siri支持语音交互,可以完成数据搜索、天气查询、设置闹钟等许多服务。

开放情况: 2016年6月苹果开发者大会上开放了Siri接口,在IOS开发平台中新增Sirikit,支持开发者调用Siri展示应用内容。Siri目前暂无独立的技能开发平台。

应用范围: 截止目前Siri支持包括中文(简/繁)、英文、法文、德文、意大利文在内的20余种语言,并赋能苹果全线产品,如iPhone、iPad、iPod、Apple watch、mac等。

1. 科大讯飞

基本信息: 科大讯飞成立于1999年,是国内最大智能语音技术厂商,在智能语音技术领域有着长期的研究积累,并在中文语音合成、识别、评测等多项技术上拥有国际领先的成果,与中国官方关联密切,堪称“中文语音产业国家队”。科大讯飞占有中文语音技术市场70%以上市场份额,语音合成产品市场份额达到70%以上。

开放情况: 讯飞开放平台是全球首个提供移动互联网智能语音交互能力的讯飞开放平台,基于讯飞开放平台陆续推出讯飞输入法、灵犀语音助手、AI+教育、AI客服、AI医疗(语音电子病历、医学影像辅助诊断系统、智能助理等)、晓译翻译机、飞鱼智能车载系统、家庭场景的讯飞魔飞麦克风系统等是多宽人工智能产品。

应用范围: 科大讯飞支持34种语言,包括中文各地方言,目前已赋能长虹、海信、康佳等国内大牌智能电视、GlassX、ZWatch等可穿戴设备,奥迪、宝马、奔驰、通用、福特、上汽、广汽、长安、吉利、长城、奇瑞等国内外智能汽车,智能音箱(京东叮咚音箱)、聊天机器人(小鱼在家)等智能硬件产品,窗帘、空调等智能家居产品,为包括滴滴打车、高德地图、QQ阅读等在内的超过60000个App提供智能语音交互服务,覆盖聊天通讯、工具、视频、新闻、导航等生活领域的方方面面。

2.百度DuerOS · 小度

基本信息: DuerOS是百度的对话式人工智能系统,于2017年7月百度AI开发者大会上正式发布。DuerOS具备影音娱乐、信息查询、生活服务、出行路况等10大类目共200多项能力,用户可在不同场景下实现指令控制、信息查询、知识应用、寻址导航、日常聊天、智能提醒和多种O2O生活服务;同时支持第三方开发者的能力接入。

开放情况: DuerOS开放平台包括智能设备开放平台和技能开放平台,分别适应不同类型的硬件厂商和为开发者。为方便“上手”,百度发布了针对个人、产品厂商、特殊厂商的DuerOS套件,并融合包括声智科技、先声互联、Intel、Rockchip等第三方解决方案,上线了技能商店APP“小度之家”。

应用范围: DuerOS支持普通话、英语、粤语、四川话等多种语言,已赋能智能音箱、电视、冰等大小家电与智能家居产品,智能手机、手表等随身设备,车机、智能后视镜等智能车载产品,累计搭载5 000万设备,日活超过1000万,有1600万DuerOS合作伙伴,落地80多家主控设备,积累了超过10000名DuerOS开发者,DuerOS累计回答问题数已达24亿。

3.小爱开放平台·小爱同学

基本信息: 小爱开放平台(原水滴平台)于2017年5月对外开放语音能力与SDK,基于小米的硬件生态和海量数据,提供全球领先的语音识别、NLP等多项人工智能技术,为开发者提供一站式的人工智能服务。

应用范围: 小爱开放平台能力已在小米电视、小米AI音箱、小米金服‘米小贝’等小米软、硬件产品中集成,为小米生态链中8500万台IoT连接设备赋能,虚拟助手小爱同学的日活跃用户也达1000万 。

4.AliGenie 语音开发者平台·天猫精灵

基本信息: AliGenie开放平台于2017年10月12日云栖大会发布,由阿里巴巴人工智能实验室发起的,面向企业/机构/创业者/开发者,将阿里巴巴在人工智能领域积累的技术以API或SDK等形式对外共享的在线平台,目前已经拥有涵盖影音娱乐、新闻资讯、购物外卖、家居控制、生活助手、儿童教育等的100多项技能。

应用范围: AliGenie开发者平台主要包括三大部分:精灵技能市场、硬件开放平台、行业解决方案, 全面赋能智能家居、制造、零售、酒店、航空等服务场景

5.腾讯云·小微

基本信息: 腾讯云的智能服务系统和智能服务开放平台,帮助智能硬件厂商实现语音人机互动和音视频服务能力。微信AI团队自 2012 年起,就将语音输入、语音识别、语义分析技术等功能应用到微信中,腾讯云小微将微信的语音技术作为底层能力,故命名为“小微”,于2017年6月腾讯“云+未来”峰会上正式对外发布。

应用范围: 腾讯云小微包括硬件开放平台、Skill开放平台、服务机器人(智能客服)平台,结合腾讯社交关系链,覆盖家庭、车载、运动、酒店和儿童陪伴教育等众多场景。

6.思必驰·DUI开放平台

基本信息: 思必驰2007年成立于英国剑桥,创始人均来自剑桥,2008年回国落户苏州,是国内少有的拥有人机对话技术,国际上极少数拥有自主产权、中英文综合语音技术的公司之一。思必驰于2017年9月正式发布DUI(Dialogue User Interface)开放平台,以任务式对话为核心,兼具闲聊与问答功能,打造人性化交互。作为一个全链路智能对话开放平台,DUI开放基于思必驰智能语音语言技术的对话功能,并提供GUI定制、版本管理、私有云部署等开发服务。

DUI具备青囊(服务与研发支撑)、天机(大数据)、紫微(丰富的第三方资源)、玲珑(终端解决方案与环境)四大系统。DUI平台对接丰富的第三方内容,内置国内最专业的语音语言技能商店,具备深度数据可视化、个性化自定义、零门槛操作,开发者通过DUI可实现全链路的高度定制,几乎可自定义每个模块。

应用范围: 平台已覆盖车载、家居、机器人、故事机、手机助手等多应用场景,提供智能车载、智能家居、智能机器人等解决方案,赋能天猫精灵X1、小米AI音箱小爱同学、联想智能音箱、小米板牙70迈智能后视镜等前沿智能产品。

1.出门问问

出门问问是Google(谷歌)投资的一家中国人工智能公司,由硅谷华人科学家李志飞于 2012 年回国创立。拥有自主研发的语音识别、语义分析、垂直搜索、基于视觉的ADAS和机器人SLAM等核心技术。代表性的软硬件产品包括智能手表Ticwatch、车载智能后视镜问问魔镜Ticmirror、智能音箱Tichome、出门问问语音助手APP以及高级驾驶辅助系统问问魔眼Ticeye。

2. 猎户星空

猎户星空拥有全套远场语音技术,自研全链路的远场语音交互系统“猎户语音OS”,已赋能喜马拉雅“小雅”音箱,美的、海尔、博联、海尔优家、欧瑞博等品牌的智能家居产品。小米AI音箱、小米电视,也应用猎户星空的TTS(语音合成)技术以及ASR(语音识别)技术。猎户星空自己音箱小豹AI音箱,接入微信支付、银联支付、融合区块链技术。

2017年猎户星空还获得了世界公认人脸识别“世界杯”的微软百万名人识别竞赛识别百万名人子命题有限制类(只使用竞赛提供数据)的第一名。2018年3月21日,猎户星空正式对外发布人工智能领域的机器人产品矩阵,在接待、售卖、儿童陪伴等多个场景落地。同时发布了 猎户机器人平台 Orion OS ,集合了自研的多芯片系统,摄像机+视觉算法,麦克风阵列,猎户TTS,室内导航平台和七轴机械臂等,形成了完整的机器人技术链条。Orion OS现与微软、搜狗、高通、英伟达和锤子科技等建立了战略合作伙伴关系。

3. 若琪Rokid

Rokid公司成立于2014年7月,隶属于杭州灵伴科技有限公司。总部位于中国杭州, 北京和旧金山分别设有研发中心,致力于机器人领域研究,专注于远程定向拾音/语音语义识别、人脸/手势识别、音响和投影系统等核心技术。Rokid现有PEBBLE • 月石智能音箱、AR眼镜Rokid Glass、智能机器人ALIEN·外星人等产品,Rokid智能家居机器人在2016年和2017年连续两年获得CES国际消费电子产品展创新大奖。

4. 聚熵智能·DeepBrain

DeepBrain 2012年成立于上海,致力于研发人工智能产品, 核心团队是来自于国内外名校的技术研究人才, 为超过100家厂商提供深度人机对话能力,并与三星、华为、联想、中兴达成深度合作。DeepBrain在2014年发布了国内首款智能音箱——小智超级音箱,比 Echo 的推出还要早半年。其语义技能平台已进驻上千名开发者,开发了超过 1000 种以智能家居为主的语义技能。

5. 搜狗语音

搜狗由搜狐公司创建于2004年8月3日,域名为Sogou.com,目的是增强搜狐网的搜索技能。2013年9月,腾讯注资搜狗,并将腾讯旗下的搜搜业务,输入法业务注入搜狗。2017年11月,搜狗在纽交所上市,腾讯目前持有搜狗45.37%的股权; 搜狐持有搜狗股权比例为39.21%。搜狗语音技术研究于2012年启动,并在2013年6 月正式上线搜狗语音云开放平台,接入搜狗包括输入法、地图在内的全线产品,并推出搜狗语音助手,与Siri一样,搜狗语音助手在手机端上提供的交互体验并不能让用户产生足够的依赖性,产品的使用率并不高。2016年8月搜狗发布了语音交互引擎「知音」,2017年12月与四维图新、飞歌展开合作,推出飞歌智能车联网软硬件解决方案G8Ⅱ 后装智能车机,为2018年3月发布的小米电视 4A提供ASR语音识别能力,为会议平板厂商视源股份发布的首款智能语音平板 MAXHUB提供语音技术。

销量与市场占有率对智能音箱产品有着非比寻常的意义。因为智能语音技术刚刚落地,极其依赖用户数据的喂养,越使用才能越智能。

根据笔者估算,截止2018年Q1,全球智能音箱市场保有量占比如下所示。Amzon凭借其先发优势和形态丰富的产品,一骑绝尘,占领了71%的份额,Google以其完备的低-中-高产品矩阵和用户基础,抢夺12%的份额,天猫、小米分别凭借电商体系、智能家居生态与低价爆款策略占据6%、4%的份额,京东涉足智能音箱较早,品类丰富,也占据了3%的市场份额,apple的homepod在今年 2月9日才正式发售,且定价偏高,仍旧占据了1%,其他所有品牌占据3%。

作为智能音箱品类开创者,Amzon不断地优化音箱产品新能,持续创新。从场景和形态出发,陆续推出小巧低价的echo dot,带屏音箱echo show、闹钟音箱echo spot。既有促销爆款铺量,又有高端品类防守,具备了高、中、低三个档位完善的产品矩阵,各型号累计销量在3千万以上,是目前唯一销量破千万的智能音箱厂商,引领着全球智能音箱市场。

京东与科大讯飞联合成立的灵隆科技推出叮咚音箱,作为国内较早涉足智能音箱的厂商,从2015年5月开始,京东已经发售了一系列新品。整体产品线与Amzon相似,不断探索更多形态与场景,持续提供更多自定义功能,并以儿童教育音箱,切儿童早教市场。随着小米、阿里、百度的强势入局,京东也推出了高端带屏音箱叮咚PALY,低价叮咚mini2,抢夺国内市场。

2016年5月,在Amzon几乎垄断智能音箱市场之时,Google入场搅局,推出Google home,凭借其优雅的设计、 背靠Google搜索引擎的智能问答和价格差异,曾一度占据了20%以上的市场份额,并在2017年10月推出低价的Google home mini和高价的Google home max,不断支持更多新技能和场景:接入更多智能家居设备、支持500w个菜谱抢占厨房,支持语音购物等。

小米作为国内领先的智能家居生态构建者,产品覆盖了耳机、移动电源、手环、插座、血压计、空气净化器、净水器、运动相机、平衡车、电池、床头灯、电饭煲等智能家居设备。小米于2016年底开始研发虚拟助手小爱同学,并在2017年9月正式发布了智能音箱小爱同学,除了强大的小米家居生态背景,小爱同学还因其机智的人设获得极高关注。2018年小米推出Q萌版小爱同学mini加入国内低价冲量大战。

阿里对新技术研发极为重视,在17年7月发布了天猫精灵x1,同时亮相的还有负责阿里消费级AI产品研发的阿里巴巴人工智能实验室,17年10月云栖大会正式宣布成立达摩院,网罗各个重点技术领域的专家人才,进行基础科学、AI芯片和颠覆式技术创新研究。18年3月推出天猫精灵M1曲奇,火眼支架,6月推出天猫精灵方糖,持续探索更多音箱形态,花式输出AI技术,包括图像识别、人脸识别、物体检测及情感反馈等能力。同时提高产品性价比,紧守音箱低价冲量的战场。依托阿里强大的电商网络,天猫精灵已成为国内销量最大的智能音箱品牌。

2017年2月百度全资收购渡鸦科技,11月发布了RavenH智能音箱,形状新奇色彩绚丽,带有可拆卸点阵触控板,对标高端音箱Sonos、Bose 和哈曼卡顿,售价1699。18年初联合老牌音响制造商DOSS(德仕)推出DOSS智能音箱,3月、6月陆续推出国内首款智能视频音箱599元的小度在家、89元低价小度智能音箱,在京东和天猫发售,凭借极高的性价比,在国内音箱价格战中尚有一席。

除了销量可见的主流智能音箱,国内外仍有不少智能音箱产品。如微软与哈曼卡顿联合推出的invoke,搭载了微软Cortana,Line与高通合作推出的Clova,以及国内中小创业团队的系列智能音箱,出门问问的Tichome、喜马拉雅的小雅音箱等等。随着智能音箱市场的逐步成熟,各类音箱或者会找到自己的位置,或者无声寂灭。

智能音箱除了提供核心内容资源消费功能,各品牌还深挖居家场景,开放平台,吸引第三方开发者,提供了越来越多的技能。智能音箱界独领风骚的Amzon Echo已经具备了超过3w项技能,从技能增长梯度看,2016年开始爆发式增长,随着Echo销量的增加,至今仍在不断攀升。超过3w项技能加持的Amzon比它的一众追随者更像一个语音操作系统。

如同智能手机操作系统的app一样,海量的语音操作系统技能中,真正获得关注的还是少数,大量的技能成为僵尸技能,无人问津。因此其他智能音箱品牌,只要覆盖了高频、核心功能,提供更多资源、家控和创意功能,则无需畏惧Amzon恐怖的技能数量。

智能音箱产品功能趋同,主要分为内容技能、工具技能、互动娱乐三个大方向;功能面向核心场景及针对核心人群的核心功能趋向性逐渐显现。

用户关注度高的功能主要有音乐影视、生活助手、智能家居、游戏娱乐,其次是教育内容、趣玩搞笑、新闻,再其次是新闻、财经类功能;

工具技能用户口碑偏低,但有不可替代性;互动娱乐技能可替代性强,口碑和体验好的功能更受欢迎;内容技能评价均匀,重点在优质资源可得性。

摘录自ebay、Walmart、京东、天猫等电商平台的用户评论数据。

用户体验总结:

1)智能音箱产品整体受欢迎程度很高、用户接受度较高,评价矩阵皆为70~80%的5星好评;

2)用户对音箱产品唤醒、识别、解析等语音基础性能感知差异不大(可能由于个人拥有音箱品牌数量少于1个,对比不明显);对音质、内容资源丰富度、“聪明程度(智能感与趣味性)”等较为敏感。

3)老人、孩子对音箱的满意度、喜爱度是重要消费决策因素。

4)海外用户对音质要求更高,对音箱的使用场景区分更鲜明,倾向于为不同居所场景配备多个音箱产品,对是否自带电池等要求不多;国内用户音质要求和鉴别水平不足,期望自带电池便携便移动。

5)用户期望唤醒词自定义、内容资源更丰富、资源内容相互打通。

1 )音箱销量: 2017年全球智能音箱出货量3200w台,其中Amzon与Google以大约9:1的比例瓜分市场。Amzon 音箱销量量级已超2000w,铺货量和活跃设备数全球遥遥领先。 截止2018年4月底,国内厂商销量以天猫、小米为首,量级在200w左右,百度、腾讯及众创业公司量级均在10w之下。 具备生态闭环和技术平台的大厂商均有“高性价比铺量”的趋向,以低价占据迅速用户市场。据Canalys分析公司保守预测,2018年全球音箱销量将增长到5630台,美国作为主战场销量将达3840台,中国作为第二大市场销量可达440万台。

2 )功能覆盖: 智能音箱产品功能同质化明显,主要分为内容技能、工具技能、互动娱乐三个大方向;具备生态闭环和技术平台的大厂商正在将以语音技术为核心的AI技术平台打造成Android/ios式的操作系统,吸引更多智能硬件厂商、独立开发者入驻;鉴于技术水平差距不明显和技能开发者的可转移性,技术、技能都不会是决胜的关键因素。

3 )用户反馈: 智能音箱产品整体市场接受度较高,评价矩阵皆为70~80%5星好评;用户对唤醒成功率、识别成功率、解析成功率等语音交互基础性能感知差异不大,对音箱的音质、内容资源丰富度、智能感与趣味性等维度较敏感;同时用户期望仍处于不断攀升的阶段,对音箱产品提出了越来越多个性化要求。

语音合成技术

一,  语音合成技术原理

语音合成(test to speech),简称TTS。将文字转化为语音的一种技术,类似于人类的嘴巴,通过不同的音色说出想表达的内容。

在语音合成技术中,主要分为 语言分析部分 和 声学系统部分 ,也称为 前端部分 和 后端部分, 语言分析部分主要是根据输入的文字信息进行分析,生成对应的语言学规格书,想好该怎么读;声学系统部分主要是根据语音分析部分提供的语音学规格书,生成对应的音频,实现发声的功能。

1. 语言分析部分

语言分析部分的流程图具体如下,可以简单的描述出语言分析部分主要的工作。

文本结构与语种判断: 当需要合成的文本输入后,先要判断是什么语种,例如中文,英文,藏语,维语等,再根据对应语种的语法规则,把整段文字切分为单个的句子,并将切分好的句子传到后面的处理模块。

文本标准化: 在输入需要合成的文本中,有阿拉伯数字或字母,需要转化为文字。根据设置好的规则,使合成文本标准化。例如, “请问您是尾号为8967的机主吗?“8967”为阿拉伯数字,需要转化为汉字“八九六七”,这样便于进行文字标音等后续的工作;再如,对于数字的读法,刚才的“8967“为什么没有转化为”八千九百六十七“呢?因为在文本标准化的规则中,设定了”尾号为+数字“的格式规则,这种情况下数字按照这种方式播报。这就是文本标准化中设置的规则。

文本转音素: 在汉语的语音合成中,基本上是以拼音对文字标注的,所以我们需要把文字转化为相对应的拼音,但是有些字是多音字,怎么区分当前是哪个读音,就需要通过分词,词性句法分析,判断当前是哪个读音,并且是几声的音调。

例如,“南京市长 江大桥”为“nan2jing1shi4zhang3jiang1da4qiao2”或者“南京市 长江大桥”“nan2jing1shi4chang2jiang1da4qiao3”。

句读韵律预测: 人类在语言表达的时候总是附带着语气与感情,TTS合成的音频是为了模仿真实的人声,所以需要对文本进行韵律预测,什么地方需要停顿,停顿多久,哪个字或者词语需要重读,哪个词需要轻读等,实现声音的高低曲折,抑扬顿挫。

2 .声学系统部分

声学系统部分目前主要有三种技术实现方式,分别为:波形拼接,参数合成以及端到端的语音合成技术。

1)   波形拼接语音合成

通过前期录制大量的音频,尽可能全的覆盖所有的音节音素,基于统计规则的大语料库拼接成对应的文本音频,所以波形拼接技术通过已有库中的音节进行拼接,实现语音合成的功能。一般此技术需要大量的录音,录音量越大,效果越好,一般做的好的音库,录音量在50小时以上。

优点:音质好,情感真实。

缺点:需要的录音量大,覆盖要求高,字间协同过渡生硬,不平滑,不是很自然。

2)  参数语音合成技术

参数合成技术主要是通过数学方法对已有录音进行频谱特性参数建模,构建文本序列映射到语音特征的映射关系,生成参数合成器。所以当输入一个文本时,先将文本序列映射出对应的音频特征,再通过声学模型(声码器)将音频特征转化为我们听得懂的声音。

优点:录音量小,可多个音色共同训练,字间协同过渡平滑,自然等。

缺点:音质没有波形拼接的好,机械感强,有杂音等。

3)  端到端语音合成技术

端到端语音合成技术是目前比较火的技术,通过神经网络学习的方法,实现直接输入文本或者注音字符

,中间为黑盒部分,然后输出合成音频,对复杂的语言分析部分得到了极大的简化。所以端到端的语音合成技术,大大降低了对语言学知识的要求,且可以实现多种语言的语音合成,不再受语言学知识的限制。通过端到端合成的音频,效果得到的进一步的优化,声音更加贴近真人。

优点:对语言学知识要求降低,合成的音频拟人化程度更高,效果好,录音量小。

缺点:性能大大降低,合成的音频不能人为调优。

以上主要是对语音合成技术原理的简单介绍,也是目前语音合成主流应用的技术。当前的技术也再迭代更新,像端到端技术目前比较火的wavenet,Tacotron,Tacotron2以及deepvoice3等技术,感兴趣的朋友可以自己了解学习。

二,  技术边界

目前语音合成技术落地是比较成熟的,比如前面说到的各种播报场景,读小说,读新闻以及现在比较火的人机交互。但是目前的TTS还是存在着一些解决不掉的问题。

1. 拟人化

其实当前的TTS拟人化程度已经很高了,但是行业内的人一般都能听出来是否是合成的音频,因为合成音的整体韵律还是比真人要差很多,真人的声音是带有气息感和情感的,TTS合成的音频声音很逼近真人,但是在整体的韵律方面会显得很平稳,不会随着文本内容有大的起伏变化,单个字词可能还会有机械感。

2. 情绪化

真人在说话的时候,可以察觉到当前情绪状态,在语言表达时,通过声音就可以知道这个人是否开心,或者沮丧,也会结合表达的内容传达具体的情绪状态。单个TTS音库是做不到,例如在读小说的时候,小说中会有很多的场景,不同的情绪,但是用TTS合成的音频,整体感情和情绪是比较平稳的,没有很大的起伏。目前优化的方式有两种,一是加上背景音乐,不同的场景用不同的背景音乐,淡化合成音的感情情绪,让背景音烘托氛围。二是制作多种情绪下的合成音库,可以在不同的场景调用不同的音库来合成音频。

3. 定制化

当前我们听到语音合成厂商合成的音频时,整体效果还是不错的,很多客户会有定制化的需求,例如用自己企业职员的声音制作一个音库,想要达到和语音合成厂商一样的效果,这个是比较难的,目前语音合成厂商的录音员基本上都是专业的播音员,不是任何一个人就可以满足制作音库的标准,如果技术可以达到每一个人的声音都可以到达85%以上的还原,这将应用于更多的场景中。

三, 效果指标和技术指标

随着语音合成技术的发展,语音合成(TTS)已经应用于生活中的各个场景,实现了语音合成技术的应用落地。例如,在高铁,机场的语音播报工作,医院的叫号业务,以及现在比较火热的语音交互产品。语音合成的各种应用说明它不仅仅是一项技术,更是一款产品,作为产品,可以用哪些指标来衡量这款产品呢?

下面将介绍两种衡量TTS产品的指标,效果指标和性能指标。

1.  效果指标

1)  MOS 值

  目前关于TTS合成效果的评判标准,行业内一致认可的是mos值测试 ,找一些业内专家,对合成的音频效果进行打分,分值在1-5分之间,通过平均得到最后的分数,这就是mos值测试。 很显然这是一个主观的评分,没有具体的评分标准,这和个人对音色的喜好,对合成音频内容场景的掌握情况,以及对语音合成的了解程度是强相关的,所以算是仁者见仁,智者见智的测试方式。

由于TTS合成效果的评判主观性,导致在一些项目的验收中,不能明确出具体的验收标准,例如在定制音库的项目中,客户想做一个独有的定制音库,最后验收肯定是客户对合成音频效果满意,则成功验收,这是一个很主观的标准,怎么样才算满意呢?对于TTS厂商而言,这是不公平的。所以需要找一些可以量化的标准使得项目可以更好的验收,双方也不会因为合成效果出分歧。这里推荐一条验收标准,可以将语音合成效果量化, 分别对原始录音和合成音频进行盲测打分(mos值测试) , 合成音频的mos值能达到原始录音的85% (数值可以根据项目情况来定) 以上 , 就可验收 ,这样就可以把验收标准确定下来,且进行了量化。当然打分团队可以是客户和TTS厂商的人,也可以请第三方的人来打分,确保公平。

虽然mos值是一个比较主观的测试方式,但也有一些可评判的标准。例如在合成的音频中,多音字的读法,当前场景下数字的播报方式,英语的播报方式,以及在韵律方面,词语是否连在一起播报,应该重读的地方是否有重读,停顿的地方是否合理,音色是否符合应用于当前的这个场景,都可以在打分的时候做为得分失分的依据。

分享一个简单的评分标准,可作为参考依据。

2)  ABX 测评

  合成效果对比性测试,选择相同的文本以及相同场景下的音色,用不同的TTS系统合成来对比哪个的合成效果较好,也是人为的主观判断,但是具有一定的对比性,哪一个TTS更适合当前的场景,以及合成的效果更好。

2. 性能指标

1) 实时率

在语音合成中,合成方式分为 非流式合成 和 流失合成 , 非流失合成指的是一次性传入文本,一次性返回合成的文本音频;流式合成指的是文本传输给TTS时,TTS会分段传回合成的音频, 这样可以减少语音合成的等待时间,在播报的同时也在合成,不用等到整段音频合成完再进行播报,所以对于语音合成时间的一个指标就是实时率。实时率等于文字合成所需时长除以文字合成的音频总时长,下面是实时率的计算公式:

为什么讲实时率会说到非流失合成和流式合成,因为在流式合成场景中,开始合成的时候也就已经开始播报了,音频合成完成也就播报完成了,不会产生等待的过程,这种过程主要用于语音交互的场景,智能机器人收到语音信号之后,马上就可以给予答复,不会让用户等太久。所以为了确保用户的最佳体验, 要求“文字合成所需时长”≤“文字合成出的音频时长”,也就是实时率要小于等于1 。

2) 首包响应时间

在流式合成中,分段合成的音频会传输给客户端或者播放系统,在合成首段音频时,也会耗费时间,这个耗时称为“首包响应时间”。为什么会统计这个时间呢,因为在语音交互中,根据项目经验以及人的容忍程度,当用户说完话时,在1200ms之内,机器人就要开始播报回复,这样就不会感觉有空白时间或者停顿点,如果时间超过1200ms,明显感觉会有一个等待的时间,用户体验不佳,性子急的用户可能就终止了聊天。1200ms的时间不只是TTS语音合成的首包时间,还有ASR(语音识别)和NLU(自然语言理解)所消耗的时间,所以TTS首包响应时间要控制在500ms以内,确保给ASR,NLU留有更多的时间。

3) 并发数

人工智能的发展主要有三个方面,分别为算法,算力,数据,其实讲的性能指标相当于是算力的部分,目前承载算力的服务器有CPU服务器和GPU服务器。前面说到实时率的指标是要小于等于1,那如果实时率远小于1,是不是会对服务器造成浪费呢,因为只要实时率小于等于1,就可以满足用户的需求,让用户体验良好。 所以上面说的实时率是针对CPU服务器单核单线程时,或者GPU单卡单线程时, 那实时率的公式可以为:

为了资源的最大利用化,我们只需确保实时率接近1,或者等于1就行,没必要远小于1,所以当在单核单线程实时率远小于1时,则可以实现一核二线,一核三线的线程数,使得实时率为1,这个一核“二线”,“三线”,这个“几线”说的就是几 并发数 ,准确说是 单核并发数。 那这个并发数怎计算呢,举个例子,如果单核单线程的并发数是0.1,则一核10线程的并发就是1,也是满足需求的,就可以按照这个并发数给客户提供。所以并发数的计算公式如下:

所以当用户需要200线程的语音合成并发数使,按0.1的实时率,一核十线,只需要20核的cpu服务器,则可以跟客户要求24核的cpu服务器即可满足客户的需求,也为客户节省了成本。

再说一下这个线程和并发的概念,线程,并发算是同一个概念,例如200线并发,指的是需要同时支持200线的语音合成,200线是同时合成音频的,合成内容可以相同也可以不同。

4)  合成100个字需要多少时间(1s能合成多少个字)

有些客户对于实时率,响应时间这些概念是比较模糊的,他会问你们的 TTS合成100个字需要多少时间 或者 1s能合成多少个字 ,所以这个时候为了方便和客户沟通,我们需要知道合成100个字TTS消耗的时间。这个数据是可以大概算出来的,当然也可以直接让测试测出一百字消耗的时间。这里主要讲一下计算的方法。

按照正常的播报速度,1秒可以播报4个字左右,我们就按照四个字计算,100个字的音频,音频时长大概就是25s(100除以4),假如实时率为0.1,再根据当前的实时率计算公式,算出合成时间为2.5s,也可以计算出1s合成的字数(100/2.5)为40个字。

简单介绍了语音合成产品会涉及到的一些参数指标,还有一些测试时需要了解的指标数据,例如cpu占用,内存占用,DPS(单位时间合成的音频总时长),TPS(单位时间合成的音频任务数)以及TP99,感兴趣的朋友可以查询研究一下,这些数据也主要用于项目poc的测试中,或者TTS产品整体的测试中,可以算是对于TTS产品的一个整体的了解。

四,  语音合成厂商

   有很多厂商拥有语音合成技术,有互联网大厂,也有一些只专注于人工智能的企业。

科大讯飞 科大讯飞的语音合成技术在全球范围内也是数一数二的,合成的音频效果自然度高,讯飞官网挂接的音库是最多的,且涉及很多的场景,以及很多的外语音库。

阿里巴巴 在阿里云官网的音库,有几个音库的合成效果非常棒,例如艾夏,合成的音频播报时感觉带有气息感,拟人化程度相当高。

百度 百度的语音合成技术还是很强的,但是官网给的合成音库较少,具体不太好评判。

灵伴科技 这家公司在语音合成领域是不在忽略的。灵伴的音库合成音效果也是非常的棒,有一个东北大叔的音库,主要是偏东北话,整体的韵律,停顿,重读等掌握的很好,很到位。

标贝科技 标贝科技和灵伴科技一样,是语音合成领域不可小觑的两个企业,是因为他们TTS合成的音频效果拟人化程度很高,每个场景的风格也很逼真。

捷通华声 捷通华声是一家老牌的人工智能企业,合成的音频效果整体还是不错的,且支持多种语种的音库。

还有些企业没有一一列出来,是因为上面这些企业是在平时项目中,或者TTS技术落地应用上比较多的企业。

五, 小结

目前的语音合成已经应用于各种场景,是较成熟可落地的产品,对于合成音的要求,当前的技术已经可以做很好了,满足了市场上绝大部分需求,语音合成技术主要是合成类似于人声的音频,其实当前的技术已完全满足。目前的问题在于不同场景的具体需求的实现,例如不同的数字读法,如何智能的判断当前场景应该是哪种播报方式,以及什么样的语气和情绪更适合当下的场景,多音字如何更好地区分,确保合成的音频尽可能的不出错。当然错误有时候是不可避免的,但是如何在容错范围之内,或者读错之后是否有很好的自学机制,下次播报时就可以读对,具有自我纠错的能力,这些可能是当前产品化时遇到的更多更实际的问题,在产品整体设计的时候,这些是需要考虑的主要问题。

后续会讲述在实际场景中主要遇到的问题以及解决的方案。

杭州顺其软件科技有限公司在企业信息化行业内的口碑怎么样?

2020年的安防圈,仿佛被按下了暂停键,项目停滞、融资缓慢、研发缩减,没有人能预料到,中国安防的新十年,是以这样的状态开始,不少企业也以这样的方式结束。

过去十年里,近千家安防产业链厂商,经过无数次物竞与天择,仅留下数十家企业,拥有充沛的资金和技术储备,迎接新十年。

站在安防新十年的这个节点之上,9月5日,由雷锋网 AI 掘金志主办的第三届中国人工智能安防峰会,在杭州正式召开。

本届峰会以「洗牌结束,格局重塑」为主题,会上代表未来新十年的15家企业,为现场1000余位听众和线上几十万观众,分享迎接安防新十年的经营理念与技术应用方法论。

以下是本次大会的精彩回顾:

国际人工智能联合会首位华人理事会主席杨强:「联邦学习下的数据价值与模型安全」

杨强在大会中指出,目前很多行业并没有真正意义上的大数据,产学两界都缺乏高质量、有标注、不断更新的数据。

如何保证各方数据私密不外传,又能保证数据更新?这就是分布性数据隐私保护、联合建模的挑战和需求——把小数据聚合起来成为大数据。

加上现在人们愈发重视隐私,政府纷纷立法,对技术的监管趋严,联邦学习正为保护隐私带来了技术上的新思路。

如何理解联邦学习?“邦”是指每个实体参与者地位相同,无论大小,提供的价值才是他们存在的意义;“联”是用一种方式把它们联合起来,保护隐私,一起做有意义的事情。

联邦学习的宗旨是“数据不动模型动”,目标是“数据可用不可见”。数据可以用,但是这些原始数据是合作方彼此之间见不到的,所以一些散乱的小数据就可以成为虚拟的大数据。

杨强教授介绍称,目前联邦学习主要有横向联邦(样本不同、特征重叠)和纵向联邦(样本重叠、特征不同)两种做法,前者更适用于to C场景,后者适合to B场景。

他强调,联邦学习和分布式AI、联邦数据库的区别在于:过去这二者的数据形态、分布、表征皆为同类,但在联邦学习里它们可以是异构的;且过去联邦数据库目的是并行计算、增加效率,但现在数据本身属于不同的属主,所以需要做加密情况下保护隐私的计算。

随后,杨强也谈到了联邦学习在安防等领域的应用。此外,杨强团队还推动制定世界上第一个联邦学习国际标准,同时也发布了开源平台FATE,并且积极筹措联邦学习联盟,共建联邦学习生态。

海康威视EBG解决方案部总裁李亚亚:「赋能数字转型,服务千行百业」

李亚亚介绍,海康目前的业务主要分为三块:综合安防、大数据服务和智慧业务。

数字经济和数字化转型成为必然趋势下,人工智能交付问题依然面临挑战,难点有三:一是泛在需求,这是场景碎片化、需求差异化必然带来落地难问题;二是复杂交付,涉及产品、施工、算法优化、信息系统打通、业务流程转型等诸多问题。三是成本可控,关注投入产出比非常必要。

李亚亚认为,解决落地难,仍然是要回归商业本质。要从产品的品质抓起,目的是让各行业都享受到技术革新的红利,通过场景化、差异化的问题解决,提升用户的业务价值回报。

数字化转型是一个逐步进阶的过程,场景化是路径,因此要通过系统的产品体系去支撑场景化应用。面向企业领域的数字化业务的开展和落地,海康威视从拉近管理距离,提升业务效率,规范作业行为,防范安全隐患四个维度出发为行业赋能。

海康威视秉持开放融合的合作理念,携手合作伙伴,共同实践数字化转型之路;秉善笃行,不断创新技术和产品赋能千行百业,为社会的安全和发展开拓新视界。

大华股份先进技术研究院院长殷俊:「AI 行业应用,产业升级」

殷俊认为,AI经历了理论研究的1.0、智能落地的2.0,目前处于行业智能的3.0阶段。

AI 1.0时期是“两耳不闻窗外事,一心只读圣贤书”,计算力不够,数据有限,算法不成熟;2.0阶段是“纸上得来终觉浅,绝知此事要躬行”,算法、算力有了突破,成熟的算法寻找落地场景;3.0阶段是“忽如一夜春风来,千树万树梨花开”,行业最需要的不仅是一套算法、一套系统,而是企业解决客户痛点和需求的能力。

在行业智能背景下,人工智能需要具备的基础能力包括:一是AI技术泛化、快速迁移新应用的能力;二是应用牵引,快速适配新需求的能力。

殷俊认为在3.0阶段是应用主导个性化和AI解决方案的敏捷交付。在这个过程中,首先要构建人工智能解决方案的端到端体系化能力,大华已经在四个方向做了重点布局:系统架构、数据智能、智能工程化、智能技术。

除了构建以上核心能力,大华还开放全栈能力,赋能行业生态,并在实战中持续积累人工智能核心技术,针对全场景理解、小规模数据、泛化能力、多任务学习和AutoML等人工智能的五大技术挑战,开展实践探索,并已取得实战应用成果。

最后,殷俊强调,AI目前还是依赖人工为主,大华希望未来在行业共同努力下,能够真正转向AI的自我智能,推动行业智慧化落地。

西部数据智慧视频产品首席技术官孙煜:「AI安防与存储的变革」

孙煜提到人工智能在监控行业的应用四个主要要素:芯片、软件、存储和厂商。

芯片不断提升算力,并降低成本,软件提供高效实用的算法,海量数据需要被存储才能被利用,厂商集成以上要素并落地。这个生态中,各方要素一起合作才能使得AI真正落地。

AI应用,使得视频监控的存储架构从以前的端和边,变为现在的端、边、云,连接方式云化,其中,存储器需要更高顺序读写性能、更大的存储容量、更高地随机读写性能、更快地响应时间。

西部数据通过提供视频监控行业从终端到核心的存储产品组合,协助视频监控行业的AI落地。

孙煜演示了西部数据专门为整个视频监控行业打造的从端、边、云的各个产品组合,以及专门随时检测硬盘监控状态的软件WDDA,Western Digital 设备分析 (WDDA) 是 Western Digital 的监控优化存储产品系列支持的全新设备分析功能。WDDA使管理员能前瞻式地管理存储设备并保持性能优化,防止意外故障。

孙煜强调AI进入后传统监控盘力不从心,系统厂商通过合并通道单码流,顺序地写入,大大减少了硬盘的飞行时间和次数,把飞行机会转移到数据库访问,提升存储系统的性能。

西部数据认为提高数据利用率的关键,是告别简单粗放模式,进行精细化的分层存储策略,他们还建立起一套四层存储架构体系:热存储、温存储、冷存储、极冷存储,分而治之,极大地提高数据利用效率。

商汤科技智慧城市事业群产品副总裁朱鑫:「AI 驱动城市智能化变革」

数字化转型的核心技术是云计算、移动互联网、物联网以及大数据,更多是在于更高效的信息组织,更顺畅的一些信息流动,以及更便捷的信息访问,从而去改善企业以及行业的效率,生产力是百分比提升。

智能化变革,机器将取代人工,如此会形成一个自主的组织生产,最关键的是,随着数字技术、芯片、摩尔定律以及云计算能力相关规律影响,机器成本会持续下降,规模化后机器成本会趋向极低的成本。彼时对生产力的提升不是百分比,可能是倍数,甚至是指数级。

大量的城市物联设备、规划的城市群,以及城市里形成的大量人流、物流、车流、金融流、数据流,组成了城市互联网。

朱鑫总结了城市互联网市场下,真正推动一个城市智能化变革的三大支柱系统。

一是新一代的联网汇聚平台。视觉数据是城市最丰富的数据资源,前端设备收集的数据通过联网汇聚,形成城市动态的数据资源池,动态数据经过AI系统处理后,成为城市数据资产。二是超级计算底座。每个城市需要一个新型的超算中心。三是城市级算法系统。系统有三大板块:城市的主算法系统、城市级场景算法系统和通过融合、关联、决策,形成一个完整的城市的算法系统。

商汤在这几个支柱下面形成了一整套体系与方案,从最底层的基础建设开始,从数据中心基础设施到城市智能的计算中心,再到城市智能云赋能中心,把整体算法系统能力都放在云赋能中心。

宇视副总裁、首席架构师姚华:「AI 如何得到人民的好口碑」

姚华回顾了2018年提出的AI与安防的七座大山,并指出如今视图数据全链路计算逻辑已经形成,AI在安防已经从0跨越过1。宇视的AI部署已经在从城市到郊区、乡村,解决群众的小事和琐事。

业务状态出现新挑战,比如动态人口服务和管理难、案件有效线索率低。姚华列举“宇视追影系统”应用的三个案例:疫情期间24小时找回出走口罩少女,男子沿街威胁案件,合伙扒窃案,以上成功案例中,最关键的技术是ReID(跨镜追踪)。

姚华指出,ReID应用有七大技术难点:第一,不同姿态、角度、分辨率下的人体之间的匹配;第二,复杂场景、有遮挡,密集人群等场景下的匹配;第三,不同交通工具上的人体的匹配;第四,不同时间段以及着装变化后的行人匹配;第五,跨摄像头模态行人匹配;第六,目标行人着装发生变化后的匹配问题;第七,在较小训练集上匹配算法训练较为受限问题。

宇视联合博观(拥有国际三大主流ReID数据集、Vehicle ReID等世界纪录的算法公司),设计了基于现有样本的GAN对抗网络,较好地模拟了人体的多角度、多姿态特征。同时,辅以多种预处理算法,极大地扩充了原始样本基数,使得在较小训练集上匹配算法训练受限的问题迎刃而解。

其次,宇视在算法中采取结合全局特征和多尺度局部特征的混合向量提取解决方案,并在训练中采用迁移学习,再者,对每个人体的局部特征进行重定位的匹配训练,通过实现对人体局部位置的精准定位,可将人脸识别与ReID联动结合,解决跨镜追踪应用的诸多难点。

宇视追影系统发布一周年,实战应用落地中国百余个城市和地区,实战案例超1000个,找回走失人口100余人,小微案件侦破率提升50%。最后,姚华用“好AI,为人民服务”结束:小案件是群众的“天”,无论乡村还是城市,AI帮助解决小案件难题,能让我们尊重每一个微小的个体。

360城市安全集团副总裁、360视觉科技总经理邱召强:「360 以安全为基础的 AI 技术与应用 」

邱召强表示,当行业在享受技术带来当先进性时,360通常用逆向思维思考:一个新的技术产生的同时会带来哪些安全隐患。

邱召强指出了数字时代的四个特征:第一,一切皆可编程,也造成漏洞无处不在;第二万物均需互联,虚拟世界的操作带来了物理真实世界巨大的灾难;第三大数据驱动业务,数据一旦汇总,安全性难以保证;第四软件定义世界,世界架构在软件之上,脆弱性前所未有。

360在过去15年,总结和打造出了一套云端的安全平台。360安全架构是以安全大脑为核心,六大板块,一个安全大脑,十个安全基础设施,和一个运营的所发,一个专家的团队,一个实战演练机制和一个安全互通的标准。

背靠360城市安全集团,360视觉科技专注于人脸识别产品的开发和应用,打造出以大数据为基础的视觉安全产品,包括了人脸识别门禁、人脸识别通道闸机、人证核验设备等智能终端及针对办公楼宇、酒店、商超、社区、学校,交通枢纽等场景解决方案,构建以安全为核心的智能生态。

360安全赋予了360视觉科技独特的竞争力。针对人脸识别终端设备的安全,对核心库和可执行性文件进行核心加固、对代码加固、对应用程序加固,三重安全加固防护;此外,360视觉科技还独创密钥白盒技术,为人脸识别终端、云平台环境中的数据加密及公私钥身份认证,全程密钥无明文。

最后,邱召强展示了360视觉科技人脸识别硬件家族,以及智慧园区、智慧楼宇、社区安全、智慧校园、机场安防、智慧办事大厅等几大行业解决方案。

华为机器视觉领域总裁段爱国:「华为 HoloSens ,点亮智能世界」

段爱国提出,一个真正的智能世界有三个非常典型的特征或者基础框架技术:一是万物感知,二是万物互联,三是万物智能。

在华为来看,万物互联、5G、光网络是华为的强项,华为机器视觉将成为华为在万物感知的核心。

段爱国还认为,智能世界向前迈进有三大核心技术:以全息感知为核心的机器视觉,以万物互联为基础的移动无线通信,以及万物智能的AI技术,2020年这三个技术开始合拢。

所以华为在2020年率先提出,所有的视频技术应该从人看向给机器看转移,并正式把产品线更名为“机器视觉”,聚焦打造两个核心的能力:一是前端的全息感知能力,二是在后端用数据驱动,反作用于物理世界,驱动于智能世界。

4G的时代,以智能手机为核心,出现了各种行业移动互联网的应用。在华为来看,机器视觉就是5G时代的行业数字化的智能手机。段爱国还提到,过去5年,AI的成本在下降,AI已经进入到普惠的时代,他预测未来两年智能摄像机一定会超过网络摄像机。

另外,华为将聚焦打造4个核心战略产品和平台:前端的软件定义摄像机,后端的智能视频存储,类似于智能手机应用市场的智能算法应用商城,以及华为机器视觉云服务。

在此基础上提出四大战略策略:战略一,积极投入全栈全场景的AI研究;战略二,重构产业架构,加速智能化升级;战略三,平台+生态,赋能千行百业;战略四:端边云协同,深度数据挖掘。

最后他强调, 会将开放进行到底,未来的智能世界很复杂,华为不可能一个人包揽全部的工作,希望大家一同成长。

旷视副总裁那正平:「城市大脑的条与块」

那正平表示,城市治理数字化、智能化浪潮中,无论是智慧城市、城市大脑还是数字孪生概念,核心思想都是通过物联网、人工智能等技术,准确发现城市运行的内在规律,从而进行动态优化调节,解决城市面临的安全、出行、环境、产业升级等诸多问题,最终提升城市治理水平。

那正平归纳出做好城市大脑和城市大脑的操作系统的几大要点:深入研究城市发展规律;探寻业务本质;先具象再抽象;脚踏实地,长期主义。

旷视通过分析城市空间和管理对象,指出城市的日常运作管理需要秉持以人为本核心,城市大脑应围绕条块结合的方式实现综合管理,实现条、块、脑、OS的协同。

城市大脑中的条应用总量少,单体规模大、高并发、数据壁垒强;而块总量大、IoT种类多,低并发、数据壁垒低,集成联动潜力大。

基于此,旷视提出:构筑城市大脑需要先围绕“条”和“块”打造城市级的超级应用,验证产品、实现单一场景闭环,从而形成具有旷视特色的软件和硬件产品矩阵,最终逐渐沉淀出城市级和建筑级AIoT操作系统,实现城市物联网的闭环。

旷视认为,人工智能产业现在处于并将长期处于初级阶段,我们必须正视并不能超越这个初级阶段。第二,人工智能产业的主要矛盾是市场日益增长的多样化需求同落后的算法生产力之间的矛盾。

云从科技安防行业部总经理李夏风:「人机协同平台,助推社会治理现代化升级」

云从认为人机协同有三部分:人机交互、人机融合、人机共创。

人机协同中,各个行业的专家、以机器代表的AI知识服务和用户,三者形成一个闭环,首先专家把知识赋能给机器,机器转换成智能化产品并提升客户的体验,用户从中反馈出个性化的需求,后续提升专家的效率并反哺到产品或服务中。

云从人机协的落地通过三部分实现:智能化终端设备收集数据,同时也是人机交互的入口,云端大脑是整个数据的汇集、分析、提炼的中枢,当数据大脑经过分析,形成相关的服务后,通过嵌入式的模块,即AI平台,实现人机协同在各个场景落地。

而AI训练平台融合数据智能标注、OCR训练、图像训练、NLP训练、视频结构化训练于一体,根据场景数据,生成符合行业需求的AI模型算法。云从的智能解析引擎具备软硬解耦特性,可以适配国有自主芯片,还能实现效率和使用维度的极大地性能提升。

基于云从的数据分析引擎,提供面向数据全生命周期的分析、挖掘及应用服务,完成数据到知识的价值转换,赋能各业务场景应用。

具体来说,汇聚感知数据,打造数据挖掘基础,融合业务数据,灵活定制生成各类标签,拓展业务对象,并依托认知信息,形成各类专家的决策,为决策提供有力的支撑,最后,依托可视化专家建模,固化专家经验模型,积累与传承业务知识。

从数据到知识是数据价值挖掘的必经之路,目前大部分数据资源没有得到充分利用,云从的知识生产与服务平台KaaS,通过将标签、机器学习等知识模型化、在线化,加上AI 引擎, 变数据/经验为在线知识。

通过数据智能模型为核心的知识体系构建实现从多维数据中挖掘隐形事件背后的关联关系及规律现象,服务于风险防控、态势预测、行为画像、虚拟轨迹等各类实际业务决策。

比特大陆AI业务线CEO王俊:「安防新基建,AI 芯智能」

王俊认为,当市场容量足够大时,总是会催生出更专注的产品,因为越是专注的产品,越容易获得更高的效率,随着AI市场的爆发,AI的计算硬件亦是如此。过去大家用GPU来取代CPU提供AI算力,现在正是从GPU切换至TPU或其他AI专用芯片以获得更高效率的时代。

比特大陆算丰自研的TPU,覆盖了云、边、端,专注于深度学习计算,相对于CPU和GPU,在获得更高性能的同时,还具备更高的性价比和更低的功耗。安防行业已经完成了从看得见到看得清,看得清到看得懂的阶段,而未来在更多专用AI芯片加持下,可继续实现看得快、看得起。

王俊还提到,比特大陆算丰业务坚持专注、开放、合作共赢的理念,专注AI芯片及其相关硬件的研发,同时开放各个层次的软件接口方便各种算法的接入和优化,力求和各个算法、应用等合作伙伴紧密合作,共同打造完整的AI解决方案。

同时,他们会打造基于比特大陆算丰芯片的算力平台,提供数据、算法、应用的统一管理,这样不同的应用需求,基于不同深度学习框架的不同算法方案,都可简单、高效的运行在该算力平台上。用户可自由选择最合适的方案,接入数据,并获得智能分析的结果。如此,在真实的场景中,无论是人脸识别、视频结构化这样单一的应用,还是城市大脑这样的综合方案,比特大陆都可基于该平台,联合合作伙伴,提供统一、高效、易用的AI算力服务。

澎思科技副总裁曲瀚:「AIoT 新基建,加速人工智能进入普惠时代」

澎思科技认为人工智能新基建的一个核心就是AI的基础设施化,分为技术基础设施和融合基础设施。

在此趋势下,智慧城市和AI安防将成为新基建的最佳试验场。另外,AI安防也逐渐发展到了第二阶段,AI在To B领域的发展开始从单一的场景向全社会各个领域延伸,每个细分的场景都展现出不同的AI服务需求,未来就是服务为王的时代,谁能够快速精准地把握住客户的需求,谁就能够在未来的竞争中快速胜出。

曲瀚指出,AI普惠的产品有两个核心要点:一是极致产品体验,二是场景化的解决方案能力。实现AI普惠的终局在于四个方面:第一,万物智联,所有的AI终端实现在线化。第二,推动AI算法向通用智能算法演进,降低机器学习的成本,提高泛化能力。第三,构建一个丰富的产品生态。第四,场景的联动和重塑。AI不是一个孤立的系统,需要和客户的其他系统做连接和联动,才能使得场景服务变成一个主动智能的服务。

澎思基于对普惠AI的理解,构建了澎思AIoT生态平台,包括四个关键的能力:第一,智能视图大脑。算法会从云、边、端三个维度全链条嵌入。第二,全系列自研的智能边缘设备。第三,打造云端智能服务的开放平台。第四,后端建立数据管理平台,使得数据在AI、硬件以及云服务能够充分地流动,实现业务和训练数据的并轨。

曲瀚还表示,普惠AI最核心的是算法能力,这是整个AIoT业务的底座,澎思的算法在云端和边缘端都走在世界的前列。

最后,曲瀚还重点介绍了在智能城市「新基建」中,澎思在城市公共安全与治理、人居场景智能化两大场景中的落地情况,以及深度参与新加坡等海外市场智慧城市的建设经验。

的卢深视CEO户磊:「大库时代,落地千万级刷脸系统的技术剖析与建库经验」

户磊提到,大库时代,金融支付、交通等众多场景亟需千万级精准人脸识别技术方案。目前行业内现有方案为多引擎,多层级,分库管理模式,系统复杂、软硬件开销大、成本高、效率低。

因此理想的大库识别方案应该具备以下几点:精准,万亿分之一误识别率,千万级别底库,鲁棒性好,高度兼容性,以及价格适宜。而的卢深视是全国首个建立省级规模三维人像数据库的AI公司。

的卢深视的千万级精准识别的刷脸系统具有几大关键技术点。

系统架构,分为三个层次,由前端多维智能感知系统、千万大库云端中台和多模态关联分析与预测组成。

其中高性能三维人脸识别算法与前端相机深度集成,降低后端计算开销,中台支撑千万级大库人脸的建库、清洗、检索,适配度高、效率高,多模态架构的兼容性好,分析预测环节基于大数据的逻辑推理,时空轨迹关联分析,将2D/3D人脸、人体、物品、时间、地点等多维大数据融合,深度挖掘数据之间的关联性,实现预测与预警。

其次是技术架构。核心算法层,其中最重要的是3D算法层;平台技术层,包括后端的技术,包括通信计算、协同优化等等技术;业务中台,对数据接入、数据管理、数据清洗、优选,而后融到库里面进行数据同步,最终支撑各种各样应用。

再者,的卢深视建立三维数据标准及评价打分体系,这是后续进行三维应用的基础,的卢深视对于各种数据类别,均提供数据质量要求及评价标准。

户磊还总结了的卢深视3D识别的优势:

准确率高,保证精度不损失的情况下,突破了三维人脸识别的量化技术,最终可以实现在千万级库上面秒级的反馈结果,可以保证万亿大库下的高准确率 。

鲁棒性好,实现了深度图和红外图的识别,不受光线影响,包括大角度、浓妆识别的准确率,能够融入15到20度大的角度的差异。

安全性高,尤其对于活体检测,能够实现2D平面伪装攻击方式100%防御。

平安科技副总工程师王健宗:「联邦智能——智慧城市的突围之道」

目前,人工智能在移动互联网、云计算、大数据、IOT、5G等新技术的驱动下得以迅猛发展, 不过在AI技术落地时总是有所欠缺,即人工智能通用算法在本地化部署过程中所面临的数据困境,而这一块恰恰是相关行业或企业所缺乏的。

王健宗认为,其数据困境主要是三点:数据孤岛、法律法规监管日趋严格,以及传统AI技术模式下的限制。

联邦智能是以联邦学习为龙头,同时涵盖联邦数据部落、联邦推理、联邦激励机制,共由四部分组成。面对目前日益苛刻的数据安全隐私的问题,通过构建联邦学习的技术内核,建立联邦数据部落,实现具备隐私保护的联邦推理,并以联邦激励机制为纽带形成一个完整的AI生态格局,从而打破数据壁垒,使人工智能发展迈向新阶段。

其中,联邦学习是隐私保护下的分布式机器学习技术,以及“数据孤岛问题”的解决方案。联邦数据部落,在确保数据安全及用户隐私的前提下,建立基于联邦智能的大数据部落生态,充分发挥各行业参与方的数据价值,推动垂直领域案例落地。联邦推理,在一个隐私与安全的链路过程中,发挥着引擎模型的联邦推理作用。联邦激励机制,它的核心是一个遵循基本准则的闭环学习机制,通过联合建模协议达成、贡献度评估、激励及资金划定等环节,吸引外部企业参与,加入联邦智能生态。

平安的蜂巢联邦智能平台。在整个平台中,蜂巢依托平安集团这一综合性集团背景,能够提供智慧金融、智慧城市、智慧医疗商用级的一站式解决方案,希望能够以此激活数据价值,这也是整个平台的使命。蜂巢平台的目标是跨企业、跨数据、跨领域,实现整个大数据AI生态。此外,它在营销、获客、定价、风控、智慧城市等等方面推出了相关的解决方案。

最后,王健宗总结道,联邦智能作为枢纽,将会为智慧城市的未来提供更多新的机会。同时,随着公民隐私安全意识的不断加深,它将更好地为公众带来高品质的个性化服务,并在当前新基建的背景下,立足于数据,依托联邦智能生态,加速精细化服务时代的到来,这也是联邦智能的机会。

灵伴科技公共安全事业部总经理刘叶飞:「安防新十年,AR 来主宰」

刘叶飞认为AR在智能安防领域有独特优势,比如第一视角显示,融合现实世界,人机交互自然,信息传递准确。AR技术如果运用到智能安防领域,在未来的十年,AR+AI必定推动整个安防市场。

杭州灵伴科技成立于2014年,从做语音识别、语音交互起家,随后过度到视觉交互,主要体现在AR层面,在2020年,灵伴推出了全球首款光波导形态的AR智能眼镜。

他还现场展示了灵伴科技在全球首款可量产的光波导智能眼镜,可折叠,小巧轻便。基于光波导优质的显示效果,可以不影响正常视线的情况下与外界进行交互。

刘叶飞还介绍,这款智能AR眼镜具有人脸识别、红外测温、车牌识别、执法记录、信息推送、远程指挥等等功能,相当于取代三个信息化执法终端所有的功能。除了安防行业,还可在智慧园区、大型安保活动、监狱、海关/边检、轨道交通、机场等多种场景使用。此外,灵伴科技在博物馆、两会、疫情防控等场景下的均有落地案例。

安防「新十年」颁奖典礼

大会演讲环节结束后,峰会进入到安防「新十年」颁奖环节。

AI与安防的融合,经由2018年的静水深流、2019年的混沌厮杀,2020年的技术研究与方案落地将会更为清晰、成熟。

身处产业临界节点,雷锋网AI掘金志启动安防「新十年」评选活动。

雷锋网AI掘金志从商业维度出发,基于对AI安防产业四年的调研和资源积累,并联合政、企、学、投资四界的评选委员,致力于寻找广受市场认可的企业、产品,寻找人工智能在各个行业的最佳应用。

五大城市代表企业榜

五大最佳行业解决方案榜

引领未来十年的五大新基建企业

杭州灵伴科技被谁收了

有消息称,国内AR智能眼镜领域领军企业杭州灵伴科技有限公司(以下简称“Rokid”)在近日获得总额7亿元人民币的C轮融资,本轮融资主要用于技术研发、市场营销和生态建设。

据公开资料,Rokid 是一家专注于人机交互技术的产品平台公司,致力于AR眼镜等软硬件产品的研发及以YodaOS-XR操作系统为载体的生态构建。该公司此前已获得包括淡马锡、IDG 资本、瑞士信贷、海通证券、元璟资本在内的多家顶级机构投资。

AR/VR领域在近两年持续火热,AR/VR智能终端产品更是被视为元宇宙的重要入口,同时也是移动终端及可穿戴设备领域的技术集大成者。因此,真正可量产的消费级AR/VR智能眼镜备受市场关注,包括Meta、谷歌等国内外头部企业均在加大力度布局。Rokid在去年12月正式开售消费级AR智能眼镜Rokid Air。数据显示,上市短短3个月,Rokid Air就在KICKSTARTER、亚马逊、天猫等国内外多个渠道稳定占领AR销售榜榜首,引发元宇宙消费全面加速的热议。

有业内分析人士表示,在2022年全球经济遇到挑战的大背景下,Rokid完成本轮融资,一方面反映了资本对AR产业未来的持续看好,另一方面也得益于Rokid作为头部企业在技术和产品方面的深厚积累

杭州灵伴科技的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于杭州灵伴科技怎么样、杭州灵伴科技的信息别忘了在本站进行查找喔。

跃门娱乐站原创文章,未经授权禁止转载。详情见转载须知

分享:
相关文章

文章点评:

表情
最新文章
热门搜索