Тиркемелердин саны жана үн интерфейстеринин мааниси тездик менен өсүп жатат
технология

Тиркемелердин саны жана үн интерфейстеринин мааниси тездик менен өсүп жатат

Орегон штатынын Портленд шаарындагы америкалык үй-бүлө жакында эле Алекстин үн жардамчысы алардын жеке баарлашуусун жазып алып, досуна жөнөткөнүн билишкен. ММКлар Даниел деп атаган үйдүн ээси журналисттерге "бул аппаратты кайра эч качан электрге туташтырбайм, анткени ага ишенүүгө болбойт" деди.

Alexa, АКШнын он миллиондогон үйлөрүндө Echo (1) динамиктери жана башка гаджеттери менен камсыздалган, анын атын же колдонуучу айткан "чалуу сөзүн" укканда жаздыра баштайт. Бул сыналгы жарнамасында "Alexa" деген сөз айтылса да, аппарат жаздыра башташы мүмкүн дегенди билдирет. Бул учурда дал ушундай болду, дейт Аппараттык дистрибьютор Amazon.

"Сүйлөшүүнүн калган бөлүгүн үн жардамчысы билдирүү жөнөтүү буйругу катары чечмеледи", — деп айтылат компаниянын билдирүүсүндө. "Бир убакта Alexa катуу сурады: "Кимге?" Катуу жыгач полу жөнүндө үй-бүлөлүк маектин уландысы машина тарабынан кардардын байланыш тизмесиндеги нерсе катары кабыл алынышы керек болчу. Жок дегенде Amazon ушундай деп ойлойт. Ошентип, котормо бир катар кырсыктарга чейин кыскарат.

Бирок, тынчсыздануу сакталып турат. Анткени, эмнегедир, биз дагы эле өзүбүздү эркин сезген үйдө, кандайдыр бир "үн режимине" киришибиз керек, эмне деп жатканыбызды, сыналгы эмнени көрсөтүп жатканын жана, албетте, көкүрөгүндөгү бул жаңы динамик эмне экенин көрүшүбүз керек. тартмачылар дейт. биз.

Ошондой болсо да, Технологиянын кемчиликтерине жана купуялуулукка байланыштуу көйгөйлөргө карабастан, Amazon Echo сыяктуу түзмөктөрдүн популярдуулугунун өсүшү менен, адамдар өз үнүн колдонуп компьютерлер менен иштешүү идеясына көнүп калышты..

2017-жылдын аягында AWS re:Invent сессиясында Amazon компаниясынын техникалык директору Вернер Фогелс белгилегендей, технология биздин компьютерлер менен өз ара аракеттенүү мүмкүнчүлүгүбүздү азырынча чектеп койду. Биз клавиатура аркылуу Google'га ачкыч сөздөрдү теребиз, анткени бул дагы эле машинага маалыматты киргизүүнүн эң кеңири таралган жана эң оңой жолу.

Фогельс билдирди. -

чоң төрт

Телефондо Google издөө системасын колдонгондо, биз көп убакыт мурун сүйлөшүүгө чалуу менен микрофондун белгисин байкадык. Бул Google азыр (2), ал издөө сурамын жазуу, үн аркылуу билдирүү киргизүү, ж.б. үчүн колдонулушу мүмкүн. Акыркы жылдары Google, Apple жана Amazon абдан жакшырды үн таануу технологиясы. Alexa, Siri жана Google Assistant сыяктуу үн жардамчылары үнүңүздү жаздырып эле койбостон, аларга эмне деп айтканыңызды түшүнүп, суроолорго жооп берет.

Google Now бардык Android колдонуучулары үчүн акысыз. Тиркеме, мисалы, ойготкуч коюп, аба ырайын текшерип, Google карталарынан маршрутту текшере алат. Google Now штаттарынын сүйлөшүү кеңейтүүсү Google Жардамчы () – жабдууларды колдонуучуга виртуалдык жардам. Ал негизинен мобилдик жана акылдуу үй түзмөктөрүндө жеткиликтүү. Google Nowдан айырмаланып, ал эки тараптуу алмашууга катыша алат. Жардамчы 2016-жылдын май айында Google Allo жазышуу колдонмосунун бир бөлүгү катары, ошондой эле Google Home үн динамигинде дебют жасаган (3).

3. Google Home

IOS тутумунун өзүнүн виртуалдык жардамчысы бар, Сериялар, бул Apple'дин iOS, watchOS, tvOS homepod жана macOS операциялык системаларында камтылган программа. Siri биринчи жолу iOS 5 жана iPhone 4s менен 2011-жылдын октябрында "Келгиле сүйлөшөлү" iPhone конференциясында чыккан.

Программа сүйлөшүү интерфейсине негизделген: колдонуучунун табигый сүйлөөсүн тааныйт (iOS 11 менен буйруктарды кол менен киргизүү да мүмкүн), суроолорго жооп берет жана тапшырмаларды аткарат. Убакыттын өтүшү менен машина үйрөнүүнү киргизүүнүн аркасында жардамчы жеке каалоолорун талдайт колдонуучу көбүрөөк тиешелүү натыйжаларды жана сунуштарды берүү. Siri тынымсыз Интернет байланышын талап кылат - бул жерде негизги маалымат булагы Bing жана Wolfram Alpha болуп саналат. iOS 10 үчүнчү тараптын кеңейтүүлөрүн колдоону киргизди.

Чоң төртөөнүн дагы бири Cortana. Бул Microsoft тарабынан түзүлгөн акылдуу жеке жардамчы. Ал Windows 10, Windows 10 Mobile, Windows Phone 8.1, Xbox One, Skype, Microsoft Band, Microsoft Band 2, Android жана iOS платформаларында колдоого алынат. Cortana биринчи жолу 2014-жылдын апрель айында Сан-Францискодо өткөн Microsoft Build Developer конференциясында сунушталган. Программанын аты Halo оюн сериясындагы каармандын атынан келип чыккан. Cortana англис, италия, испан, француз, немис, кытай жана жапон тилдеринде жеткиликтүү.

Буга чейин айтылган программанын колдонуучулары Alexa алар тил чектөөлөрүн да эске алышы керек - санариптик жардамчы англис, немис, француз жана жапон тилдеринде гана сүйлөйт.

Amazon Virtual Assistant биринчи жолу Amazon Lab126 тарабынан иштелип чыккан Amazon Echo жана Amazon Echo Dot акылдуу динамиктеринде колдонулган. Ал үн менен өз ара аракеттенүүнү, музыканы ойнотууну, аткарыла турган иштердин тизмесин түзүүнү, ойготкучту орнотууну, подкаст агымын, аудиокитепти ойнотууну жана реалдуу убакыттагы аба ырайы, жол кыймылы, спорт жана жаңылыктар (4) сыяктуу башка жаңылыктарды берет. Alexa үй автоматташтыруу системасын түзүү үчүн бир нече акылдуу түзмөктөрдү башкара алат. Аны Amazon дүкөнүндө ыңгайлуу соода кылуу үчүн да колдонсо болот.

4. Колдонуучулар Эхону эмне үчүн колдонушат (изилдөөлөргө ылайык)

Колдонуучулар Alexa "көндүмдөргө" (), үчүнчү тараптар тарабынан иштелип чыккан кошумча функцияларды орнотуу менен Alexa тажрыйбасын өркүндөтө алышат, көбүнчө башка жөндөөлөрдөгү аба ырайы жана аудио программалары сыяктуу колдонмолор деп аталат. Көпчүлүк Alexa түзмөктөрү виртуалдык жардамчыңызды ойготуу сырсөзү менен иштетүүгө мүмкүндүк берет.

Бүгүнкү күндө Amazon, албетте, акылдуу спикерлер рыногунда үстөмдүк кылат (5). 2018-жылдын март айында жаңы кызматын сунуштаган IBM алдыңкы төрттүккө кирүүгө аракет кылууда Уотсондун жардамчысы, үн башкаруусу бар виртуалдык жардамчылардын өз тутумдарын түзүүнү каалаган компаниялар үчүн иштелип чыккан. IBM чечиминин артыкчылыгы эмнеде? Компания өкүлдөрүнүн айтымында, биринчи кезекте, жекелештирүү жана купуялуулукту коргоо үчүн алда канча чоң мүмкүнчүлүктөр жөнүндө.

Биринчиден, Watson Assistant бренди эмес. Компаниялар бул платформада өз чечимдерин түзүп, аларды өз бренди менен белгилей алышат.

Экинчиден, алар өздөрүнүн жардамчы системаларын өздөрүнүн маалымат топтомдорун колдонуу менен үйрөтө алышат, IBM бул системага башка VUI (үндүү колдонуучу интерфейси) технологияларына караганда функцияларды жана буйруктарды кошууну жеңилдетет дейт.

Үчүнчүдөн, Watson Assistant IBMге колдонуучунун активдүүлүгү жөнүндө маалымат бербейт - платформадагы чечимдерди иштеп чыгуучулар баалуу маалыматтарды өздөрүнө гана сактай алышат. Ошол эле учурда, мисалы, Alexa менен түзмөктөрдү курган ар бир адам, алардын баалуу маалыматтары Амазонка менен аяктаарын билиши керек.

Watson Assistant буга чейин бир нече ишке ашырууга ээ. Система, мисалы, Maserati концепциясы үчүн үн жардамчысын жараткан Harman тарабынан колдонулган (6). Мюнхен аэропортунда IBM жардамчысы жүргүнчүлөрдүн кыймылына жардам берүү үчүн Pepper роботун иштетет. Үчүнчү мисал - Chameleon Technologies, мында үн технологиясы акылдуу үй эсептегичинде колдонулат.

6. Уотсондун жардамчысы Maserati концептуалдык унаасында

Бул жерде негизги технология да жаңы эмес экенин кошумчалай кетүү керек. Watson Assistant учурдагы IBM өнүмдөрү, Watson Conversation жана Watson Virtual Agent үчүн шифрлөө мүмкүнчүлүктөрүн, ошондой эле тилди талдоо жана баарлашуу үчүн API'лерди камтыйт.

Amazon акылдуу үн технологиясынын лидери гана эмес, аны түз бизнеске айландырууда. Бирок, кээ бир компаниялар Echo интеграциясы менен мурдараак эксперимент жасашкан. BI жана аналитика тармагындагы Sisense компаниясы 2016-жылдын июлунда Echo интеграциясын киргизген. Өз кезегинде Roxy стартапы меймандостук индустриясы үчүн үн менен башкарылуучу өзүнүн программалык жана аппараттык жабдыктарын түзүүнү чечти. Үстүбүздөгү жылдын башында Synqq ноталарды жана календарлык жазууларды баскычтопто тербестен кошуу үчүн үн жана табигый тилди иштетүүнү колдонгон жазууларды жазуу колдонмосун сунуштады.

Бул чакан ишканалардын бардыгынын амбициялары жогору. Баарынан да, алар ар бир колдонуучу өз маалыматтарын Amazon, Google, Apple же Microsoftко өткөргүсү келбей турганын түшүнүштү, алар үн байланыш платформаларын курууда эң маанилүү оюнчулар.

Америкалыктар сатып алгысы келет

2016-жылы үн менен издөө Google мобилдик издөөлөрүнүн 20% түзгөн. Бул технологияны күн сайын колдонгон адамдар анын эң чоң артыкчылыктарынын катарына анын ыңгайлуулугун жана көп милдеттерин айтышат. (мисалы, унаа айдап баратканда издөө системасын колдонуу мүмкүнчүлүгү).

Visiongain аналитиктери акылдуу санарип жардамчыларынын учурдагы рыноктук наркын 1,138 миллиард доллар деп баалашууда.Мындай механизмдер барган сайын көбөйүүдө. Gartner айтымында, 2018-жылдын аягына чейин Биздин өз ара мамилебиздин 30% технология менен үн системалары менен сүйлөшүү аркылуу болот.

Британ изилдөө фирмасы IHS Markit AI менен иштеген санарип жардамчыларынын рыногу ушул жылдын аягына чейин 4 миллиард түзмөккө жетет жана бул сан 2020-жылга чейин 7 миллиардга чейин өсүшү мүмкүн деп эсептейт.

eMarketer жана VoiceLabs баяндамаларына ылайык, 2017-жылы 35,6 миллион америкалыктар айына жок дегенде бир жолу үн менен башкарууну колдонушкан. Бул өткөн жылга салыштырмалуу дээрлик 130% өскөн дегенди билдирет. Санариптик жардамчы рыногу 2018-жылы 23% га өсөт деп күтүлүүдө. Бул сиз аларды мурунтан эле колдонуп жатканыңызды билдирет. 60,5 миллион америкалыктар, бул алардын өндүрүүчүлөр үчүн конкреттүү акча алып келет. RBC Capital Markets Alexa интерфейси 2020-жылга чейин Amazon үчүн 10 миллиард долларга чейин киреше алып келет деп эсептейт.

Жуу, бышыруу, тазалоо!

Үн интерфейстери тиричилик техникасы жана керектөөчү электроника рыногуна барган сайын батыл киришүүдө. Муну былтыркы IFA 2017 көргөзмөсүндө көрүүгө болот эле.Америкалык Neato Robotics компаниясы, мисалы, бир нече акылдуу үй платформаларынын бирине, анын ичинде Amazon Echo системасына туташкан робот чаң соргучту сунуштады. Echo акылдуу спикери менен сүйлөшүү менен, сиз машинага бүт үйүңүздү күндүз же түндүн белгилүү бир убакта тазалоону тапшыра аласыз.

Көргөзмөдө түрк фирмасы Vestel тарабынан Toshiba бренди менен сатылган акылдуу сыналгылардан Германиянын Beurer фирмасынын жылытуучу жууркандарына чейин үн менен иштетилген башка продукциялар көрсөтүлдү. Бул электрондук аппараттардын көбүн смартфондор аркылуу алыстан иштетсе болот.

Бирок, Bosch өкүлдөрүнүн айтымында, үй жардамчысы опцияларынын кайсынысы үстөмдүк кылат деп айтууга али эрте. IFA 2017де германиялык техникалык топ кир жуугуч машиналарды (7), мештерди жана Эхого туташкан кофе машиналарын көрсөттү. Bosch ошондой эле анын түзмөктөрү келечекте Google жана Apple үн платформалары менен шайкеш болушун каалайт.

7. Amazon Echo менен туташкан Bosch кир жуугуч машинасы

Fujitsu, Sony жана Panasonic сыяктуу компаниялар AI негизиндеги үн жардамчысынын чечимдерин иштеп чыгууда. Шарп бул технологияны базарга кирген мештерге жана кичинекей роботторго кошуп жатат. Nippon Telegraph & Telephone үн менен башкарылуучу жасалма интеллект системасын ыңгайлаштыруу үчүн жабдууларды жана оюнчук жасоочуларды жалдоодо.

Эски түшүнүк. Анын убактысы келдиби?

Чынында, Voice User Interface (VUI) концепциясы ондогон жылдардан бери болуп келген. Жыл мурун Star Trek же 2001: Космос Одиссеясын көргөн адам 2000-жылы баарыбыз компьютерлерди үнүбүз менен башкарабыз деп ойлосо керек. Ошондой эле, интерфейстин бул түрүнүн дараметин көргөн фантастикалык жазуучулар гана эмес. 1986-жылы Nielsen изилдөөчүлөрү IT адистеринен 2000-жылга карата колдонуучу интерфейстериндеги эң чоң өзгөрүү эмне болорун сурашкан. Алар көбүнчө үн интерфейстеринин өнүгүшүнө көңүл бурушту.

Мындай чечимге үмүттөнүүгө негиз бар. Оозеки баарлашуу – бул адамдардын аң-сезимдүү түрдө ой алмашуусунун эң табигый жолу, андыктан аны адам менен машинанын өз ара аракеттешүүсү үчүн колдонуу азыркыга чейин эң жакшы чечимдей сезилет.

биринчи VUIs бири, деп аталат бут кийим кутусу, 60-жылдардын башында IBM тарабынан түзүлгөн. Бул бүгүнкү үн таануу системаларынын алдынкысы болгон. Бирок, VUI түзүлүштөрүн иштеп чыгуу эсептөө кубаттуулугунун чеги менен чектелген. Чыныгы убакытта адамдын сөзүн талдоо жана чечмелөө көп күч-аракетти талап кылат жана ал иш жүзүндө мүмкүн болгон чекке жетүү үчүн элүү жылдан ашык убакыт талап кылынган.

Үн интерфейси бар түзмөктөр 90-жылдардын ортосунда массалык өндүрүшкө чыга баштаган, бирок популярдуулукка ээ болгон эмес. Үн менен башкаруу (терүү) менен биринчи телефон болгон Philips Spark1996-жылы чыгарылган. Бирок, бул новатордук жана колдонууга жеңил аппарат технологиялык чектөөлөрдөн эркин болгон эмес.

Үн интерфейсинин формалары менен жабдылган башка телефондор (RIM, Samsung же Motorola сыяктуу компаниялар тарабынан түзүлгөн) колдонуучуларга үн аркылуу терүүгө же тексттик билдирүүлөрдү жөнөтүүгө мүмкүндүк берүүчү рынокко дайыма чыгып турат. Бирок алардын баары белгилүү бир буйруктарды жаттап, аларды ошол кездеги аппараттардын мүмкүнчүлүктөрүнө ылайыкташтырылган мажбурлап, жасалма түрдө айтууну талап кылган. Бул көп сандагы каталарды жаратты, бул өз кезегинде колдонуучулардын нааразычылыгына алып келди.

Бирок, биз азыр компьютердик технологиянын жаңы дооруна кирип жатабыз, анда машина үйрөнүүдөгү жетишкендиктер жана жасалма интеллекттин өнүгүшү технология менен өз ара аракеттенүүнүн жаңы жолу катары сүйлөшүү потенциалын ачып жатат (8). Үн менен иштешүүнү колдогон түзүлүштөрдүн саны VUIдин өнүгүшүнө чоң таасирин тийгизген маанилүү фактор болуп калды. Бүгүнкү күндө дүйнө калкынын дээрлик 1/3 бөлүгү мындай жүрүм-турум үчүн колдонула турган смартфондорго ээ. Көпчүлүк колдонуучулар үн интерфейстерин ыңгайлаштырууга даяр окшойт.

8. Үн интерфейсинин өнүгүүсүнүн азыркы тарыхы

Бирок, биз A Space Odyssey каармандарына окшоп, компьютер менен ээн-эркин сүйлөшүүдөн мурун, биз бир катар көйгөйлөрдү жеңишибиз керек. Машиналар тилдик нюанстарды иштетүүдө дагы деле жакшы эмес. Мындан тышкары көптөгөн адамдар издөө системасына үн буйруктарын берүүдөн дагы эле ыңгайсыз сезишет.

Статистика көрсөткөндөй, үн жардамчылары негизинен үйдө же жакын досторунун арасында колдонулат. Сурамжылангандардын бири да коомдук жайларда үн менен издөөнү колдонгонун моюнга алышкан эмес. Бирок, бул блокада бул технологиянын жайылуусу менен жок болуп кетиши ыктымал.

техникалык жактан татаал суроо

Системалар (ASR) туш болгон көйгөй - сүйлөө сигналынан пайдалуу маалыматтарды алуу жана аны адам үчүн белгилүү бир мааниге ээ болгон белгилүү бир сөз менен байланыштыруу. Чыгарылган үндөр ар бир жолу ар башка.

Кеп сигналынын өзгөрмөлүүлүгү анын табигый касиети болуп саналат, анын аркасында биз, мисалы, акцентти же интонацияны тааныйбыз. Кеп таануу системасынын ар бир элементи белгилүү бир милдетти аткарат. Иштелген сигналдын жана анын параметрлеринин негизинде тил модели менен байланышкан акустикалык модель түзүлөт. Таануу системасы аз же көп сандагы калыптардын негизинде иштей алат, ал иштеген сөз байлыгынын көлөмүн аныктайт. Алар болушу мүмкүн кичинекей сөздүктөр жеке сөздөрдү же буйруктарды тааныган системалардын учурда, ошондой эле чоң маалымат базалары тил комплексинин эквивалентин камтыган жана тил моделин (грамматикасын) эске алуу менен.

Көйгөйлөр биринчи кезекте үн интерфейстери менен кездешет сүйлөө туура түшүнүү, мында, мисалы, бүтүндөй грамматикалык тизмектер көп учурда калтырылган, тилдик жана фонетикалык каталар, каталар, калтыруулар, кеп кемчиликтери, омонимдер, негизсиз кайталоолор ж. Жок дегенде бул күтүүлөр.

Кыйынчылыктардын булагы ошондой эле таануу системасынын киришине кирген таанылган кептен башка акустикалык сигналдар, б.а. бардык түрлөрү кийлигишүү жана ызы-чуу. Жөнөкөй учурда, алар керек чыпкалоо. Бул иш күнүмдүк жана жеңил көрүнөт - ар кандай сигналдар фильтрден өтүп, ар бир инженер-электроник мындай кырдаалда эмне кылуу керектигин билет. Бирок, бул абдан кылдат жана кылдаттык менен аткарылышы керек, эгерде сүйлөө таануунун натыйжасы биздин күтүүлөрүбүздү канааттандыра турган болсо.

Учурда колдонулуп жаткан чыпкалоо сүйлөө сигналы менен бирге микрофон тарабынан кабыл алынган тышкы ызы-чууну жана сүйлөө сигналынын өзүнүн ички касиеттерин алып салууга мүмкүндүк берет, бул аны таанууну кыйындатат. Бирок, талданган кеп сигналына кийлигишүү ... башка кеп сигналы, башкача айтканда, айланадагы катуу талкуулар болгондо бир топ татаал техникалык маселе келип чыгат. Бул суроо адабиятта . Бул ансыз деле комплекстүү ыкмаларды колдонууну талап кылат, деп аталган. деконволюция (ачуу) сигнал.

Кепти таануу көйгөйлөрү муну менен эле бүтпөйт. Сүйлөө ар кандай маалыматты камтый турганын түшүнүү керек. Адамдын үнү ээсинин жынысын, жашын, ар кандай мүнөзүн же анын ден соолугунун абалын көрсөтөт. Сүйлөө сигналында табылган мүнөздүү акустикалык кубулуштардын негизинде ар кандай оорулардын диагностикасы менен алектенген биомедициналык инженериянын кеңири бөлүмү бар.

Кеп сигналынын акустикалык талдоосунун негизги максаты сүйлөгөндү идентификациялоо же ал ким экенин текшерүү (ачкычтын ордуна үн, сырсөз же PUK код) болгон тиркемелер да бар. Бул, өзгөчө, акылдуу курулуш технологиялары үчүн маанилүү болушу мүмкүн.

Кепти таануу системасынын биринчи компоненти болуп саналат иштебейт. Бирок, микрофон тарабынан кабыл алынган сигнал, адатта, анча деле пайдалуу эмес. Изилдөөлөр көрсөткөндөй, үн толкунунун формасы жана жүрүшү адамга, сүйлөө ылдамдыгына жана жарым-жартылай маектешинин маанайына жараша абдан өзгөрүп турат, ал эми алар бир аз өлчөмдө айтылган буйруктардын мазмунун чагылдырат.

Демек, сигнал туура иштетилиши керек. Заманбап акустика, фонетика жана информатика биргелешип кеп сигналын иштеп чыгуу, талдоо, таануу жана түшүнүү үчүн колдонула турган куралдардын бай топтомун камсыз кылат. Сигналдын динамикалык спектри деп аталган динамикалык спектрограммалар. Аларды алуу кыйла оңой жана динамикалык спектрограмма түрүндө берилген сөздү сүрөттү таанууда колдонулган ыкмаларга окшош ыкмаларды колдонуу менен таануу салыштырмалуу оңой.

Кептин жөнөкөй элементтерин (мисалы, буйруктарды) бүтүндөй спектрограммалардын жөнөкөй окшоштугунан таанууга болот. Мисалы, үн менен иштетилген мобилдик телефон сөздүгү бир нече ондогондон бир нече жүзгө чейинки сөздөрдү жана сөз айкаштарын камтыйт, алар оңой жана натыйжалуу аныкталышы үчүн, адатта, алдын ала тизилген. Бул жөнөкөй башкаруу тапшырмалары үчүн жетиштүү, бирок ал жалпы колдонууну катуу чектейт. Схема боюнча курулган системалар, эреже катары, үндөрү атайын даярдалган белгилүү бир динамиктерди гана колдойт. Демек, системаны башкаруу үчүн өз үнүн колдонууну каалаган жаңы бирөө болсо, алар кабыл алынбайт.

Бул операциянын натыйжасы деп аталат 2-Вт спектрограмма, башкача айтканда, эки өлчөмдүү спектр. Бул блокто көңүл бурууга арзырлык дагы бир иш бар - сегменттөө. Жалпысынан алганда, биз үзгүлтүксүз сүйлөө сигналын өзүнчө тааный турган бөлүктөргө бөлүү жөнүндө болуп жатабыз. Мына ушул жеке диагноздордон гана бүтүндү таануу калыптанат. Бул жол-жобо зарыл, анткени бир эле учурда узак жана татаал сөздү аныктоо мүмкүн эмес. Сүйлөө сигналында кайсы сегменттерди айырмалоо керектиги жөнүндө толук томдор буга чейин жазылган, ошондуктан айырмаланган сегменттер фонемалар (тыбыштык эквиваленттер), муундар же балким аллофондор болушу керектигин азыр чечпейбиз.

Автоматтык таануу процесси ар дайым объекттердин кээ бир өзгөчөлүктөрүнө тиешелүү. Сүйлөө сигналы үчүн түрдүү параметрлердин жүздөгөн топтомдору сыналган таанылган алкактарга бөлүнөт жана ээ тандалган өзгөчөлүктөрмуну менен бул кадрлар таануу процессинде көрсөтүлөт, биз аткара алабыз (ар бир кадр үчүн өзүнчө) классификация, б.а. кадрга идентификаторду дайындоо, ал келечекте аны көрсөтөт.

кийинки баскыч рамкаларды өзүнчө сөздөргө чогултуу - көбүнчө деп аталганга негизделген. жашыруун Марковдун моделдеринин модели (HMM-). Андан кийин сөздөрдүн монтажы келет сүйлөмдөрдү толукта.

Эми биз бир азга Alexa системасына кайтып келе алабыз. Анын мисалы адамды машинанын «түшүнүүсүнүн» көп баскычтуу процессин көрсөтөт - тагыраак айтканда: ал берген буйрук же берилген суроо.

Сөздөрдү түшүнүү, маанисин түшүнүү жана колдонуучунун ниетин түшүнүү такыр башка нерселер.

Ошондуктан, кийинки кадам NLP модулунун иши болуп саналат (), анын милдети болуп саналат колдонуучунун ниетин таануу, б.а. буйруктун/суроонун айтылган контексттеги мааниси. Эгерде ниети аныкталса, анда көндүмдөр жана жөндөмдөр деп аталган нерселерди дайындоо, башкача айтканда, акылдуу жардамчы тарабынан колдоого алынган өзгөчө функция. Аба ырайы жөнүндө суроо пайда болгон учурда, аба ырайынын маалымат булактары чакырылат, алар сөзгө кайра иштетилет (ТТС - механизм). Натыйжада, колдонуучу берилген суроого жооп угат.

Үн? Графикалык искусство? Же балким экөө тең?

Көпчүлүк белгилүү заманбап өз ара системалары деп аталган ортомчу негизделген графикалык колдонуучу интерфейси (графикалык интерфейс). Тилекке каршы, GUI санариптик продукт менен өз ара аракеттенүүнүн эң ачык жолу эмес. Бул колдонуучулар адегенде интерфейсти кантип колдонууну үйрөнүшүн жана ар бир кийинки өз ара аракетте бул маалыматты эстеп калышын талап кылат. Көптөгөн жагдайларда үн алда канча ыңгайлуу, анткени VUI менен жөн гана аспап менен сүйлөшүү аркылуу иштеше аласыз. Колдонуучуларды кээ бир буйруктарды же өз ара аракеттенүү ыкмаларын жаттоого жана жаттоого мажбурлабаган интерфейс азыраак көйгөйлөрдү жаратат.

Албетте, VUIдин кеңейиши салттуу интерфейстерден баш тартууну билдирбейт – тескерисинче, өз ара аракеттенүүнүн бир нече ыкмаларын бириктирген гибриддик интерфейстер жеткиликтүү болот.

Үн интерфейси мобилдик контексттеги бардык тапшырмалар үчүн ылайыктуу эмес. Аны менен биз машина айдап бараткан досубузга чалабыз, ал тургай ага SMS жөнөтөбүз, бирок акыркы которууларды текшерүү өтө кыйын болушу мүмкүн - системага () берилген жана система (система) тарабынан түзүлгөн маалыматтын көлөмүнө байланыштуу. Рэйчел Хинман өзүнүн Mobile Frontier китебинде айткандай, VUI колдонуу киргизүү жана чыгаруу маалыматынын көлөмү аз болгон тапшырмаларды аткарууда эң натыйжалуу болуп калат.

Интернетке туташкан смартфон ыңгайлуу, бирок ыңгайсыз (9). Колдонуучу бир нерсе сатып алууну же жаңы кызматты колдонууну каалаган сайын башка колдонмону жүктөп алып, жаңы аккаунт түзүшү керек. Бул жерде үн интерфейстерин колдонуу жана өнүктүрүү үчүн талаа түзүлгөн. Эксперттердин айтымында, колдонуучуларды ар кандай колдонмолорду орнотууга же ар бир кызмат үчүн өзүнчө аккаунттарды түзүүгө мажбурлоонун ордуна, VUI бул түйшүктүү иштердин жүгүн AI менен иштеген үн жардамчысына өткөрүп берет. Ал үчүн оор иштерди жүргүзүү ыңгайлуу болот. Биз ага буйрук гана беребиз.

9. Смарт телефон аркылуу үн интерфейси

Бүгүнкү күндө интернетке телефон жана компьютер гана туташкан эмес. Акылдуу термостаттар, жарыктар, чайнектер жана башка көптөгөн IoT интеграцияланган түзүлүштөр да тармакка туташкан (10). Ошентип, айланабызда жашообузду толтурган зымсыз түзмөктөр бар, бирок алардын баары эле графикалык колдонуучу интерфейсине табигый түрдө туура келбейт. VUI колдонуу аларды чөйрөбүзгө оңой интеграциялоого жардам берет.

10. нерселердин интернети менен үн интерфейси

Үн колдонуучу интерфейсин түзүү жакында дизайнердин негизги чеберчилигине айланат. Бул чыныгы көйгөй - үн системаларын ишке ашыруу зарылдыгы проактивдүү дизайнга көбүрөөк көңүл бурууга түрткү берет, башкача айтканда, сүйлөшүүнүн ар бир этабында колдонуучунун алгачкы ниетин түшүнүүгө, алардын муктаждыктарын жана күтүүлөрүн алдын ала билүү.

Үн – бул маалыматтарды киргизүүнүн эффективдүү жолу — бул колдонуучуларга системага өз шарттарында буйруктарды тез чыгарууга мүмкүндүк берет. Экинчи жагынан, экран маалыматты көрсөтүүнүн эффективдүү ыкмасын камсыздайт: ал системаларга бир эле учурда чоң көлөмдөгү маалыматты көрсөтүүгө мүмкүндүк берип, колдонуучулардын эс тутумундагы жүктү азайтат. Аларды бир системага айкалыштыруу дем берүүчү угулат.

Amazon Echo жана Google Home сыяктуу акылдуу динамиктер визуалдык дисплейди такыр сунуштабайт. Орто аралыкта үндү таануунун тактыгын олуттуу жакшыртуу менен, алар кол менен иштөөгө мүмкүндүк берет, бул өз кезегинде алардын ийкемдүүлүгүн жана эффективдүүлүгүн жогорулатат - алар үн менен башкаруусу бар смартфондору бар колдонуучулар үчүн да эң керектүү. Бирок, экрандын жоктугу абдан чоң чектөө болуп саналат.

Колдонуучуларга мүмкүн болгон буйруктар жөнүндө маалымат берүү үчүн сигнал гана колдонулушу мүмкүн, ал эми чыгарууну үн чыгарып окуу эң негизги тапшырмалардан тышкары тажатма болуп калат. Тамак бышыруу учурунда үн буйругу менен таймерди коюу абдан жакшы, бирок канча убакыт калганын суроонун кереги жок. Аба ырайынын үзгүлтүксүз прогнозун алуу колдонуучу үчүн эс тутумдун сыналышы болуп калат, ал бир карап эле экрандан бир нече фактыларды эмес, жума бою угуп, сиңирип алышы керек.

Дизайнерлер буга чейин эле гибриддик чечим, Echo Show (11), ал негизги Echo акылдуу спикерине дисплей экранын кошкон. Бул жабдуулардын функционалдуулугун кыйла кеңейтет. Бирок, Echo Show дагы эле смартфондордо жана планшеттерде көптөн бери бар болгон негизги функцияларды аткарууга жөндөмдүү эмес. Ал (азырынча) интернетти кыдыра албайт, сын-пикирди көрсөтө албайт же, мисалы, Amazon соода арабасынын мазмунун көрсөтө албайт.

Визуалдык дисплей – бул жөн гана үн эмес, адамдарды көп маалымат менен камсыз кылуунун натыйжалуу жолу. Үн приоритети менен долбоорлоо үн менен өз ара аракеттенүүнү бир топ жакшыртат, бирок узак мөөнөттүү келечекте өз ара аракеттенүү үчүн визуалдык менюну колдонбоо бир колду аркаңызга байлап мушташкандай болот. Үндүн жана дисплейдин интеллектуалдык интерфейстеринин татаалдыгынан улам, иштеп чыгуучулар интерфейстерге гибриддик мамилени олуттуу карап чыгышы керек.

Кепти генерациялоо жана таануу системаларынын эффективдүүлүгүн жана ылдамдыгын жогорулатуу аларды мындай колдонмолордо жана чөйрөлөрдө колдонууга мүмкүндүк берди, мисалы:

• аскердик (учактарда же тик учактарда үн буйруктары, мисалы, F16 VISTA),

• текстти автоматтык транскрипциялоо (сөздөн текстке),

• интерактивдүү маалымат системалары (Prime Speech, үн порталдары),

• мобилдик түзүлүштөр (телефондор, смартфондор, планшеттер),

• робототехника (жасалма интеллект менен айкалышкан Cleverbot - ASR системалары),

• автомобиль (автомобиль тетиктерин кол менен башкаруу, мисалы, Blue & Me),

• үй тиркемелери (акылдуу үй системалары).

Коопсуздук үчүн сак болгула!

Автоунаа, тиричилик техникасы, жылытуу/муздатуу жана үй коопсуздук системалары жана көптөгөн тиричилик техникалары үн интерфейстерин, көбүнчө AI негизинде колдоно башташты. Бул этапта машиналар менен миллиондогон сүйлөшүүдөн алынган маалыматтар жөнөтүлөт эсептөө булуттары. Аларга маркетологдор кызыкдар экени көрүнүп турат. Жана алар гана эмес.

Symantec коопсуздук эксперттеринин жакында жасалган отчету үн буйругун колдонуучуларга үй коопсуздук системаларын айтпаганда да, эшик кулпулары сыяктуу коопсуздук функцияларын көзөмөлдөбөшүн сунуштайт. Ошол эле сырсөздөрдү же купуя маалыматты сактоого да тиешелүү. Жасалма интеллекттин жана акылдуу өнүмдөрдүн коопсуздугу азырынча жетиштүү изилдене элек.

Үйдөгү түзмөктөр ар бир сөздү укканда, системаны бузуп алуу жана туура эмес колдонуу коркунучу чоң тынчсыздануу жаратат. Эгерде чабуулчу локалдык тармакка же ага байланыштуу электрондук почта даректерине кирүү мүмкүнчүлүгүнө ээ болсо, акылдуу аппараттын жөндөөлөрү өзгөртүлүшү же заводдук жөндөөлөргө кайтарылышы мүмкүн, бул баалуу маалыматтын жоголушуна жана колдонуучунун тарыхынын өчүрүлүшүнө алып келет.

Башкача айтканда, коопсуздук адистери үн менен башкарылган AI жана VUI бизди потенциалдуу коркунучтардан коргой турган жана бейтааныш бирөө бир нерсе сураганда оозубузду жапканга акылдуу эмес деп кооптонушат.

Комментарий кошуу