ses tan›mada yeni dönem söz dinleyen bilgisayarlar · ses tan›ma teknolojisi 142| n‹san...

6
Ses Tan›ma Teknolojisi 142 | N‹SAN 2001 Bilgisayar – Koruma kalkanlarını in- dir, gücü üç katına çıkar!" 30 yıl kadar önce bu sözleri Kaptan Kirk’ün ağzın- dan duyduğumuzda uzay gemisi En- terprise’ın yıldızlar arasında uzaklara seyahati gibi gemi bilgisayarının sesle yönetilmesi de oldukça büyük bir ha- yaldi. Farklı konular üzerine kurulu "Savaş yıldızı Galactica" ve "Yıldız Sa- vaşları" gibi diğer bilim kurgu filmle- rinde de konuşmayı anlayan bilgisa- yarlar, ses tanıyan kapılar ve benzeri özel donanımlara yer veriliyordu. "2001: A Space Odyssey" filminin efsa- nevi bilgisayarı HAL ise özelliklerini hızla geliştirmiş ve dudaklardan ko- nuşmayı okuyabiliyordu. Dünün Bilim-Kurgu rüyas› bugünün gerçe¤i Yetmişli ve seksenli yıllarda bilim kur- gu akımının yaratıcıları için konuşan bilgisayarlar bugünün düşüncesiyle ışınlanma kadar uzak bir teknolojik rüyaydı. Senaryo yazarları için ışık hı- zında seyahat eden uzay gemileri gele- ceği yansıtan güzel bir hayal olarak ka- lırken son yıllarda ses tanıma çok bü- yük bir yol aldı. İleride ağızdan çıkan kelimeler klav- ye başında boşa geçen zamanın yerinin alacak, bilgisayar ve günlük hayatın parçaları olan elektronik eşyaların kul- lanımı gözle görülür şekilde basitleşe- cek. Şimdiden insan ağzından çıkan kelimelere duyarlı sayısız sistem geliş- tirilmiş durumda. Özel hazırlanmış yazılımlarla donatılmış bilgisayarlar, tıp bilimindeki özel kullanım alanları ve tabii ki günlük hayatta sıkça kullan- dığımız cep telefonu yada arabalar bu sistemlere ilk örnekler olarak gösterile- bilir. 1993 yılından bu yana PC için ko- nuşmayı tanıyan yazılımlar bulunuyor. Buna rağmen ancak üç sene öncesin- den başlayan bir çalışma ile büro ya- şantısını neşeli hale getirecek yeni ve yoğun bir uzmanlaşma sonucunda is- tenen sonucu veren dikte yazılımları Ses Tan›mada Yeni Dönem Söz Dinleyen Bilgisayarlar Gelifltiriciler, insan konuflmas›na tam anlam›yla tepki gösteren bilgisayarlar›n, telefon ve makinelerin müjdesini veriyorlar. H›zl› ifllemciler ve daha iyi yaz›l›mlar makinelerin kula¤› olacaklar.

Upload: others

Post on 17-Oct-2019

15 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Ses Tan›mada Yeni Dönem Söz Dinleyen Bilgisayarlar · Ses Tan›ma Teknolojisi 142| N‹SAN 2001 Bilgisayar – Koruma kalkanlarını in-dir, gücü üç katına çıkar!" 30

Ses Tan›ma Teknolojisi

114422 | NN ‹‹ SS AA NN 22 00 00 11

� Bilgisayar – Koruma kalkanlarını in-dir, gücü üç katına çıkar!" 30 yıl kadarönce bu sözleri Kaptan Kirk’ün ağzın-dan duyduğumuzda uzay gemisi En-terprise’ın yıldızlar arasında uzaklaraseyahati gibi gemi bilgisayarının sesleyönetilmesi de oldukça büyük bir ha-yaldi. Farklı konular üzerine kurulu"Savaş yıldızı Galactica" ve "Yıldız Sa-vaşları" gibi diğer bilim kurgu filmle-rinde de konuşmayı anlayan bilgisa-yarlar, ses tanıyan kapılar ve benzeriözel donanımlara yer veriliyordu."2001: A Space Odyssey" filminin efsa-nevi bilgisayarı HAL ise özelliklerinihızla geliştirmiş ve dudaklardan ko-nuşmayı okuyabiliyordu.

DDüünnüünn BBiilliimm--KKuurrgguu rrüüyyaass›› bbuuggüünnüünn ggeerrççee¤¤iiYetmişli ve seksenli yıllarda bilim kur-gu akımının yaratıcıları için konuşanbilgisayarlar bugünün düşüncesiyleışınlanma kadar uzak bir teknolojikrüyaydı. Senaryo yazarları için ışık hı-zında seyahat eden uzay gemileri gele-ceği yansıtan güzel bir hayal olarak ka-lırken son yıllarda ses tanıma çok bü-yük bir yol aldı.

İleride ağızdan çıkan kelimeler klav-ye başında boşa geçen zamanın yerininalacak, bilgisayar ve günlük hayatınparçaları olan elektronik eşyaların kul-lanımı gözle görülür şekilde basitleşe-cek. Şimdiden insan ağzından çıkankelimelere duyarlı sayısız sistem geliş-tirilmiş durumda. Özel hazırlanmışyazılımlarla donatılmış bilgisayarlar,tıp bilimindeki özel kullanım alanlarıve tabii ki günlük hayatta sıkça kullan-dığımız cep telefonu yada arabalar busistemlere ilk örnekler olarak gösterile-bilir.

1993 yılından bu yana PC için ko-nuşmayı tanıyan yazılımlar bulunuyor.Buna rağmen ancak üç sene öncesin-den başlayan bir çalışma ile büro ya-şantısını neşeli hale getirecek yeni veyoğun bir uzmanlaşma sonucunda is-tenen sonucu veren dikte yazılımları

Ses Tan›mada Yeni Dönem

SSöözz DDiinnlleeyyeenn BBiillggiissaayyaarrllaarrGGeelliiflflttiirriicciilleerr,, iinnssaann kkoonnuuflflmmaass››nnaa ttaamm aannllaamm››yyllaa tteeppkkii ggöösstteerreenn bbiillggiissaayyaarrllaarr››nn,, tteelleeffoonn vvee mmaakkiinneelleerriinn

mmüüjjddeessiinnii vveerriiyyoorrllaarr.. HH››zzll›› iiflfllleemmcciilleerr vvee ddaahhaa iiyyii yyaazz››ll››mmllaarr mmaakkiinneelleerriinn kkuullaa¤¤›› oollaaccaakkllaarr..

Page 2: Ses Tan›mada Yeni Dönem Söz Dinleyen Bilgisayarlar · Ses Tan›ma Teknolojisi 142| N‹SAN 2001 Bilgisayar – Koruma kalkanlarını in-dir, gücü üç katına çıkar!" 30

Ses Tan›ma Teknolojisi

NN ‹‹ SS AA NN 22 00 00 11 | 114433

geliştirilmiş. Sonuç olarak PC’ler içingeliştirilmiş yeni ses tanıma yazılımlarıdoğal bir konuşmayı yazıya dönüştüre-biliyorlar. Dikte olarak adlandırılan vebeklemelerle dolu bu işlem artık geç-mişte kalıyor. En ideal kullanımda yüz-

rim gerçekleştirecek. Başlangıçta fare-nin işletim sistemiyle uyumunu sağla-yan çok az yazılım bulunuyordu. An-cak günümüzde grafik arabirime sahipher işletim sistemi pratik olarak kulla-nıcı arabiriminin yönetimi için fareyistandart ve neredeyse vazgeçilmez ola-rak görüyorlar.

‹‹flfllleettiimm ssiisstteemmii:: UUzzmmaann ççöözzüümmlleerriiççiinn sseess ttaann››mmaa ggeelliiflflttiirriilliiyyoorrSes tanıma konusunda kısa sürede bü-yük gelişimler bekleniyor. Çünkü IBMfirması ofis uygulamaları paketi olarakgeliştirilmiş SmartSuite’in 9.0 sürü-müne ses tanıma yazılımı olan ViaVo-ice’ı ekledikten sonra Microsoft firma-sı da kolları sıvadı. Yeni piyasaya çıka-cak olan Office sürümünün ses tanımaile desteklendiğinin açıklanmasının ar-dından öncelikle konuşma sistemi SA-PI 5.0 yazılım geliştiricilerinin emrineücretsiz olarak sunulmaya başladı. 125Mbyte büyüklüğündeki ses tanımanınyanında yazıları okuyan bir de uygula-ma içeriyor.

Şimdilik Microsoft geliştirici paketisadece İngilizce, Çince ve Japonca ko-nuşabiliyor. Sistem sabit disk üzerinde450 Mbyte’a kadar boş alana ihtiyaçduyuyor ve donanım gereksinimi dedikkat çekiyor: Sadece ses tanıma işle-mi için sisteme 128 Mbyte çalışma ha-fızasına eklemeniz gerekiyor ve 64Mbyte hafızanın tamamı konuşma iş-lemi için kullanılıyor. Yeni piyasaya çı-kacak olan "Whistler" adındaki Consu-mer-Windows da konuşma motorunasahip.

İşletim sistemiyle tam entegrasyonsayesinde sadece uygulamalarda sesini-zi yazıya dönüştürme özelliğine değilaynı zamanda işletim sistemini tamolarak ses komutlarıyla yönetebilme ❿

de 95’lik bir isabetoranına sahip ses tanı-ma buradan da anlaşıl-dığı gibi aslında halen100 harften beşini hatalıolarak yazıya çeviriyor. Buoran bir A4 sayfasında 200

hataya karşılık geliyor veprofesyonel bir çalışma

için bu sayı gerçekten ol-dukça fazla.

PPCC’’nniizz ssööyylleenneennlleerrii yyaazz››yyaa ççeevviirriiyyoorr

Açıkçası sadece sınırlı terim-leri içeriyor da olsa belirli ko-

nularda geliştirilen özel çözüm-ler güvenilirlik sağlarlar. Bu işle uğ-

raşan uzmanlar için hazırlanmış prog-ramlar bilgisayara konuşulan söz-

cükleri yazılı metine çevirirler.Ancak bu işlem, sadece ses ta-

nıma sürecinden istenen ve-rim alınana dek yapılacakolan bir takım çalışmasıdır.Ve tabi ki sadece tıp veya hu-kukçular için satılan pahalı

sözlükler yüzde yüz oranındagüvenilir olabilirler. Okunan

dokümanın anında ve doğru ola-rak işlenmesi ise şimdilik sadece gün-

demi işgal etmeye devam edecek.Dikte yazılımlarıyla çalışmasüreci farklı sınırlamaların et-

kisinde kalıyor. Ne olursa ol-sun kullanıcının bilgisayarabağlı olan bir kafa mikrofo-nu ile konuşması gerekiyor.Telsiz mikrofonlar büyük bir

çalışma alanına sahip, ancakyine de kontrol için kullanıcının

gözlerinin monitör üzerinde bu-lunması gerekecektir.

Sokaktan gelen sesler, açık bir pen-cere yada büyük bir büroda çalı-

şanların telefon görüşmeleri gi-bi rahatsız edici ortam gürül-tüsü ses tanımanın zorlaşma-sına ve hatalara neden ola-caktır. Ancak şive ve telaffuzfarklılıklarının belirlenmesi

için gerekli olan sıkıcı, uzun,hassas deneme aşamaları sonu-

cunda yazılım, kullanıcısının söy-lediklerini anlamaya başlar.

Tüm bu zorluklara rağmen ses tanı-ma, işletim sisteminin bir parçası ol-duktan sonra uygulamaların yöneti-minde adeta farenin icadı gibi bir dev-

SSttaayy ttuunneedd:: Ses tan›ma için konuflman›n

al›naca¤› bir Headset çal›flma masan›z›n

vazgeçilmez parças›.

Page 3: Ses Tan›mada Yeni Dönem Söz Dinleyen Bilgisayarlar · Ses Tan›ma Teknolojisi 142| N‹SAN 2001 Bilgisayar – Koruma kalkanlarını in-dir, gücü üç katına çıkar!" 30

Ses Tan›ma Teknolojisi

114444 | NN ‹‹ SS AA NN 22 00 00 11

Speechworks ile ku-rulmuş olan bu ortak-lık muhtemelen birsonraki Palm neslininses tanıma fonksiyonla-rına sahip olabileceği an-lamına da geliyor. IBM Viavo-ice ve aynı zamanda Apple Macintoshiçin duyurulan sistemlerin ardındanOpen-Source ses tanıma uygulamasıCMU Sphinx’in Linux kullanıcılarınınemrine sunulması da sevindirici birgelişme. Carnegie Mellon Universitesitarafından geliştirilen bu yazılım ger-çekten gelecek vaat ediyor.

SSeess ttaann››mmaa ggüünnllüükk hhaayyaatt››nn iiççiinnddeeSes tanıma sadece PC uygulamalarıiçin geliştirilmiş bir yazılım olmanındışında günlük uygulamalara da hızlıbir şekilde nüfuz ediyor. Telefon ile ba-zı büyük şirketleri, bilgi servislerini ya-da bankanızın telefon bankacılığı nu-

marasını aradığınızda karşınıza çıkanses destekli telefon-bilgisayar artık ol-dukça alışılmış bir durum halini aldı.Bu sistemler adınızı ve giriş bilgilerini-zi herhangi bir Call-Center çalışanınınyardımı olmadan kolaylıkla alabiliyor-lar.

Aslında amaçlanan sistemler ile ara-da oldukça büyük bir fark bulunuyor.Bu sistemler önceden kesin olarak ta-nımlanmış karar ağacına göre dinamikses tanımayla çalışıyorlar. Yani kullanı-

imkanına da sahip oluyorsunuz. Mic-rosoft’un yeni piyasaya sürüleceği cepbilgisayarı sürümü olan WindowsCE’de ise bu fonksiyonu ne derecedeuygulayacağı henüz kesinlik kazanmışdeğil.

Microsoft, Windows işletim sistemi-ni ses tanıma ve sentezi ile güçlendir-mek için uzun bir süredir bu konuyaağırlık veriyor. Hatta Microsoft dahaönceden Dragon Dictate’in geliştiriciDragon Systems tarafından alınan sestanıma uzmanları Lernout & Hauspie’i45 milyon dolara satın aldı.

AAlltt›› kkaannaall üüzzeerriinnddeenn sseessllii iilleettiiflfliimm ddöönneemmiiMicrosoft, Redmonder Software so-yundan gelen yeni donanımı Gamevo-ice ile Internet üzerinde ortak oyunoynayabilme imkanı sağlıyor. Oyuncu-lar altı farklı kanal üzerinden iletişimkurup oyunu ses komutlarıyla yönete-biliyorlar.

Öte yandan Palm PDA sahipleri ise2001’in ilk çeyreğinden itibaren kişiselrandevularını yada bağlantılarını Spe-echWorks’un geliştiricisi olan And-Day’in (www.anyday.com) servis site-sinden telefon ile ses komutlarıyla sor-gulayabilecekler. Bu amaçla Palm Spe-echWorks ile ortaklık kurarak bilgisa-yar destekli ses tanıma sistemi sunucu-sunu geliştiriyor. İleride bu sistemdeyeni randevuları veya yeni adreslerikaydetmek de mümkün olacak.

IIBBMM’’iinn 77777722 mmooddeellii ssaatt››--

flflaa ssuunnuullaann iillkk kkoonnuuflflmmaa

kkaayy››tt aarraacc››yydd››..

1962

TTaannggoorraa’’nn››nn iillkk aallmmaannccaa

kkoonnuuflflaann ssüürrüümmüü CCeeBBIITT

ffuuaarr››nnddaa kkaappaall›› bbiirr ooddaa--

ddaa hhaallkkaa ttaann››tt››lldd››..

1991

DDrraaggoonn SSyysstteemmss ffiirrmmaass››

DDrraaggoonn DDiiccttaattee

SSyysstteemm’’iinn iillkk ‹‹nnggiilliizzccee

ssüürrüümmüünnüü ssaatt››flflaa ssuunndduu..

1990

IIBBMM CCeeBBIITT ffuuaarr››nnddaa tt››pp

vvee aavvuukkaattll››kk üüzzeerriinnee

öözzeelllleeflflttiirriillmmiiflfl VVooiicceeTTyy--

ppee yyaazz››ll››mm››nn››nn aallmmaannccaa

ssüürrüümmüünnüü ttaann››tttt››..

1995

1984‹‹llkk kkoonnuuflflmmaa ttaann››mmaa

ssiisstteemmii ddaahhaa hh››zzll›› iiflfl--

lleemmcciilleerr ggeerreekkttiirriiyyoorr--

dduu.. HHeerr hheessaappllaammaa ssüü--

rreeccii ddaakkiikkaallaarrccaa ssüürrüü--

yyoorr vvee yyaakkllaaflfl››kk 55..000000

‹‹nnggiilliizzccee kkeelliimmee ttaann››nn››--

yyoorrdduu..

1992TTaannggoorraa tteekknnoolloojjiissiinnii

‹‹sstteemmccii--SSuunnuuccuu mmooddee--

llii AAIIXX iiflfllleettiimm ssiisstteemmllii

bbiirr IIBBMM--RRSS//66000000 ssiissttee--

mmii ggeerreekkttiirriiyyoorr vvee kkoo--

nnuuflflmmaa ggiirriiflflii OOSS//22 iiss--

ttaassyyoonnllaarr››nnddaann yyaapp››ll››--

yyoorrdduu..

1998PPhhiilliippss ggiibbii IIBBMM,, DDrraa--

ggoonn vvee LLeerrnnoouutt && HHaa--

uussppiiee flfliirrkkeettlleerrii ddee

üürrüünnlleerriinniinn ttüükkeettiiccii ssüü--

rrüümmlleerriinnii ssaatt››flflaa ssuunndduu--

llaarr..

1993IIBBMM’’iinn iillkk PPCC ççöözzüümmüü

PPeerrssoonnaall DDiiccttaattiioonn

11..000000 ddoollaarraa ssaatt››flflaa

ssuunnuulldduu.. PPhhiilliippss DDiicc--

ttaattiioonn SSyysstteemmss iissee ssüü--

rreekkllii kkoonnuuflflmmaann››nn ttaa--

nn››nndd››¤¤›› iillkk ssüürrüümmddüü..

1997PPhhiilliippss’’iinn ‹‹sstteemmccii--SSuu--

nnuuccuu ççöözzüümmüü oollaann

SSppeeeecchh MMaaggiicc ggeelliiflflttii--

rriillddii.. LLeerrnnoouutt && HHaauuss--

ppiiee iillkk ‹‹nnggiilliizzccee kkoonnuu--

flflaann vvee ttaann››yyaann ssiissttee--

mmii ggeelliiflflttiirrddii..

1986TTaannggoorraa 44 pprroottoottiippii::

ÖÖzzeell bbiirr mmiikkrroo iiflfllleemmccii

iillee eeflfl zzaammaannll›› oollaarraakk

kkoonnuuflflmmaa üüzzeerriinnddee iiflfl--

lleemmlleerr yyaappaabbiilleenn iillkk

mmaassaaüüssttüü bbiillggiissaayyaarr

ggeelliiflflttiirriillddii.. SSiisstteemm aayy--

rr››ccaa iiççeerriikk ss››nnaammaa ddaa

iiççeerriiyyoorrdduu..

KKoonnuuflflmmaa FFoonnkkssiiyyoonnllaarr››nn››nnGGeelliiflfliimmii

SSeess ssiihhiirrbbaazz››:: IBM Voice Speaking zeki ve ifllemci için özellefltirilmifl konuflma modelleri ile

ö¤renme basama¤›n› k›salt›yor.

Page 4: Ses Tan›mada Yeni Dönem Söz Dinleyen Bilgisayarlar · Ses Tan›ma Teknolojisi 142| N‹SAN 2001 Bilgisayar – Koruma kalkanlarını in-dir, gücü üç katına çıkar!" 30

Ses Tan›ma Teknolojisi

114466 | NN ‹‹ SS AA NN 22 00 00 11

cı sadece belirlenmiş komutları söyle-mek zorunda kalıyor ve genel olarakgünlük hayattaki konuşma tanınmışsayılmıyor.

Aynı şekilde kısa bir süre önce kulla-nıcısının sesini tanıyarak saklanmışnumaraları arayan cep telefonları dasatışa sunuldu. Bu araçlar da aslındakullanıcının kelimelerini gerçektenanlayamıyorlar. Bu işlemin üç temelbasamağı bulunuyor. Kullanıcı tarafın-dan istenen isim telefon numarasıylabirlikte ses kaydı olarak telefon hafıza-sına saklanıyor. Aranmak istenen nu-maranın kayıtlı olan ismi tekrar söy-lendiğinde telefon tüm ses kayıtlarınıkarşılaştırıyor. İki ses dalgası da birbi-rini tuttuğunda telefon ilgili numarayıarıyor.

Ses destekli bir sistem olan tamamenyeni uygulama Xybernaut (xyberna-ut.com) üreticilerinin fikirlerine daya-nıyor. Amerikan kuruluşu olan bu şir-ket Amerikan silahlı kuvvetleriyle or-taklık yaparak "body-worn computer"olarak adlandırılan yazılım ve donanı-mı geliştirip desteğini veriyorlar. Vücutüzerinde taşınan bu sistem günümü-zün büyük ve kullanışsız bilgisayarları-na karşı birçok farklı uygulama alanınıelinde bulunduruyor.

Ses destekleyen bu sistem kafaya ası-lan ve sağ gözün önünde bulunanminyatür ekranı ve bilekte bulunanklavyesiyle birlikte belde yer alıyor. Ta-mamen vücutta taşınan sistem kullanı-

cısına denetim ve bakım konusundakarmaşık endüstri kollarında büyükyardım sağlamayı hedefliyor. Herhangibir sorun anında teknisyen üretim pla-nı ve dokümantasyon gibi gerekli bilgi-leri gözüyle takip edebiliyor.

Ses ile yönetilen İnsan-Makine ileti-şiminin hızlı ve yakalanması güçgelişimi her şeye rağmen da-ha çok donanım alanındakiilerlemeler ile sağlanıyor.

BBiillggiissaayyaarrss››zz ddaa yyaapp››llaabbiilliirr::CChhiipp’’lleerrddeekkii sseess ttaann››mmaaEmbedded Voice Solution yani Chipüzerinde ses tanıma hemen hementüm ürünlere uygulanabiliyor. Araba-ların yönetiminden başlamak üzere evdonanımının ve elektronik araçlarınyönetimine kadar neredeyse her şeyinotomatikleştirilmesinde farklı şekiller-de kullanılıyor. Bu uygula-malarda önemsiz sayıla-bilecek kadar komutunbulunmasından ötürüsesten bağımsız sistemgeliştirilmesine önemverilmiş. Bunun için ar-tık geniş sabit disk alanınasahip, hızlı işlemcili bir bilgisayara ge-rek duyulmaz, çünkü gerekli Chip’i

içeren bir CPU doğru yazılım ilebirlikte ses sinyalleri üzerinde ça-

lışmak üzere özelleştirilir.Embedded sistemler bu saye-

de düşük maliyet ile büyük mik-tarlarda üretim imkanına sahip

olur.Bunun yanında bu türChip’ler dış etkenlerekarşı günümüz bilgisa-yarlarına göre daha faz-

la dayanıklılık göste-rirler. Uygun birChip ile güçlendi-rilmiş her araç böy-lelikle duyabilenbir aygıta dönüşe-

cektir. Örneğin tele-vizyonunuzu uzaktankumanda ile yönet-mek yerine gelecekte

kanal değiştirmek için sa-dece istediğiniz kanalınadını söylemek yeterli ola-cak. Televizyon için ses ta-nıma konusunda birazdaha beklemeniz de ge-rekse arabalardaki uygu-lamalar artık bir gerçek.

Sadece birkaç yıl öncehayranlıkla izlediğimiz busistemler örneğin artıkİngiliz araba üreticisi Ja-guar tarafından 2001 yı-lından itibaren S tipi mo-dellerine Embedded Vo-ice çözümü sayesinde is-teğe bağlı olarak güvenlikve konfor seçimi olaraksunuluyor. Ses destekle-

KKuullaa¤¤›› oollaann

CChhiipp’’lleerr:: Do-

nan›m tabanl›

konuflma tan›ma

sistemleri güven-

lik ve sistem girifl

kontrolü sistem-

lerinde

kullan›l›yor.

RRoobboowwoorrkkeerr:: Uçufl kon-

trolü, savunma ve silahl›

kuvvetler yada

endüstriyel amaçl›

kullan›labilen mobil

minyatür PC’ler

flirket a¤lar›na

ba¤lant› da

sa¤l›yor.

SSöözz ddiinnlleeyyeenn aarraabbaa:: Gelecekte araban›zdaki birçok yönetim sözler ile

sa¤lanabilecek. ❿

Page 5: Ses Tan›mada Yeni Dönem Söz Dinleyen Bilgisayarlar · Ses Tan›ma Teknolojisi 142| N‹SAN 2001 Bilgisayar – Koruma kalkanlarını in-dir, gücü üç katına çıkar!" 30

Ses Tan›ma Teknolojisi

114488 | NN ‹‹ SS AA NN 22 00 00 11

yen bu sistem tüm müzik, telefon veklima donanımını şimdilik sadece İn-gilizce olmak üzere yönetilmesini sağ-lıyor. Türkçe komutların tercümesiiçin ise uzun süre daha çalışılması ge-rekiyor.

Yukarıdaki üç sistemde kelimeleretepki verebiliyor. Kısa komutlar hızlıbir telefon bağlantısının kurulması,radyo kanalının seçimi yada klimanınfarklı bir biçimde ayarlanması içinkullanılabiliyor. Tüm bunların yanın-

da sistem sadece seslenme-niz ile birlikte hedefe doğ-ru en kısa yolu veya mobilbağlantı ile Internet’tenalınan borsa kurları gibigerekli bilgileri gayet sem-patik bir ses ile size okuyor.Beş yıl içerisinde ise arabave sürücü arasında gerçekbir konuşma mümkünolacak. Bunun yanında sü-rücünün güvenlik açısın-dan yol dışında herhangibir yönetime dikkat harca-mayacak olması da siste-

min en büyük getirilerinden. Bu siste-min gerçekleştirilmesi için Jaguar tara-fından desteklenen Visteon’da 60’a ya-kın geliştirici çalışıyor. Aynı sınıfınaraç üreticileri olan DaimlerChryslerve BMW de ses destekli telefon siste-mini üretim programına koymuş du-rumda. Güvenlik açısından sürüş sıra-sında önem taşıyan sinyal yada fren gi-bi unsurların geliştirilmesi de gelecekiçin sadece mühendislerin elinde bulu-nuyor.

BBaannkkaammaattiikklleerr mmüüflfltteerriilleerriinnii dduuyyuuyyoorr,, ggöörrüüyyoorr vvee hhiisssseeddiiyyoorrDonanım üzerine dayalı ses tanımanınfarklı bir uygulaması da şu an denemeaşamasında yer alıyor. Üretici firmaNCR’ın para otomatı "Stella" gerçek-ten üstün yeteneklere sahip. Kişisel birtanıtım numarası, şifresi (PIN) girmekyerine aygıt müşterisini gözün retina-sından tanıyarak kişisel bir şekilde kar-şılama yapıyor ve hatta doğum günü-nüzü bile kutluyor.

Sistem, müşterinin var-lığını basınca duyarlıpaspas sayesinde algılı-yor. Klasik komutlaryardımıyla bankama-tik size işlemlerinizdekolaylık gösteriyor. Seskomutları ve kelime tanımaözellikleriyle geliştirilmiş bu bankama-tik sistemi iki büyük kredi enstitüsü ta-rafından test edilmiş. Ses tanıma içingörülen tüm örnekler özellikle de In-ternet ortamıyla da birleştiği düşünü-lürse gerçekten oldukça heyecan verici.

0,0

0,5

1,0

1,5

2,0

0,15 milyar 0,19 milyar0,25 milyar

0,47 milyar

1,66 milyar

Cir

o (

mily

ar d

ola

r)

1998 1999 2000 2002 2005Kaynak: Frost & Sullivan

TTaahhmmiinn:: 2005 y›l›na kadar ses tan›ma programlar

pazar›nda patlama bekleniyor.

SSeess TTaann››mmaa YYaazz››ll››mmllaarr››

SES TANIMA NASIL GERÇEKLEfi‹YOR?

DDüüflflüünnüüyyoorr mmuu YYookkssaa DDüüflflüünnmmüüyyoorr mmuu??Bilgisayarlar düflünmezler, sadeceverilen program basamaklar›n›n gös-terdi¤i yolu izlerler. Klavyeden bilgigirifliyle karfl›laflt›r›l›rsa ses tan›maylabirlikte ifllemci büyük bir yük alt›na veanaliz prosesine girecektir. Olas›l›ktahmini yap›larak kullan›c›n›n ne söy-lemifl oldu¤u anlafl›lmaya çal›fl›l›r.

‹lk ad›mda bilgisayar kullan›c›n›nakustik giriflini dijital ses boyutunagetirir ve bunu milisaniye boyutlar›n-da parçalara ay›r›r. Kay›t›n devam et-ti¤i sürede yaz›l›m arka planda sesparçalar›n› saklanm›fl ses örnekleriylekarfl›laflt›r›r. Karfl›laflt›rma veritaban›-n›n kalitesi sorunsuz ses tan›man›nen önemli kofluludur. Burada ton düfl-mesi, flive, hecelerin vurgulanmas›,telaffuz gibi çeflitli konuflma özellikle-rine sahip farkl› konuflmac›lar›n sesle-ri bulunuyor. Ses tan›man›n bu yönükonuflmac›dan ba¤›ms›z sistemlerinyarat›lmas› için oldukça önemli tutu-luyor.

Ses tan›ma sistemleri ek olarak ko-nuflman›n en küçük akustik birimiolan ses bilgisine dayan›yor. Türk-çe’den bir örnek vermek gerekirse"Rol" kelimesi ayn› yaz›lmas›na ra¤-men "Erol" içerisindeki hecede farkl›

okunuyor. Çal›flmalar s›ras›nda yaz›l›m,kullan›c›n›n en önemli ses özelliklerini ta-n›ml›yor ve bu de¤erleri konuflmac› pro-fili alt›nda kaydediyor. Bundan sonra ko-nuflmay› yapan kullan›c›n›n dikte ifllemis›ras›nda mümkün oldu¤unca ayn› telaf-fuzu kullanmas› da oldukça önemli.

Ses tan›ma ifllemi son olarak vurgu ta-n›ma ile tamamlan›yor. Buradan bir keli-

menin farkl› baflka kelimelere benzeyipbenzemedi¤i anlafl›l›yor. Cep telefonusahipleri bu buluflu yeni modellerin k›-sa mesaj (SMS) yazma s›ras›nda keli-meleri otomatik olarak tamamlanmas›özelli¤inden tan›yacaklard›r.

Tan›ma metotlar›n›n kombinasyon-lar› gelecek yaz›l›mlara daha anlafl›l›rkullan›c› girifli olana¤› sa¤layacaklar.

Ses kart› üzerinden say›sallaflt›rma

Ekrana ç›k›fl

Fonemlere ay›rma

Her bir fonem

ve içerik

tan›ma için

veritaban›

karfl›laflt›rmas›

Page 6: Ses Tan›mada Yeni Dönem Söz Dinleyen Bilgisayarlar · Ses Tan›ma Teknolojisi 142| N‹SAN 2001 Bilgisayar – Koruma kalkanlarını in-dir, gücü üç katına çıkar!" 30

Ses Tan›ma Teknolojisi

NN ‹‹ SS AA NN 22 00 00 11 | 114499

Geleneksel olarak te-lefon ağlarıyla bilgisa-yar ağları da birbirin-den farklı olarak dü-

şünülür. Buna karşınson yıllarda Gateway’in

"Voice-over-IP" olarak adlandı-rılan iletişim dünyası ve TCP/IP ağlarıarasında bağlantı kuran servisleri su-nulmaya başlandı. Böylelikle farklımevkiler arasındaki telefon görüşmele-ri artık Intranet üzerindeki TCP/IP pa-ketleri gibi yönlendiriliyor. Böylelikleaynı anda farklı bir arama mevcut tele-fon bağlantısıyla da birleştirilebiliyor.

İleriki yıllarda ses ve veri ağları bir-birine daha yakın hale gelecekler. Ör-neğin bu gelişimin başında gelecektebilgisayar, internet ve elektronik ticare-tin birleşimi olacak cep telefonlarınıörnek gösterebiliriz. Daha sonraki yıl-larda kullanıcının aradığı bilgiye yadaveriye ulaşmak için hangi aygıtı tercihedeceğinin pek de bir önemi bulunma-yacak. Ses girişi ve çıkışı sayesinde in-ternet’e telefon aracılığıyla bağlantıgünümüzde mümkün. Bununla birlik-te ileride telefon ile siparişler otomatikolarak satış sistemi tarafından kabuledilip, gerekli tüm bilgiler onay içincep telefonunuza gönderilecek.

Günümüzde ses tanımanın Internetüzerindeki kullanımını örneğin Unifi-ed-Messaging ileticisi olan GMX(www.gmx.com.tr) firmasının web si-tesinde E-Posta iletimi, Web tabanlıFaks, ses yada kısa mesajların okunma-sı görevlerinde kullanıldığını görebilir-siniz. Yeni gelen bir bilgi cep telefonu-nuza kısa mesajların ulaşacağının müj-desini veriyor. Böylelikle bir arama ilehaber merkezi size mesajlarınızı daokuyabilecek. Datacom Research şirke-tinin araştırmasına göre 2005 yılındaiki milyar kullanıcı bu tür Voice Por-talları kullanmayı tercih edecekler.

CCeeBBIITT--TTrreennddii:: MMoobbiill ddoonnaann››mmllaarrddaa sseess ttaann››mmaaSes destekli Internet içeriği sağlayanVoice XML sayesinde meraklı kullanı-cılar artık istedikleri sayfalarda ses yo-luyla gezebilecekler. Ses tanıma aynızamanda güvenlik açısından da CeBIT2001 fuarında oldukça büyük bir ilgitoplayacak. Tanınmış ses algılama vesentezi yazılımlarının yanında Voice-over-IP özelliğini taşıyan cep telefonuve ev telefonu gibi iletişim araçlarının

da büyük ilgi görmesi bekleniyor.Özellikle 1999 yılından bu yana IBM

ile taşınabilir aygıtlarda ses tanıma tek-nolojisi üzerine ortaklık yürüten No-kia firmasının yenilikleri göz kamaştı-racağa benziyor. İki girişimci de yazılımetinlerin sese dönüşüm yöntemiüzerinde yoğun şekilde çalışıyorlar.Bilgisayar destekli telefon alanında verive telefon ağları Voice-over-IP formu-na yaklaşıyor ve doğrusal ses işlemeçözümü her zaman beraber anılmayadevam ediyor.

Etkileşimli, tek bir konuşma tipin-den ve sözcüsünden bağımsız doğal sesişlemesi ve çıkışı yapabilen sistemlerönümüzdeki birkaç yıl içerisinde kul-lanıma geçeceğe benzemiyor. Aynı za-manda ışık hızında uzay seyahati dezaman içinde halen bir soru işareti ol-maya devam edecek.

MMuurraatt KKaarrssll››oo¤¤lluu ([email protected])

KKAARRBBSSTTEEIINN:: Her koflul için geçerli bircevap veremeyiz. PC dikte yaz›l›mlar›-n›n flu anda müflteri pazar› oldukça dar.‹fl dünyas›nda ve özellikle uzmanlaflmakisteyen müflterilerde büyük potansiyelgörüyoruz. Ancak bu müflteriler ses ta-n›ma sisteminin s›k›c› ve pahal› çal›fl-malar›na zaman ay›ramazlar. Bu yüzdenIBM kiflisellefltirilmifl ve branfllara özelsöz da¤arc›¤›na sahip araçlar› sunuyor.‹leriki y›llarda telefon tabanl› E-Businessçözümlerine odaklanaca¤›z. Voice-over-IP, VoiceXML, CTI ve yeni telefon a¤lar›bu trendi destekliyorlar.

CCHHIIPP:: Ofis paketlerinin ses tan›ma özel-li¤i konusunda neler düflünüyorsunuz?KKAARRBBSSTTEEIINN:: Tüketici taraf›nda ses tan›-maya karfl› halen uyum süreci yaflan›-yor. ‹yi çal›flmas› flart›yla bu süreç uzunsürmeyecektir. ‹fl dünyas›nda ise mey-dan okuma devam ediyor. Profesyonelçözümler getirecek Speech-Servicesalan›nda Microsoft’un yine gücünü gös-terece¤ini düflünüyorum.

CCHHIIPP:: Gelecekte ses tan›ma sizce hangialanlarda flansl›?KKAARRBBSSTTEEIINN:: Tüm alanlarda. Konuflmailetiflimin en do¤al biçimi. Her gün yüz-leflti¤imiz elektronik ayg›tlar›n say›s›günden güne art›yor. Tüm bu ayg›tlar›nbir gün sadece ses ile yönetilmesi birhayal mi sizce? Temel olarak düzeltilmiflses tan›ma sistemleri bizi bir ayr›ma ge-tiriyor.

RÖPORTAJ

““GGüüvveenniilliirr OOlldduu¤¤uunnddaa SSöözzüünnüüzz GGeeççeecceekk””

CHIP sizler için IBM Almanya’n›n sestan›ma sat›fl bölümü sözcüsü Wolf-gang Karbstein’›n ses tan›ma sistemle-rinin geliflimi konusunda kiflisel görüfl-lerini ald›.

CCHHIIPP:: Ses tan›ma yaz›l›mlar›n›n s›k kul-lan›lmamas›na ra¤men neden bu ko-nuya yöneldiniz?KKAARRBBSSTTEEIINN:: Kesinlikle buna kat›lm›-yorum. Ürünlerin ve bu konuda çal›-flanlar›n say›s› h›zl› bir art›fl gösterdi.Özellikle tüketici pazar›nda ürün say›s›-n›n art›fl›yla birlikte fiyatlar da önemliderecede düfltü. Üstelik ço¤u ses tan›-ma yaz›l›m› müflterisi sadece yaz›l›m-lar›n s›k›c› ö¤renme aflamas›ndan vekullan›c› arabiriminden dolay› geri dö-nüyorlar. Bu devreler mutlaka ilerideafl›lacak.

CCHHIIPP:: Ses tan›man›n tam olarak kulla-n›lmas› için hangi flartlar›n sa¤lanmas›gerekiyor?

IIBBMM AAllmmaannyyaa

SSeess TTaann››mmaa SSaatt››flfl

BBööllüümmüü SSöözzccüüssüü

WWoollffggaanngg

KKaarrbbsstteeiinn

SSeess iillee ççaammaaflfl››rr yy››kkaammaa:: Konuflman›n

tan›nmas› sayesinde çamafl›r makineleri

istedi¤iniz yerden çal›flt›r›labilecek.