ses tan›mada yeni dönem söz dinleyen bilgisayarlar · ses tan›ma teknolojisi 142| n‹san...
TRANSCRIPT
Ses Tan›ma Teknolojisi
114422 | NN ‹‹ SS AA NN 22 00 00 11
� Bilgisayar – Koruma kalkanlarını in-dir, gücü üç katına çıkar!" 30 yıl kadarönce bu sözleri Kaptan Kirk’ün ağzın-dan duyduğumuzda uzay gemisi En-terprise’ın yıldızlar arasında uzaklaraseyahati gibi gemi bilgisayarının sesleyönetilmesi de oldukça büyük bir ha-yaldi. Farklı konular üzerine kurulu"Savaş yıldızı Galactica" ve "Yıldız Sa-vaşları" gibi diğer bilim kurgu filmle-rinde de konuşmayı anlayan bilgisa-yarlar, ses tanıyan kapılar ve benzeriözel donanımlara yer veriliyordu."2001: A Space Odyssey" filminin efsa-nevi bilgisayarı HAL ise özelliklerinihızla geliştirmiş ve dudaklardan ko-nuşmayı okuyabiliyordu.
DDüünnüünn BBiilliimm--KKuurrgguu rrüüyyaass›› bbuuggüünnüünn ggeerrççee¤¤iiYetmişli ve seksenli yıllarda bilim kur-gu akımının yaratıcıları için konuşanbilgisayarlar bugünün düşüncesiyleışınlanma kadar uzak bir teknolojikrüyaydı. Senaryo yazarları için ışık hı-zında seyahat eden uzay gemileri gele-ceği yansıtan güzel bir hayal olarak ka-lırken son yıllarda ses tanıma çok bü-yük bir yol aldı.
İleride ağızdan çıkan kelimeler klav-ye başında boşa geçen zamanın yerininalacak, bilgisayar ve günlük hayatınparçaları olan elektronik eşyaların kul-lanımı gözle görülür şekilde basitleşe-cek. Şimdiden insan ağzından çıkankelimelere duyarlı sayısız sistem geliş-tirilmiş durumda. Özel hazırlanmışyazılımlarla donatılmış bilgisayarlar,tıp bilimindeki özel kullanım alanlarıve tabii ki günlük hayatta sıkça kullan-dığımız cep telefonu yada arabalar busistemlere ilk örnekler olarak gösterile-bilir.
1993 yılından bu yana PC için ko-nuşmayı tanıyan yazılımlar bulunuyor.Buna rağmen ancak üç sene öncesin-den başlayan bir çalışma ile büro ya-şantısını neşeli hale getirecek yeni veyoğun bir uzmanlaşma sonucunda is-tenen sonucu veren dikte yazılımları
Ses Tan›mada Yeni Dönem
SSöözz DDiinnlleeyyeenn BBiillggiissaayyaarrllaarrGGeelliiflflttiirriicciilleerr,, iinnssaann kkoonnuuflflmmaass››nnaa ttaamm aannllaamm››yyllaa tteeppkkii ggöösstteerreenn bbiillggiissaayyaarrllaarr››nn,, tteelleeffoonn vvee mmaakkiinneelleerriinn
mmüüjjddeessiinnii vveerriiyyoorrllaarr.. HH››zzll›› iiflfllleemmcciilleerr vvee ddaahhaa iiyyii yyaazz››ll››mmllaarr mmaakkiinneelleerriinn kkuullaa¤¤›› oollaaccaakkllaarr..
Ses Tan›ma Teknolojisi
NN ‹‹ SS AA NN 22 00 00 11 | 114433
geliştirilmiş. Sonuç olarak PC’ler içingeliştirilmiş yeni ses tanıma yazılımlarıdoğal bir konuşmayı yazıya dönüştüre-biliyorlar. Dikte olarak adlandırılan vebeklemelerle dolu bu işlem artık geç-mişte kalıyor. En ideal kullanımda yüz-
rim gerçekleştirecek. Başlangıçta fare-nin işletim sistemiyle uyumunu sağla-yan çok az yazılım bulunuyordu. An-cak günümüzde grafik arabirime sahipher işletim sistemi pratik olarak kulla-nıcı arabiriminin yönetimi için fareyistandart ve neredeyse vazgeçilmez ola-rak görüyorlar.
‹‹flfllleettiimm ssiisstteemmii:: UUzzmmaann ççöözzüümmlleerriiççiinn sseess ttaann››mmaa ggeelliiflflttiirriilliiyyoorrSes tanıma konusunda kısa sürede bü-yük gelişimler bekleniyor. Çünkü IBMfirması ofis uygulamaları paketi olarakgeliştirilmiş SmartSuite’in 9.0 sürü-müne ses tanıma yazılımı olan ViaVo-ice’ı ekledikten sonra Microsoft firma-sı da kolları sıvadı. Yeni piyasaya çıka-cak olan Office sürümünün ses tanımaile desteklendiğinin açıklanmasının ar-dından öncelikle konuşma sistemi SA-PI 5.0 yazılım geliştiricilerinin emrineücretsiz olarak sunulmaya başladı. 125Mbyte büyüklüğündeki ses tanımanınyanında yazıları okuyan bir de uygula-ma içeriyor.
Şimdilik Microsoft geliştirici paketisadece İngilizce, Çince ve Japonca ko-nuşabiliyor. Sistem sabit disk üzerinde450 Mbyte’a kadar boş alana ihtiyaçduyuyor ve donanım gereksinimi dedikkat çekiyor: Sadece ses tanıma işle-mi için sisteme 128 Mbyte çalışma ha-fızasına eklemeniz gerekiyor ve 64Mbyte hafızanın tamamı konuşma iş-lemi için kullanılıyor. Yeni piyasaya çı-kacak olan "Whistler" adındaki Consu-mer-Windows da konuşma motorunasahip.
İşletim sistemiyle tam entegrasyonsayesinde sadece uygulamalarda sesini-zi yazıya dönüştürme özelliğine değilaynı zamanda işletim sistemini tamolarak ses komutlarıyla yönetebilme ❿
de 95’lik bir isabetoranına sahip ses tanı-ma buradan da anlaşıl-dığı gibi aslında halen100 harften beşini hatalıolarak yazıya çeviriyor. Buoran bir A4 sayfasında 200
hataya karşılık geliyor veprofesyonel bir çalışma
için bu sayı gerçekten ol-dukça fazla.
PPCC’’nniizz ssööyylleenneennlleerrii yyaazz››yyaa ççeevviirriiyyoorr
Açıkçası sadece sınırlı terim-leri içeriyor da olsa belirli ko-
nularda geliştirilen özel çözüm-ler güvenilirlik sağlarlar. Bu işle uğ-
raşan uzmanlar için hazırlanmış prog-ramlar bilgisayara konuşulan söz-
cükleri yazılı metine çevirirler.Ancak bu işlem, sadece ses ta-
nıma sürecinden istenen ve-rim alınana dek yapılacakolan bir takım çalışmasıdır.Ve tabi ki sadece tıp veya hu-kukçular için satılan pahalı
sözlükler yüzde yüz oranındagüvenilir olabilirler. Okunan
dokümanın anında ve doğru ola-rak işlenmesi ise şimdilik sadece gün-
demi işgal etmeye devam edecek.Dikte yazılımlarıyla çalışmasüreci farklı sınırlamaların et-
kisinde kalıyor. Ne olursa ol-sun kullanıcının bilgisayarabağlı olan bir kafa mikrofo-nu ile konuşması gerekiyor.Telsiz mikrofonlar büyük bir
çalışma alanına sahip, ancakyine de kontrol için kullanıcının
gözlerinin monitör üzerinde bu-lunması gerekecektir.
Sokaktan gelen sesler, açık bir pen-cere yada büyük bir büroda çalı-
şanların telefon görüşmeleri gi-bi rahatsız edici ortam gürül-tüsü ses tanımanın zorlaşma-sına ve hatalara neden ola-caktır. Ancak şive ve telaffuzfarklılıklarının belirlenmesi
için gerekli olan sıkıcı, uzun,hassas deneme aşamaları sonu-
cunda yazılım, kullanıcısının söy-lediklerini anlamaya başlar.
Tüm bu zorluklara rağmen ses tanı-ma, işletim sisteminin bir parçası ol-duktan sonra uygulamaların yöneti-minde adeta farenin icadı gibi bir dev-
SSttaayy ttuunneedd:: Ses tan›ma için konuflman›n
al›naca¤› bir Headset çal›flma masan›z›n
vazgeçilmez parças›.
Ses Tan›ma Teknolojisi
114444 | NN ‹‹ SS AA NN 22 00 00 11
Speechworks ile ku-rulmuş olan bu ortak-lık muhtemelen birsonraki Palm neslininses tanıma fonksiyonla-rına sahip olabileceği an-lamına da geliyor. IBM Viavo-ice ve aynı zamanda Apple Macintoshiçin duyurulan sistemlerin ardındanOpen-Source ses tanıma uygulamasıCMU Sphinx’in Linux kullanıcılarınınemrine sunulması da sevindirici birgelişme. Carnegie Mellon Universitesitarafından geliştirilen bu yazılım ger-çekten gelecek vaat ediyor.
SSeess ttaann››mmaa ggüünnllüükk hhaayyaatt››nn iiççiinnddeeSes tanıma sadece PC uygulamalarıiçin geliştirilmiş bir yazılım olmanındışında günlük uygulamalara da hızlıbir şekilde nüfuz ediyor. Telefon ile ba-zı büyük şirketleri, bilgi servislerini ya-da bankanızın telefon bankacılığı nu-
marasını aradığınızda karşınıza çıkanses destekli telefon-bilgisayar artık ol-dukça alışılmış bir durum halini aldı.Bu sistemler adınızı ve giriş bilgilerini-zi herhangi bir Call-Center çalışanınınyardımı olmadan kolaylıkla alabiliyor-lar.
Aslında amaçlanan sistemler ile ara-da oldukça büyük bir fark bulunuyor.Bu sistemler önceden kesin olarak ta-nımlanmış karar ağacına göre dinamikses tanımayla çalışıyorlar. Yani kullanı-
imkanına da sahip oluyorsunuz. Mic-rosoft’un yeni piyasaya sürüleceği cepbilgisayarı sürümü olan WindowsCE’de ise bu fonksiyonu ne derecedeuygulayacağı henüz kesinlik kazanmışdeğil.
Microsoft, Windows işletim sistemi-ni ses tanıma ve sentezi ile güçlendir-mek için uzun bir süredir bu konuyaağırlık veriyor. Hatta Microsoft dahaönceden Dragon Dictate’in geliştiriciDragon Systems tarafından alınan sestanıma uzmanları Lernout & Hauspie’i45 milyon dolara satın aldı.
AAlltt›› kkaannaall üüzzeerriinnddeenn sseessllii iilleettiiflfliimm ddöönneemmiiMicrosoft, Redmonder Software so-yundan gelen yeni donanımı Gamevo-ice ile Internet üzerinde ortak oyunoynayabilme imkanı sağlıyor. Oyuncu-lar altı farklı kanal üzerinden iletişimkurup oyunu ses komutlarıyla yönete-biliyorlar.
Öte yandan Palm PDA sahipleri ise2001’in ilk çeyreğinden itibaren kişiselrandevularını yada bağlantılarını Spe-echWorks’un geliştiricisi olan And-Day’in (www.anyday.com) servis site-sinden telefon ile ses komutlarıyla sor-gulayabilecekler. Bu amaçla Palm Spe-echWorks ile ortaklık kurarak bilgisa-yar destekli ses tanıma sistemi sunucu-sunu geliştiriyor. İleride bu sistemdeyeni randevuları veya yeni adreslerikaydetmek de mümkün olacak.
IIBBMM’’iinn 77777722 mmooddeellii ssaatt››--
flflaa ssuunnuullaann iillkk kkoonnuuflflmmaa
kkaayy››tt aarraacc››yydd››..
1962
TTaannggoorraa’’nn››nn iillkk aallmmaannccaa
kkoonnuuflflaann ssüürrüümmüü CCeeBBIITT
ffuuaarr››nnddaa kkaappaall›› bbiirr ooddaa--
ddaa hhaallkkaa ttaann››tt››lldd››..
1991
DDrraaggoonn SSyysstteemmss ffiirrmmaass››
DDrraaggoonn DDiiccttaattee
SSyysstteemm’’iinn iillkk ‹‹nnggiilliizzccee
ssüürrüümmüünnüü ssaatt››flflaa ssuunndduu..
1990
IIBBMM CCeeBBIITT ffuuaarr››nnddaa tt››pp
vvee aavvuukkaattll››kk üüzzeerriinnee
öözzeelllleeflflttiirriillmmiiflfl VVooiicceeTTyy--
ppee yyaazz››ll››mm››nn››nn aallmmaannccaa
ssüürrüümmüünnüü ttaann››tttt››..
1995
1984‹‹llkk kkoonnuuflflmmaa ttaann››mmaa
ssiisstteemmii ddaahhaa hh››zzll›› iiflfl--
lleemmcciilleerr ggeerreekkttiirriiyyoorr--
dduu.. HHeerr hheessaappllaammaa ssüü--
rreeccii ddaakkiikkaallaarrccaa ssüürrüü--
yyoorr vvee yyaakkllaaflfl››kk 55..000000
‹‹nnggiilliizzccee kkeelliimmee ttaann››nn››--
yyoorrdduu..
1992TTaannggoorraa tteekknnoolloojjiissiinnii
‹‹sstteemmccii--SSuunnuuccuu mmooddee--
llii AAIIXX iiflfllleettiimm ssiisstteemmllii
bbiirr IIBBMM--RRSS//66000000 ssiissttee--
mmii ggeerreekkttiirriiyyoorr vvee kkoo--
nnuuflflmmaa ggiirriiflflii OOSS//22 iiss--
ttaassyyoonnllaarr››nnddaann yyaapp››ll››--
yyoorrdduu..
1998PPhhiilliippss ggiibbii IIBBMM,, DDrraa--
ggoonn vvee LLeerrnnoouutt && HHaa--
uussppiiee flfliirrkkeettlleerrii ddee
üürrüünnlleerriinniinn ttüükkeettiiccii ssüü--
rrüümmlleerriinnii ssaatt››flflaa ssuunndduu--
llaarr..
1993IIBBMM’’iinn iillkk PPCC ççöözzüümmüü
PPeerrssoonnaall DDiiccttaattiioonn
11..000000 ddoollaarraa ssaatt››flflaa
ssuunnuulldduu.. PPhhiilliippss DDiicc--
ttaattiioonn SSyysstteemmss iissee ssüü--
rreekkllii kkoonnuuflflmmaann››nn ttaa--
nn››nndd››¤¤›› iillkk ssüürrüümmddüü..
1997PPhhiilliippss’’iinn ‹‹sstteemmccii--SSuu--
nnuuccuu ççöözzüümmüü oollaann
SSppeeeecchh MMaaggiicc ggeelliiflflttii--
rriillddii.. LLeerrnnoouutt && HHaauuss--
ppiiee iillkk ‹‹nnggiilliizzccee kkoonnuu--
flflaann vvee ttaann››yyaann ssiissttee--
mmii ggeelliiflflttiirrddii..
1986TTaannggoorraa 44 pprroottoottiippii::
ÖÖzzeell bbiirr mmiikkrroo iiflfllleemmccii
iillee eeflfl zzaammaannll›› oollaarraakk
kkoonnuuflflmmaa üüzzeerriinnddee iiflfl--
lleemmlleerr yyaappaabbiilleenn iillkk
mmaassaaüüssttüü bbiillggiissaayyaarr
ggeelliiflflttiirriillddii.. SSiisstteemm aayy--
rr››ccaa iiççeerriikk ss››nnaammaa ddaa
iiççeerriiyyoorrdduu..
KKoonnuuflflmmaa FFoonnkkssiiyyoonnllaarr››nn››nnGGeelliiflfliimmii
SSeess ssiihhiirrbbaazz››:: IBM Voice Speaking zeki ve ifllemci için özellefltirilmifl konuflma modelleri ile
ö¤renme basama¤›n› k›salt›yor.
Ses Tan›ma Teknolojisi
114466 | NN ‹‹ SS AA NN 22 00 00 11
cı sadece belirlenmiş komutları söyle-mek zorunda kalıyor ve genel olarakgünlük hayattaki konuşma tanınmışsayılmıyor.
Aynı şekilde kısa bir süre önce kulla-nıcısının sesini tanıyarak saklanmışnumaraları arayan cep telefonları dasatışa sunuldu. Bu araçlar da aslındakullanıcının kelimelerini gerçektenanlayamıyorlar. Bu işlemin üç temelbasamağı bulunuyor. Kullanıcı tarafın-dan istenen isim telefon numarasıylabirlikte ses kaydı olarak telefon hafıza-sına saklanıyor. Aranmak istenen nu-maranın kayıtlı olan ismi tekrar söy-lendiğinde telefon tüm ses kayıtlarınıkarşılaştırıyor. İki ses dalgası da birbi-rini tuttuğunda telefon ilgili numarayıarıyor.
Ses destekli bir sistem olan tamamenyeni uygulama Xybernaut (xyberna-ut.com) üreticilerinin fikirlerine daya-nıyor. Amerikan kuruluşu olan bu şir-ket Amerikan silahlı kuvvetleriyle or-taklık yaparak "body-worn computer"olarak adlandırılan yazılım ve donanı-mı geliştirip desteğini veriyorlar. Vücutüzerinde taşınan bu sistem günümü-zün büyük ve kullanışsız bilgisayarları-na karşı birçok farklı uygulama alanınıelinde bulunduruyor.
Ses destekleyen bu sistem kafaya ası-lan ve sağ gözün önünde bulunanminyatür ekranı ve bilekte bulunanklavyesiyle birlikte belde yer alıyor. Ta-mamen vücutta taşınan sistem kullanı-
cısına denetim ve bakım konusundakarmaşık endüstri kollarında büyükyardım sağlamayı hedefliyor. Herhangibir sorun anında teknisyen üretim pla-nı ve dokümantasyon gibi gerekli bilgi-leri gözüyle takip edebiliyor.
Ses ile yönetilen İnsan-Makine ileti-şiminin hızlı ve yakalanması güçgelişimi her şeye rağmen da-ha çok donanım alanındakiilerlemeler ile sağlanıyor.
BBiillggiissaayyaarrss››zz ddaa yyaapp››llaabbiilliirr::CChhiipp’’lleerrddeekkii sseess ttaann››mmaaEmbedded Voice Solution yani Chipüzerinde ses tanıma hemen hementüm ürünlere uygulanabiliyor. Araba-ların yönetiminden başlamak üzere evdonanımının ve elektronik araçlarınyönetimine kadar neredeyse her şeyinotomatikleştirilmesinde farklı şekiller-de kullanılıyor. Bu uygula-malarda önemsiz sayıla-bilecek kadar komutunbulunmasından ötürüsesten bağımsız sistemgeliştirilmesine önemverilmiş. Bunun için ar-tık geniş sabit disk alanınasahip, hızlı işlemcili bir bilgisayara ge-rek duyulmaz, çünkü gerekli Chip’i
içeren bir CPU doğru yazılım ilebirlikte ses sinyalleri üzerinde ça-
lışmak üzere özelleştirilir.Embedded sistemler bu saye-
de düşük maliyet ile büyük mik-tarlarda üretim imkanına sahip
olur.Bunun yanında bu türChip’ler dış etkenlerekarşı günümüz bilgisa-yarlarına göre daha faz-
la dayanıklılık göste-rirler. Uygun birChip ile güçlendi-rilmiş her araç böy-lelikle duyabilenbir aygıta dönüşe-
cektir. Örneğin tele-vizyonunuzu uzaktankumanda ile yönet-mek yerine gelecekte
kanal değiştirmek için sa-dece istediğiniz kanalınadını söylemek yeterli ola-cak. Televizyon için ses ta-nıma konusunda birazdaha beklemeniz de ge-rekse arabalardaki uygu-lamalar artık bir gerçek.
Sadece birkaç yıl öncehayranlıkla izlediğimiz busistemler örneğin artıkİngiliz araba üreticisi Ja-guar tarafından 2001 yı-lından itibaren S tipi mo-dellerine Embedded Vo-ice çözümü sayesinde is-teğe bağlı olarak güvenlikve konfor seçimi olaraksunuluyor. Ses destekle-
KKuullaa¤¤›› oollaann
CChhiipp’’lleerr:: Do-
nan›m tabanl›
konuflma tan›ma
sistemleri güven-
lik ve sistem girifl
kontrolü sistem-
lerinde
kullan›l›yor.
RRoobboowwoorrkkeerr:: Uçufl kon-
trolü, savunma ve silahl›
kuvvetler yada
endüstriyel amaçl›
kullan›labilen mobil
minyatür PC’ler
flirket a¤lar›na
ba¤lant› da
sa¤l›yor.
SSöözz ddiinnlleeyyeenn aarraabbaa:: Gelecekte araban›zdaki birçok yönetim sözler ile
sa¤lanabilecek. ❿
Ses Tan›ma Teknolojisi
114488 | NN ‹‹ SS AA NN 22 00 00 11
yen bu sistem tüm müzik, telefon veklima donanımını şimdilik sadece İn-gilizce olmak üzere yönetilmesini sağ-lıyor. Türkçe komutların tercümesiiçin ise uzun süre daha çalışılması ge-rekiyor.
Yukarıdaki üç sistemde kelimeleretepki verebiliyor. Kısa komutlar hızlıbir telefon bağlantısının kurulması,radyo kanalının seçimi yada klimanınfarklı bir biçimde ayarlanması içinkullanılabiliyor. Tüm bunların yanın-
da sistem sadece seslenme-niz ile birlikte hedefe doğ-ru en kısa yolu veya mobilbağlantı ile Internet’tenalınan borsa kurları gibigerekli bilgileri gayet sem-patik bir ses ile size okuyor.Beş yıl içerisinde ise arabave sürücü arasında gerçekbir konuşma mümkünolacak. Bunun yanında sü-rücünün güvenlik açısın-dan yol dışında herhangibir yönetime dikkat harca-mayacak olması da siste-
min en büyük getirilerinden. Bu siste-min gerçekleştirilmesi için Jaguar tara-fından desteklenen Visteon’da 60’a ya-kın geliştirici çalışıyor. Aynı sınıfınaraç üreticileri olan DaimlerChryslerve BMW de ses destekli telefon siste-mini üretim programına koymuş du-rumda. Güvenlik açısından sürüş sıra-sında önem taşıyan sinyal yada fren gi-bi unsurların geliştirilmesi de gelecekiçin sadece mühendislerin elinde bulu-nuyor.
BBaannkkaammaattiikklleerr mmüüflfltteerriilleerriinnii dduuyyuuyyoorr,, ggöörrüüyyoorr vvee hhiisssseeddiiyyoorrDonanım üzerine dayalı ses tanımanınfarklı bir uygulaması da şu an denemeaşamasında yer alıyor. Üretici firmaNCR’ın para otomatı "Stella" gerçek-ten üstün yeteneklere sahip. Kişisel birtanıtım numarası, şifresi (PIN) girmekyerine aygıt müşterisini gözün retina-sından tanıyarak kişisel bir şekilde kar-şılama yapıyor ve hatta doğum günü-nüzü bile kutluyor.
Sistem, müşterinin var-lığını basınca duyarlıpaspas sayesinde algılı-yor. Klasik komutlaryardımıyla bankama-tik size işlemlerinizdekolaylık gösteriyor. Seskomutları ve kelime tanımaözellikleriyle geliştirilmiş bu bankama-tik sistemi iki büyük kredi enstitüsü ta-rafından test edilmiş. Ses tanıma içingörülen tüm örnekler özellikle de In-ternet ortamıyla da birleştiği düşünü-lürse gerçekten oldukça heyecan verici.
0,0
0,5
1,0
1,5
2,0
0,15 milyar 0,19 milyar0,25 milyar
0,47 milyar
1,66 milyar
Cir
o (
mily
ar d
ola
r)
1998 1999 2000 2002 2005Kaynak: Frost & Sullivan
TTaahhmmiinn:: 2005 y›l›na kadar ses tan›ma programlar
pazar›nda patlama bekleniyor.
SSeess TTaann››mmaa YYaazz››ll››mmllaarr››
SES TANIMA NASIL GERÇEKLEfi‹YOR?
DDüüflflüünnüüyyoorr mmuu YYookkssaa DDüüflflüünnmmüüyyoorr mmuu??Bilgisayarlar düflünmezler, sadeceverilen program basamaklar›n›n gös-terdi¤i yolu izlerler. Klavyeden bilgigirifliyle karfl›laflt›r›l›rsa ses tan›maylabirlikte ifllemci büyük bir yük alt›na veanaliz prosesine girecektir. Olas›l›ktahmini yap›larak kullan›c›n›n ne söy-lemifl oldu¤u anlafl›lmaya çal›fl›l›r.
‹lk ad›mda bilgisayar kullan›c›n›nakustik giriflini dijital ses boyutunagetirir ve bunu milisaniye boyutlar›n-da parçalara ay›r›r. Kay›t›n devam et-ti¤i sürede yaz›l›m arka planda sesparçalar›n› saklanm›fl ses örnekleriylekarfl›laflt›r›r. Karfl›laflt›rma veritaban›-n›n kalitesi sorunsuz ses tan›man›nen önemli kofluludur. Burada ton düfl-mesi, flive, hecelerin vurgulanmas›,telaffuz gibi çeflitli konuflma özellikle-rine sahip farkl› konuflmac›lar›n sesle-ri bulunuyor. Ses tan›man›n bu yönükonuflmac›dan ba¤›ms›z sistemlerinyarat›lmas› için oldukça önemli tutu-luyor.
Ses tan›ma sistemleri ek olarak ko-nuflman›n en küçük akustik birimiolan ses bilgisine dayan›yor. Türk-çe’den bir örnek vermek gerekirse"Rol" kelimesi ayn› yaz›lmas›na ra¤-men "Erol" içerisindeki hecede farkl›
okunuyor. Çal›flmalar s›ras›nda yaz›l›m,kullan›c›n›n en önemli ses özelliklerini ta-n›ml›yor ve bu de¤erleri konuflmac› pro-fili alt›nda kaydediyor. Bundan sonra ko-nuflmay› yapan kullan›c›n›n dikte ifllemis›ras›nda mümkün oldu¤unca ayn› telaf-fuzu kullanmas› da oldukça önemli.
Ses tan›ma ifllemi son olarak vurgu ta-n›ma ile tamamlan›yor. Buradan bir keli-
menin farkl› baflka kelimelere benzeyipbenzemedi¤i anlafl›l›yor. Cep telefonusahipleri bu buluflu yeni modellerin k›-sa mesaj (SMS) yazma s›ras›nda keli-meleri otomatik olarak tamamlanmas›özelli¤inden tan›yacaklard›r.
Tan›ma metotlar›n›n kombinasyon-lar› gelecek yaz›l›mlara daha anlafl›l›rkullan›c› girifli olana¤› sa¤layacaklar.
Ses kart› üzerinden say›sallaflt›rma
Ekrana ç›k›fl
Fonemlere ay›rma
Her bir fonem
ve içerik
tan›ma için
veritaban›
karfl›laflt›rmas›
Ses Tan›ma Teknolojisi
NN ‹‹ SS AA NN 22 00 00 11 | 114499
Geleneksel olarak te-lefon ağlarıyla bilgisa-yar ağları da birbirin-den farklı olarak dü-
şünülür. Buna karşınson yıllarda Gateway’in
"Voice-over-IP" olarak adlandı-rılan iletişim dünyası ve TCP/IP ağlarıarasında bağlantı kuran servisleri su-nulmaya başlandı. Böylelikle farklımevkiler arasındaki telefon görüşmele-ri artık Intranet üzerindeki TCP/IP pa-ketleri gibi yönlendiriliyor. Böylelikleaynı anda farklı bir arama mevcut tele-fon bağlantısıyla da birleştirilebiliyor.
İleriki yıllarda ses ve veri ağları bir-birine daha yakın hale gelecekler. Ör-neğin bu gelişimin başında gelecektebilgisayar, internet ve elektronik ticare-tin birleşimi olacak cep telefonlarınıörnek gösterebiliriz. Daha sonraki yıl-larda kullanıcının aradığı bilgiye yadaveriye ulaşmak için hangi aygıtı tercihedeceğinin pek de bir önemi bulunma-yacak. Ses girişi ve çıkışı sayesinde in-ternet’e telefon aracılığıyla bağlantıgünümüzde mümkün. Bununla birlik-te ileride telefon ile siparişler otomatikolarak satış sistemi tarafından kabuledilip, gerekli tüm bilgiler onay içincep telefonunuza gönderilecek.
Günümüzde ses tanımanın Internetüzerindeki kullanımını örneğin Unifi-ed-Messaging ileticisi olan GMX(www.gmx.com.tr) firmasının web si-tesinde E-Posta iletimi, Web tabanlıFaks, ses yada kısa mesajların okunma-sı görevlerinde kullanıldığını görebilir-siniz. Yeni gelen bir bilgi cep telefonu-nuza kısa mesajların ulaşacağının müj-desini veriyor. Böylelikle bir arama ilehaber merkezi size mesajlarınızı daokuyabilecek. Datacom Research şirke-tinin araştırmasına göre 2005 yılındaiki milyar kullanıcı bu tür Voice Por-talları kullanmayı tercih edecekler.
CCeeBBIITT--TTrreennddii:: MMoobbiill ddoonnaann››mmllaarrddaa sseess ttaann››mmaaSes destekli Internet içeriği sağlayanVoice XML sayesinde meraklı kullanı-cılar artık istedikleri sayfalarda ses yo-luyla gezebilecekler. Ses tanıma aynızamanda güvenlik açısından da CeBIT2001 fuarında oldukça büyük bir ilgitoplayacak. Tanınmış ses algılama vesentezi yazılımlarının yanında Voice-over-IP özelliğini taşıyan cep telefonuve ev telefonu gibi iletişim araçlarının
da büyük ilgi görmesi bekleniyor.Özellikle 1999 yılından bu yana IBM
ile taşınabilir aygıtlarda ses tanıma tek-nolojisi üzerine ortaklık yürüten No-kia firmasının yenilikleri göz kamaştı-racağa benziyor. İki girişimci de yazılımetinlerin sese dönüşüm yöntemiüzerinde yoğun şekilde çalışıyorlar.Bilgisayar destekli telefon alanında verive telefon ağları Voice-over-IP formu-na yaklaşıyor ve doğrusal ses işlemeçözümü her zaman beraber anılmayadevam ediyor.
Etkileşimli, tek bir konuşma tipin-den ve sözcüsünden bağımsız doğal sesişlemesi ve çıkışı yapabilen sistemlerönümüzdeki birkaç yıl içerisinde kul-lanıma geçeceğe benzemiyor. Aynı za-manda ışık hızında uzay seyahati dezaman içinde halen bir soru işareti ol-maya devam edecek.
MMuurraatt KKaarrssll››oo¤¤lluu ([email protected])
KKAARRBBSSTTEEIINN:: Her koflul için geçerli bircevap veremeyiz. PC dikte yaz›l›mlar›-n›n flu anda müflteri pazar› oldukça dar.‹fl dünyas›nda ve özellikle uzmanlaflmakisteyen müflterilerde büyük potansiyelgörüyoruz. Ancak bu müflteriler ses ta-n›ma sisteminin s›k›c› ve pahal› çal›fl-malar›na zaman ay›ramazlar. Bu yüzdenIBM kiflisellefltirilmifl ve branfllara özelsöz da¤arc›¤›na sahip araçlar› sunuyor.‹leriki y›llarda telefon tabanl› E-Businessçözümlerine odaklanaca¤›z. Voice-over-IP, VoiceXML, CTI ve yeni telefon a¤lar›bu trendi destekliyorlar.
CCHHIIPP:: Ofis paketlerinin ses tan›ma özel-li¤i konusunda neler düflünüyorsunuz?KKAARRBBSSTTEEIINN:: Tüketici taraf›nda ses tan›-maya karfl› halen uyum süreci yaflan›-yor. ‹yi çal›flmas› flart›yla bu süreç uzunsürmeyecektir. ‹fl dünyas›nda ise mey-dan okuma devam ediyor. Profesyonelçözümler getirecek Speech-Servicesalan›nda Microsoft’un yine gücünü gös-terece¤ini düflünüyorum.
CCHHIIPP:: Gelecekte ses tan›ma sizce hangialanlarda flansl›?KKAARRBBSSTTEEIINN:: Tüm alanlarda. Konuflmailetiflimin en do¤al biçimi. Her gün yüz-leflti¤imiz elektronik ayg›tlar›n say›s›günden güne art›yor. Tüm bu ayg›tlar›nbir gün sadece ses ile yönetilmesi birhayal mi sizce? Temel olarak düzeltilmiflses tan›ma sistemleri bizi bir ayr›ma ge-tiriyor.
RÖPORTAJ
““GGüüvveenniilliirr OOlldduu¤¤uunnddaa SSöözzüünnüüzz GGeeççeecceekk””
CHIP sizler için IBM Almanya’n›n sestan›ma sat›fl bölümü sözcüsü Wolf-gang Karbstein’›n ses tan›ma sistemle-rinin geliflimi konusunda kiflisel görüfl-lerini ald›.
CCHHIIPP:: Ses tan›ma yaz›l›mlar›n›n s›k kul-lan›lmamas›na ra¤men neden bu ko-nuya yöneldiniz?KKAARRBBSSTTEEIINN:: Kesinlikle buna kat›lm›-yorum. Ürünlerin ve bu konuda çal›-flanlar›n say›s› h›zl› bir art›fl gösterdi.Özellikle tüketici pazar›nda ürün say›s›-n›n art›fl›yla birlikte fiyatlar da önemliderecede düfltü. Üstelik ço¤u ses tan›-ma yaz›l›m› müflterisi sadece yaz›l›m-lar›n s›k›c› ö¤renme aflamas›ndan vekullan›c› arabiriminden dolay› geri dö-nüyorlar. Bu devreler mutlaka ilerideafl›lacak.
CCHHIIPP:: Ses tan›man›n tam olarak kulla-n›lmas› için hangi flartlar›n sa¤lanmas›gerekiyor?
IIBBMM AAllmmaannyyaa
SSeess TTaann››mmaa SSaatt››flfl
BBööllüümmüü SSöözzccüüssüü
WWoollffggaanngg
KKaarrbbsstteeiinn
SSeess iillee ççaammaaflfl››rr yy››kkaammaa:: Konuflman›n
tan›nmas› sayesinde çamafl›r makineleri
istedi¤iniz yerden çal›flt›r›labilecek.