Transcript
Page 1: Ses Tan›mada Yeni Dönem Söz Dinleyen Bilgisayarlar · Ses Tan›ma Teknolojisi 142| N‹SAN 2001 Bilgisayar – Koruma kalkanlarını in-dir, gücü üç katına çıkar!" 30

Ses Tan›ma Teknolojisi

114422 | NN ‹‹ SS AA NN 22 00 00 11

� Bilgisayar – Koruma kalkanlarını in-dir, gücü üç katına çıkar!" 30 yıl kadarönce bu sözleri Kaptan Kirk’ün ağzın-dan duyduğumuzda uzay gemisi En-terprise’ın yıldızlar arasında uzaklaraseyahati gibi gemi bilgisayarının sesleyönetilmesi de oldukça büyük bir ha-yaldi. Farklı konular üzerine kurulu"Savaş yıldızı Galactica" ve "Yıldız Sa-vaşları" gibi diğer bilim kurgu filmle-rinde de konuşmayı anlayan bilgisa-yarlar, ses tanıyan kapılar ve benzeriözel donanımlara yer veriliyordu."2001: A Space Odyssey" filminin efsa-nevi bilgisayarı HAL ise özelliklerinihızla geliştirmiş ve dudaklardan ko-nuşmayı okuyabiliyordu.

DDüünnüünn BBiilliimm--KKuurrgguu rrüüyyaass›› bbuuggüünnüünn ggeerrççee¤¤iiYetmişli ve seksenli yıllarda bilim kur-gu akımının yaratıcıları için konuşanbilgisayarlar bugünün düşüncesiyleışınlanma kadar uzak bir teknolojikrüyaydı. Senaryo yazarları için ışık hı-zında seyahat eden uzay gemileri gele-ceği yansıtan güzel bir hayal olarak ka-lırken son yıllarda ses tanıma çok bü-yük bir yol aldı.

İleride ağızdan çıkan kelimeler klav-ye başında boşa geçen zamanın yerininalacak, bilgisayar ve günlük hayatınparçaları olan elektronik eşyaların kul-lanımı gözle görülür şekilde basitleşe-cek. Şimdiden insan ağzından çıkankelimelere duyarlı sayısız sistem geliş-tirilmiş durumda. Özel hazırlanmışyazılımlarla donatılmış bilgisayarlar,tıp bilimindeki özel kullanım alanlarıve tabii ki günlük hayatta sıkça kullan-dığımız cep telefonu yada arabalar busistemlere ilk örnekler olarak gösterile-bilir.

1993 yılından bu yana PC için ko-nuşmayı tanıyan yazılımlar bulunuyor.Buna rağmen ancak üç sene öncesin-den başlayan bir çalışma ile büro ya-şantısını neşeli hale getirecek yeni veyoğun bir uzmanlaşma sonucunda is-tenen sonucu veren dikte yazılımları

Ses Tan›mada Yeni Dönem

SSöözz DDiinnlleeyyeenn BBiillggiissaayyaarrllaarrGGeelliiflflttiirriicciilleerr,, iinnssaann kkoonnuuflflmmaass››nnaa ttaamm aannllaamm››yyllaa tteeppkkii ggöösstteerreenn bbiillggiissaayyaarrllaarr››nn,, tteelleeffoonn vvee mmaakkiinneelleerriinn

mmüüjjddeessiinnii vveerriiyyoorrllaarr.. HH››zzll›› iiflfllleemmcciilleerr vvee ddaahhaa iiyyii yyaazz››ll››mmllaarr mmaakkiinneelleerriinn kkuullaa¤¤›› oollaaccaakkllaarr..

Page 2: Ses Tan›mada Yeni Dönem Söz Dinleyen Bilgisayarlar · Ses Tan›ma Teknolojisi 142| N‹SAN 2001 Bilgisayar – Koruma kalkanlarını in-dir, gücü üç katına çıkar!" 30

Ses Tan›ma Teknolojisi

NN ‹‹ SS AA NN 22 00 00 11 | 114433

geliştirilmiş. Sonuç olarak PC’ler içingeliştirilmiş yeni ses tanıma yazılımlarıdoğal bir konuşmayı yazıya dönüştüre-biliyorlar. Dikte olarak adlandırılan vebeklemelerle dolu bu işlem artık geç-mişte kalıyor. En ideal kullanımda yüz-

rim gerçekleştirecek. Başlangıçta fare-nin işletim sistemiyle uyumunu sağla-yan çok az yazılım bulunuyordu. An-cak günümüzde grafik arabirime sahipher işletim sistemi pratik olarak kulla-nıcı arabiriminin yönetimi için fareyistandart ve neredeyse vazgeçilmez ola-rak görüyorlar.

‹‹flfllleettiimm ssiisstteemmii:: UUzzmmaann ççöözzüümmlleerriiççiinn sseess ttaann››mmaa ggeelliiflflttiirriilliiyyoorrSes tanıma konusunda kısa sürede bü-yük gelişimler bekleniyor. Çünkü IBMfirması ofis uygulamaları paketi olarakgeliştirilmiş SmartSuite’in 9.0 sürü-müne ses tanıma yazılımı olan ViaVo-ice’ı ekledikten sonra Microsoft firma-sı da kolları sıvadı. Yeni piyasaya çıka-cak olan Office sürümünün ses tanımaile desteklendiğinin açıklanmasının ar-dından öncelikle konuşma sistemi SA-PI 5.0 yazılım geliştiricilerinin emrineücretsiz olarak sunulmaya başladı. 125Mbyte büyüklüğündeki ses tanımanınyanında yazıları okuyan bir de uygula-ma içeriyor.

Şimdilik Microsoft geliştirici paketisadece İngilizce, Çince ve Japonca ko-nuşabiliyor. Sistem sabit disk üzerinde450 Mbyte’a kadar boş alana ihtiyaçduyuyor ve donanım gereksinimi dedikkat çekiyor: Sadece ses tanıma işle-mi için sisteme 128 Mbyte çalışma ha-fızasına eklemeniz gerekiyor ve 64Mbyte hafızanın tamamı konuşma iş-lemi için kullanılıyor. Yeni piyasaya çı-kacak olan "Whistler" adındaki Consu-mer-Windows da konuşma motorunasahip.

İşletim sistemiyle tam entegrasyonsayesinde sadece uygulamalarda sesini-zi yazıya dönüştürme özelliğine değilaynı zamanda işletim sistemini tamolarak ses komutlarıyla yönetebilme ❿

de 95’lik bir isabetoranına sahip ses tanı-ma buradan da anlaşıl-dığı gibi aslında halen100 harften beşini hatalıolarak yazıya çeviriyor. Buoran bir A4 sayfasında 200

hataya karşılık geliyor veprofesyonel bir çalışma

için bu sayı gerçekten ol-dukça fazla.

PPCC’’nniizz ssööyylleenneennlleerrii yyaazz››yyaa ççeevviirriiyyoorr

Açıkçası sadece sınırlı terim-leri içeriyor da olsa belirli ko-

nularda geliştirilen özel çözüm-ler güvenilirlik sağlarlar. Bu işle uğ-

raşan uzmanlar için hazırlanmış prog-ramlar bilgisayara konuşulan söz-

cükleri yazılı metine çevirirler.Ancak bu işlem, sadece ses ta-

nıma sürecinden istenen ve-rim alınana dek yapılacakolan bir takım çalışmasıdır.Ve tabi ki sadece tıp veya hu-kukçular için satılan pahalı

sözlükler yüzde yüz oranındagüvenilir olabilirler. Okunan

dokümanın anında ve doğru ola-rak işlenmesi ise şimdilik sadece gün-

demi işgal etmeye devam edecek.Dikte yazılımlarıyla çalışmasüreci farklı sınırlamaların et-

kisinde kalıyor. Ne olursa ol-sun kullanıcının bilgisayarabağlı olan bir kafa mikrofo-nu ile konuşması gerekiyor.Telsiz mikrofonlar büyük bir

çalışma alanına sahip, ancakyine de kontrol için kullanıcının

gözlerinin monitör üzerinde bu-lunması gerekecektir.

Sokaktan gelen sesler, açık bir pen-cere yada büyük bir büroda çalı-

şanların telefon görüşmeleri gi-bi rahatsız edici ortam gürül-tüsü ses tanımanın zorlaşma-sına ve hatalara neden ola-caktır. Ancak şive ve telaffuzfarklılıklarının belirlenmesi

için gerekli olan sıkıcı, uzun,hassas deneme aşamaları sonu-

cunda yazılım, kullanıcısının söy-lediklerini anlamaya başlar.

Tüm bu zorluklara rağmen ses tanı-ma, işletim sisteminin bir parçası ol-duktan sonra uygulamaların yöneti-minde adeta farenin icadı gibi bir dev-

SSttaayy ttuunneedd:: Ses tan›ma için konuflman›n

al›naca¤› bir Headset çal›flma masan›z›n

vazgeçilmez parças›.

Page 3: Ses Tan›mada Yeni Dönem Söz Dinleyen Bilgisayarlar · Ses Tan›ma Teknolojisi 142| N‹SAN 2001 Bilgisayar – Koruma kalkanlarını in-dir, gücü üç katına çıkar!" 30

Ses Tan›ma Teknolojisi

114444 | NN ‹‹ SS AA NN 22 00 00 11

Speechworks ile ku-rulmuş olan bu ortak-lık muhtemelen birsonraki Palm neslininses tanıma fonksiyonla-rına sahip olabileceği an-lamına da geliyor. IBM Viavo-ice ve aynı zamanda Apple Macintoshiçin duyurulan sistemlerin ardındanOpen-Source ses tanıma uygulamasıCMU Sphinx’in Linux kullanıcılarınınemrine sunulması da sevindirici birgelişme. Carnegie Mellon Universitesitarafından geliştirilen bu yazılım ger-çekten gelecek vaat ediyor.

SSeess ttaann››mmaa ggüünnllüükk hhaayyaatt››nn iiççiinnddeeSes tanıma sadece PC uygulamalarıiçin geliştirilmiş bir yazılım olmanındışında günlük uygulamalara da hızlıbir şekilde nüfuz ediyor. Telefon ile ba-zı büyük şirketleri, bilgi servislerini ya-da bankanızın telefon bankacılığı nu-

marasını aradığınızda karşınıza çıkanses destekli telefon-bilgisayar artık ol-dukça alışılmış bir durum halini aldı.Bu sistemler adınızı ve giriş bilgilerini-zi herhangi bir Call-Center çalışanınınyardımı olmadan kolaylıkla alabiliyor-lar.

Aslında amaçlanan sistemler ile ara-da oldukça büyük bir fark bulunuyor.Bu sistemler önceden kesin olarak ta-nımlanmış karar ağacına göre dinamikses tanımayla çalışıyorlar. Yani kullanı-

imkanına da sahip oluyorsunuz. Mic-rosoft’un yeni piyasaya sürüleceği cepbilgisayarı sürümü olan WindowsCE’de ise bu fonksiyonu ne derecedeuygulayacağı henüz kesinlik kazanmışdeğil.

Microsoft, Windows işletim sistemi-ni ses tanıma ve sentezi ile güçlendir-mek için uzun bir süredir bu konuyaağırlık veriyor. Hatta Microsoft dahaönceden Dragon Dictate’in geliştiriciDragon Systems tarafından alınan sestanıma uzmanları Lernout & Hauspie’i45 milyon dolara satın aldı.

AAlltt›› kkaannaall üüzzeerriinnddeenn sseessllii iilleettiiflfliimm ddöönneemmiiMicrosoft, Redmonder Software so-yundan gelen yeni donanımı Gamevo-ice ile Internet üzerinde ortak oyunoynayabilme imkanı sağlıyor. Oyuncu-lar altı farklı kanal üzerinden iletişimkurup oyunu ses komutlarıyla yönete-biliyorlar.

Öte yandan Palm PDA sahipleri ise2001’in ilk çeyreğinden itibaren kişiselrandevularını yada bağlantılarını Spe-echWorks’un geliştiricisi olan And-Day’in (www.anyday.com) servis site-sinden telefon ile ses komutlarıyla sor-gulayabilecekler. Bu amaçla Palm Spe-echWorks ile ortaklık kurarak bilgisa-yar destekli ses tanıma sistemi sunucu-sunu geliştiriyor. İleride bu sistemdeyeni randevuları veya yeni adreslerikaydetmek de mümkün olacak.

IIBBMM’’iinn 77777722 mmooddeellii ssaatt››--

flflaa ssuunnuullaann iillkk kkoonnuuflflmmaa

kkaayy››tt aarraacc››yydd››..

1962

TTaannggoorraa’’nn››nn iillkk aallmmaannccaa

kkoonnuuflflaann ssüürrüümmüü CCeeBBIITT

ffuuaarr››nnddaa kkaappaall›› bbiirr ooddaa--

ddaa hhaallkkaa ttaann››tt››lldd››..

1991

DDrraaggoonn SSyysstteemmss ffiirrmmaass››

DDrraaggoonn DDiiccttaattee

SSyysstteemm’’iinn iillkk ‹‹nnggiilliizzccee

ssüürrüümmüünnüü ssaatt››flflaa ssuunndduu..

1990

IIBBMM CCeeBBIITT ffuuaarr››nnddaa tt››pp

vvee aavvuukkaattll››kk üüzzeerriinnee

öözzeelllleeflflttiirriillmmiiflfl VVooiicceeTTyy--

ppee yyaazz››ll››mm››nn››nn aallmmaannccaa

ssüürrüümmüünnüü ttaann››tttt››..

1995

1984‹‹llkk kkoonnuuflflmmaa ttaann››mmaa

ssiisstteemmii ddaahhaa hh››zzll›› iiflfl--

lleemmcciilleerr ggeerreekkttiirriiyyoorr--

dduu.. HHeerr hheessaappllaammaa ssüü--

rreeccii ddaakkiikkaallaarrccaa ssüürrüü--

yyoorr vvee yyaakkllaaflfl››kk 55..000000

‹‹nnggiilliizzccee kkeelliimmee ttaann››nn››--

yyoorrdduu..

1992TTaannggoorraa tteekknnoolloojjiissiinnii

‹‹sstteemmccii--SSuunnuuccuu mmooddee--

llii AAIIXX iiflfllleettiimm ssiisstteemmllii

bbiirr IIBBMM--RRSS//66000000 ssiissttee--

mmii ggeerreekkttiirriiyyoorr vvee kkoo--

nnuuflflmmaa ggiirriiflflii OOSS//22 iiss--

ttaassyyoonnllaarr››nnddaann yyaapp››ll››--

yyoorrdduu..

1998PPhhiilliippss ggiibbii IIBBMM,, DDrraa--

ggoonn vvee LLeerrnnoouutt && HHaa--

uussppiiee flfliirrkkeettlleerrii ddee

üürrüünnlleerriinniinn ttüükkeettiiccii ssüü--

rrüümmlleerriinnii ssaatt››flflaa ssuunndduu--

llaarr..

1993IIBBMM’’iinn iillkk PPCC ççöözzüümmüü

PPeerrssoonnaall DDiiccttaattiioonn

11..000000 ddoollaarraa ssaatt››flflaa

ssuunnuulldduu.. PPhhiilliippss DDiicc--

ttaattiioonn SSyysstteemmss iissee ssüü--

rreekkllii kkoonnuuflflmmaann››nn ttaa--

nn››nndd››¤¤›› iillkk ssüürrüümmddüü..

1997PPhhiilliippss’’iinn ‹‹sstteemmccii--SSuu--

nnuuccuu ççöözzüümmüü oollaann

SSppeeeecchh MMaaggiicc ggeelliiflflttii--

rriillddii.. LLeerrnnoouutt && HHaauuss--

ppiiee iillkk ‹‹nnggiilliizzccee kkoonnuu--

flflaann vvee ttaann››yyaann ssiissttee--

mmii ggeelliiflflttiirrddii..

1986TTaannggoorraa 44 pprroottoottiippii::

ÖÖzzeell bbiirr mmiikkrroo iiflfllleemmccii

iillee eeflfl zzaammaannll›› oollaarraakk

kkoonnuuflflmmaa üüzzeerriinnddee iiflfl--

lleemmlleerr yyaappaabbiilleenn iillkk

mmaassaaüüssttüü bbiillggiissaayyaarr

ggeelliiflflttiirriillddii.. SSiisstteemm aayy--

rr››ccaa iiççeerriikk ss››nnaammaa ddaa

iiççeerriiyyoorrdduu..

KKoonnuuflflmmaa FFoonnkkssiiyyoonnllaarr››nn››nnGGeelliiflfliimmii

SSeess ssiihhiirrbbaazz››:: IBM Voice Speaking zeki ve ifllemci için özellefltirilmifl konuflma modelleri ile

ö¤renme basama¤›n› k›salt›yor.

Page 4: Ses Tan›mada Yeni Dönem Söz Dinleyen Bilgisayarlar · Ses Tan›ma Teknolojisi 142| N‹SAN 2001 Bilgisayar – Koruma kalkanlarını in-dir, gücü üç katına çıkar!" 30

Ses Tan›ma Teknolojisi

114466 | NN ‹‹ SS AA NN 22 00 00 11

cı sadece belirlenmiş komutları söyle-mek zorunda kalıyor ve genel olarakgünlük hayattaki konuşma tanınmışsayılmıyor.

Aynı şekilde kısa bir süre önce kulla-nıcısının sesini tanıyarak saklanmışnumaraları arayan cep telefonları dasatışa sunuldu. Bu araçlar da aslındakullanıcının kelimelerini gerçektenanlayamıyorlar. Bu işlemin üç temelbasamağı bulunuyor. Kullanıcı tarafın-dan istenen isim telefon numarasıylabirlikte ses kaydı olarak telefon hafıza-sına saklanıyor. Aranmak istenen nu-maranın kayıtlı olan ismi tekrar söy-lendiğinde telefon tüm ses kayıtlarınıkarşılaştırıyor. İki ses dalgası da birbi-rini tuttuğunda telefon ilgili numarayıarıyor.

Ses destekli bir sistem olan tamamenyeni uygulama Xybernaut (xyberna-ut.com) üreticilerinin fikirlerine daya-nıyor. Amerikan kuruluşu olan bu şir-ket Amerikan silahlı kuvvetleriyle or-taklık yaparak "body-worn computer"olarak adlandırılan yazılım ve donanı-mı geliştirip desteğini veriyorlar. Vücutüzerinde taşınan bu sistem günümü-zün büyük ve kullanışsız bilgisayarları-na karşı birçok farklı uygulama alanınıelinde bulunduruyor.

Ses destekleyen bu sistem kafaya ası-lan ve sağ gözün önünde bulunanminyatür ekranı ve bilekte bulunanklavyesiyle birlikte belde yer alıyor. Ta-mamen vücutta taşınan sistem kullanı-

cısına denetim ve bakım konusundakarmaşık endüstri kollarında büyükyardım sağlamayı hedefliyor. Herhangibir sorun anında teknisyen üretim pla-nı ve dokümantasyon gibi gerekli bilgi-leri gözüyle takip edebiliyor.

Ses ile yönetilen İnsan-Makine ileti-şiminin hızlı ve yakalanması güçgelişimi her şeye rağmen da-ha çok donanım alanındakiilerlemeler ile sağlanıyor.

BBiillggiissaayyaarrss››zz ddaa yyaapp››llaabbiilliirr::CChhiipp’’lleerrddeekkii sseess ttaann››mmaaEmbedded Voice Solution yani Chipüzerinde ses tanıma hemen hementüm ürünlere uygulanabiliyor. Araba-ların yönetiminden başlamak üzere evdonanımının ve elektronik araçlarınyönetimine kadar neredeyse her şeyinotomatikleştirilmesinde farklı şekiller-de kullanılıyor. Bu uygula-malarda önemsiz sayıla-bilecek kadar komutunbulunmasından ötürüsesten bağımsız sistemgeliştirilmesine önemverilmiş. Bunun için ar-tık geniş sabit disk alanınasahip, hızlı işlemcili bir bilgisayara ge-rek duyulmaz, çünkü gerekli Chip’i

içeren bir CPU doğru yazılım ilebirlikte ses sinyalleri üzerinde ça-

lışmak üzere özelleştirilir.Embedded sistemler bu saye-

de düşük maliyet ile büyük mik-tarlarda üretim imkanına sahip

olur.Bunun yanında bu türChip’ler dış etkenlerekarşı günümüz bilgisa-yarlarına göre daha faz-

la dayanıklılık göste-rirler. Uygun birChip ile güçlendi-rilmiş her araç böy-lelikle duyabilenbir aygıta dönüşe-

cektir. Örneğin tele-vizyonunuzu uzaktankumanda ile yönet-mek yerine gelecekte

kanal değiştirmek için sa-dece istediğiniz kanalınadını söylemek yeterli ola-cak. Televizyon için ses ta-nıma konusunda birazdaha beklemeniz de ge-rekse arabalardaki uygu-lamalar artık bir gerçek.

Sadece birkaç yıl öncehayranlıkla izlediğimiz busistemler örneğin artıkİngiliz araba üreticisi Ja-guar tarafından 2001 yı-lından itibaren S tipi mo-dellerine Embedded Vo-ice çözümü sayesinde is-teğe bağlı olarak güvenlikve konfor seçimi olaraksunuluyor. Ses destekle-

KKuullaa¤¤›› oollaann

CChhiipp’’lleerr:: Do-

nan›m tabanl›

konuflma tan›ma

sistemleri güven-

lik ve sistem girifl

kontrolü sistem-

lerinde

kullan›l›yor.

RRoobboowwoorrkkeerr:: Uçufl kon-

trolü, savunma ve silahl›

kuvvetler yada

endüstriyel amaçl›

kullan›labilen mobil

minyatür PC’ler

flirket a¤lar›na

ba¤lant› da

sa¤l›yor.

SSöözz ddiinnlleeyyeenn aarraabbaa:: Gelecekte araban›zdaki birçok yönetim sözler ile

sa¤lanabilecek. ❿

Page 5: Ses Tan›mada Yeni Dönem Söz Dinleyen Bilgisayarlar · Ses Tan›ma Teknolojisi 142| N‹SAN 2001 Bilgisayar – Koruma kalkanlarını in-dir, gücü üç katına çıkar!" 30

Ses Tan›ma Teknolojisi

114488 | NN ‹‹ SS AA NN 22 00 00 11

yen bu sistem tüm müzik, telefon veklima donanımını şimdilik sadece İn-gilizce olmak üzere yönetilmesini sağ-lıyor. Türkçe komutların tercümesiiçin ise uzun süre daha çalışılması ge-rekiyor.

Yukarıdaki üç sistemde kelimeleretepki verebiliyor. Kısa komutlar hızlıbir telefon bağlantısının kurulması,radyo kanalının seçimi yada klimanınfarklı bir biçimde ayarlanması içinkullanılabiliyor. Tüm bunların yanın-

da sistem sadece seslenme-niz ile birlikte hedefe doğ-ru en kısa yolu veya mobilbağlantı ile Internet’tenalınan borsa kurları gibigerekli bilgileri gayet sem-patik bir ses ile size okuyor.Beş yıl içerisinde ise arabave sürücü arasında gerçekbir konuşma mümkünolacak. Bunun yanında sü-rücünün güvenlik açısın-dan yol dışında herhangibir yönetime dikkat harca-mayacak olması da siste-

min en büyük getirilerinden. Bu siste-min gerçekleştirilmesi için Jaguar tara-fından desteklenen Visteon’da 60’a ya-kın geliştirici çalışıyor. Aynı sınıfınaraç üreticileri olan DaimlerChryslerve BMW de ses destekli telefon siste-mini üretim programına koymuş du-rumda. Güvenlik açısından sürüş sıra-sında önem taşıyan sinyal yada fren gi-bi unsurların geliştirilmesi de gelecekiçin sadece mühendislerin elinde bulu-nuyor.

BBaannkkaammaattiikklleerr mmüüflfltteerriilleerriinnii dduuyyuuyyoorr,, ggöörrüüyyoorr vvee hhiisssseeddiiyyoorrDonanım üzerine dayalı ses tanımanınfarklı bir uygulaması da şu an denemeaşamasında yer alıyor. Üretici firmaNCR’ın para otomatı "Stella" gerçek-ten üstün yeteneklere sahip. Kişisel birtanıtım numarası, şifresi (PIN) girmekyerine aygıt müşterisini gözün retina-sından tanıyarak kişisel bir şekilde kar-şılama yapıyor ve hatta doğum günü-nüzü bile kutluyor.

Sistem, müşterinin var-lığını basınca duyarlıpaspas sayesinde algılı-yor. Klasik komutlaryardımıyla bankama-tik size işlemlerinizdekolaylık gösteriyor. Seskomutları ve kelime tanımaözellikleriyle geliştirilmiş bu bankama-tik sistemi iki büyük kredi enstitüsü ta-rafından test edilmiş. Ses tanıma içingörülen tüm örnekler özellikle de In-ternet ortamıyla da birleştiği düşünü-lürse gerçekten oldukça heyecan verici.

0,0

0,5

1,0

1,5

2,0

0,15 milyar 0,19 milyar0,25 milyar

0,47 milyar

1,66 milyar

Cir

o (

mily

ar d

ola

r)

1998 1999 2000 2002 2005Kaynak: Frost & Sullivan

TTaahhmmiinn:: 2005 y›l›na kadar ses tan›ma programlar

pazar›nda patlama bekleniyor.

SSeess TTaann››mmaa YYaazz››ll››mmllaarr››

SES TANIMA NASIL GERÇEKLEfi‹YOR?

DDüüflflüünnüüyyoorr mmuu YYookkssaa DDüüflflüünnmmüüyyoorr mmuu??Bilgisayarlar düflünmezler, sadeceverilen program basamaklar›n›n gös-terdi¤i yolu izlerler. Klavyeden bilgigirifliyle karfl›laflt›r›l›rsa ses tan›maylabirlikte ifllemci büyük bir yük alt›na veanaliz prosesine girecektir. Olas›l›ktahmini yap›larak kullan›c›n›n ne söy-lemifl oldu¤u anlafl›lmaya çal›fl›l›r.

‹lk ad›mda bilgisayar kullan›c›n›nakustik giriflini dijital ses boyutunagetirir ve bunu milisaniye boyutlar›n-da parçalara ay›r›r. Kay›t›n devam et-ti¤i sürede yaz›l›m arka planda sesparçalar›n› saklanm›fl ses örnekleriylekarfl›laflt›r›r. Karfl›laflt›rma veritaban›-n›n kalitesi sorunsuz ses tan›man›nen önemli kofluludur. Burada ton düfl-mesi, flive, hecelerin vurgulanmas›,telaffuz gibi çeflitli konuflma özellikle-rine sahip farkl› konuflmac›lar›n sesle-ri bulunuyor. Ses tan›man›n bu yönükonuflmac›dan ba¤›ms›z sistemlerinyarat›lmas› için oldukça önemli tutu-luyor.

Ses tan›ma sistemleri ek olarak ko-nuflman›n en küçük akustik birimiolan ses bilgisine dayan›yor. Türk-çe’den bir örnek vermek gerekirse"Rol" kelimesi ayn› yaz›lmas›na ra¤-men "Erol" içerisindeki hecede farkl›

okunuyor. Çal›flmalar s›ras›nda yaz›l›m,kullan›c›n›n en önemli ses özelliklerini ta-n›ml›yor ve bu de¤erleri konuflmac› pro-fili alt›nda kaydediyor. Bundan sonra ko-nuflmay› yapan kullan›c›n›n dikte ifllemis›ras›nda mümkün oldu¤unca ayn› telaf-fuzu kullanmas› da oldukça önemli.

Ses tan›ma ifllemi son olarak vurgu ta-n›ma ile tamamlan›yor. Buradan bir keli-

menin farkl› baflka kelimelere benzeyipbenzemedi¤i anlafl›l›yor. Cep telefonusahipleri bu buluflu yeni modellerin k›-sa mesaj (SMS) yazma s›ras›nda keli-meleri otomatik olarak tamamlanmas›özelli¤inden tan›yacaklard›r.

Tan›ma metotlar›n›n kombinasyon-lar› gelecek yaz›l›mlara daha anlafl›l›rkullan›c› girifli olana¤› sa¤layacaklar.

Ses kart› üzerinden say›sallaflt›rma

Ekrana ç›k›fl

Fonemlere ay›rma

Her bir fonem

ve içerik

tan›ma için

veritaban›

karfl›laflt›rmas›

Page 6: Ses Tan›mada Yeni Dönem Söz Dinleyen Bilgisayarlar · Ses Tan›ma Teknolojisi 142| N‹SAN 2001 Bilgisayar – Koruma kalkanlarını in-dir, gücü üç katına çıkar!" 30

Ses Tan›ma Teknolojisi

NN ‹‹ SS AA NN 22 00 00 11 | 114499

Geleneksel olarak te-lefon ağlarıyla bilgisa-yar ağları da birbirin-den farklı olarak dü-

şünülür. Buna karşınson yıllarda Gateway’in

"Voice-over-IP" olarak adlandı-rılan iletişim dünyası ve TCP/IP ağlarıarasında bağlantı kuran servisleri su-nulmaya başlandı. Böylelikle farklımevkiler arasındaki telefon görüşmele-ri artık Intranet üzerindeki TCP/IP pa-ketleri gibi yönlendiriliyor. Böylelikleaynı anda farklı bir arama mevcut tele-fon bağlantısıyla da birleştirilebiliyor.

İleriki yıllarda ses ve veri ağları bir-birine daha yakın hale gelecekler. Ör-neğin bu gelişimin başında gelecektebilgisayar, internet ve elektronik ticare-tin birleşimi olacak cep telefonlarınıörnek gösterebiliriz. Daha sonraki yıl-larda kullanıcının aradığı bilgiye yadaveriye ulaşmak için hangi aygıtı tercihedeceğinin pek de bir önemi bulunma-yacak. Ses girişi ve çıkışı sayesinde in-ternet’e telefon aracılığıyla bağlantıgünümüzde mümkün. Bununla birlik-te ileride telefon ile siparişler otomatikolarak satış sistemi tarafından kabuledilip, gerekli tüm bilgiler onay içincep telefonunuza gönderilecek.

Günümüzde ses tanımanın Internetüzerindeki kullanımını örneğin Unifi-ed-Messaging ileticisi olan GMX(www.gmx.com.tr) firmasının web si-tesinde E-Posta iletimi, Web tabanlıFaks, ses yada kısa mesajların okunma-sı görevlerinde kullanıldığını görebilir-siniz. Yeni gelen bir bilgi cep telefonu-nuza kısa mesajların ulaşacağının müj-desini veriyor. Böylelikle bir arama ilehaber merkezi size mesajlarınızı daokuyabilecek. Datacom Research şirke-tinin araştırmasına göre 2005 yılındaiki milyar kullanıcı bu tür Voice Por-talları kullanmayı tercih edecekler.

CCeeBBIITT--TTrreennddii:: MMoobbiill ddoonnaann››mmllaarrddaa sseess ttaann››mmaaSes destekli Internet içeriği sağlayanVoice XML sayesinde meraklı kullanı-cılar artık istedikleri sayfalarda ses yo-luyla gezebilecekler. Ses tanıma aynızamanda güvenlik açısından da CeBIT2001 fuarında oldukça büyük bir ilgitoplayacak. Tanınmış ses algılama vesentezi yazılımlarının yanında Voice-over-IP özelliğini taşıyan cep telefonuve ev telefonu gibi iletişim araçlarının

da büyük ilgi görmesi bekleniyor.Özellikle 1999 yılından bu yana IBM

ile taşınabilir aygıtlarda ses tanıma tek-nolojisi üzerine ortaklık yürüten No-kia firmasının yenilikleri göz kamaştı-racağa benziyor. İki girişimci de yazılımetinlerin sese dönüşüm yöntemiüzerinde yoğun şekilde çalışıyorlar.Bilgisayar destekli telefon alanında verive telefon ağları Voice-over-IP formu-na yaklaşıyor ve doğrusal ses işlemeçözümü her zaman beraber anılmayadevam ediyor.

Etkileşimli, tek bir konuşma tipin-den ve sözcüsünden bağımsız doğal sesişlemesi ve çıkışı yapabilen sistemlerönümüzdeki birkaç yıl içerisinde kul-lanıma geçeceğe benzemiyor. Aynı za-manda ışık hızında uzay seyahati dezaman içinde halen bir soru işareti ol-maya devam edecek.

MMuurraatt KKaarrssll››oo¤¤lluu ([email protected])

KKAARRBBSSTTEEIINN:: Her koflul için geçerli bircevap veremeyiz. PC dikte yaz›l›mlar›-n›n flu anda müflteri pazar› oldukça dar.‹fl dünyas›nda ve özellikle uzmanlaflmakisteyen müflterilerde büyük potansiyelgörüyoruz. Ancak bu müflteriler ses ta-n›ma sisteminin s›k›c› ve pahal› çal›fl-malar›na zaman ay›ramazlar. Bu yüzdenIBM kiflisellefltirilmifl ve branfllara özelsöz da¤arc›¤›na sahip araçlar› sunuyor.‹leriki y›llarda telefon tabanl› E-Businessçözümlerine odaklanaca¤›z. Voice-over-IP, VoiceXML, CTI ve yeni telefon a¤lar›bu trendi destekliyorlar.

CCHHIIPP:: Ofis paketlerinin ses tan›ma özel-li¤i konusunda neler düflünüyorsunuz?KKAARRBBSSTTEEIINN:: Tüketici taraf›nda ses tan›-maya karfl› halen uyum süreci yaflan›-yor. ‹yi çal›flmas› flart›yla bu süreç uzunsürmeyecektir. ‹fl dünyas›nda ise mey-dan okuma devam ediyor. Profesyonelçözümler getirecek Speech-Servicesalan›nda Microsoft’un yine gücünü gös-terece¤ini düflünüyorum.

CCHHIIPP:: Gelecekte ses tan›ma sizce hangialanlarda flansl›?KKAARRBBSSTTEEIINN:: Tüm alanlarda. Konuflmailetiflimin en do¤al biçimi. Her gün yüz-leflti¤imiz elektronik ayg›tlar›n say›s›günden güne art›yor. Tüm bu ayg›tlar›nbir gün sadece ses ile yönetilmesi birhayal mi sizce? Temel olarak düzeltilmiflses tan›ma sistemleri bizi bir ayr›ma ge-tiriyor.

RÖPORTAJ

““GGüüvveenniilliirr OOlldduu¤¤uunnddaa SSöözzüünnüüzz GGeeççeecceekk””

CHIP sizler için IBM Almanya’n›n sestan›ma sat›fl bölümü sözcüsü Wolf-gang Karbstein’›n ses tan›ma sistemle-rinin geliflimi konusunda kiflisel görüfl-lerini ald›.

CCHHIIPP:: Ses tan›ma yaz›l›mlar›n›n s›k kul-lan›lmamas›na ra¤men neden bu ko-nuya yöneldiniz?KKAARRBBSSTTEEIINN:: Kesinlikle buna kat›lm›-yorum. Ürünlerin ve bu konuda çal›-flanlar›n say›s› h›zl› bir art›fl gösterdi.Özellikle tüketici pazar›nda ürün say›s›-n›n art›fl›yla birlikte fiyatlar da önemliderecede düfltü. Üstelik ço¤u ses tan›-ma yaz›l›m› müflterisi sadece yaz›l›m-lar›n s›k›c› ö¤renme aflamas›ndan vekullan›c› arabiriminden dolay› geri dö-nüyorlar. Bu devreler mutlaka ilerideafl›lacak.

CCHHIIPP:: Ses tan›man›n tam olarak kulla-n›lmas› için hangi flartlar›n sa¤lanmas›gerekiyor?

IIBBMM AAllmmaannyyaa

SSeess TTaann››mmaa SSaatt››flfl

BBööllüümmüü SSöözzccüüssüü

WWoollffggaanngg

KKaarrbbsstteeiinn

SSeess iillee ççaammaaflfl››rr yy››kkaammaa:: Konuflman›n

tan›nmas› sayesinde çamafl›r makineleri

istedi¤iniz yerden çal›flt›r›labilecek.


Top Related