Zvučno okruženje

     Neprestano smo izloženi mnoštvu simultanih, pomešanih zvukova. Da bismo se u toj mešavini mogli snalaziti, moramo biti u stanju prepoznavati pojedine smislene celine. U tom procesu važnu ulogu ima odluka o tome koji delovi osetilnog stimulusa pripadaju istom objektu ili događaju iz okoline. O čemu se zapravo radi, o kojem pojedinom, konkretnom zvuku, može se prepoznati samo u slučaju prave kombinacije osetilnih elemenata. Geslall psiholozi početkom ovog stoleća otvorili su pitanje organizacije percepcije, ali u svojim istraživanjima pretežno su se bavili vizuelnim kanalom, dok je problem auditivne organizacije ostao zapostavljen. Jedan od razloga za to je i relativno zaostajenje tehnike manipulisanja zvukom. Tek zamahom digitalne tehnologije obrade zvuka poslednjih decenija omogućeno je sistematsko laboratorijsko proučavanje auditivne percepcije. Problem o kojem se ovde govori ne odnosi se samo na govor, već je to univerzalan auditivni problem. Ono što Cherrv (1953) naziva cocktail party efektom, Bregman (1994) na globalnom auditivnom (akustičkom) planu naziva problemom analize zvučnog okruženja (anditory scene analysis).

     Da bismo pobliže definisali temu koja nas ovde zanima, potrebno je uvesti jedan novi pojam (termin). Što mi kao slušaoci zapravo radimo? Iz mešavine zvukova koji nas okružuju mi stalno izdvajamo i u celine povezujemo akustičke elemente koji pripadaju istom izvoru. To je posebna vrsta filtriranja koju klasični (elektro) akustički filteri ne mogu obaviti, osim u sasvim specifičnom slučaju kad zvukovi koje treba odvojiti iz mešavine zapremaju različite, ne-preklapajuće delove zvučnog spektra. Opisujući kompleksne zvukove kojima smo okruženi, pa i govorni zvuk, koristimo se nizom termina kao što su: tonovi, šumovi, harmonici, tranzijenti, formanti itd. Ono što nedostaje za opis zvučnog okruženja ili coctail party problema jeste izraz koji će označiti skup ili niz zvučnih elemenata koji predstavljaju celinu, odnosno, najčešće zvučne elemente koji pripadaju istom izvoru zvuka. Da bi označio pripadnost zvučnih elemenata jednoj celini, Bregman (1994) predlaže izraz stream, što se najneposrednije može prevesti kao "zvučni tok". Kriterij po kojem nešto predstavlja jedan (isti) zvučni tok ili celinu u smislu ove rasprave, isključivo je perceptivan, dakle ne radi se o objektivnom akustičkom nego o psihoakustičkom određenju pojma. Uvedeni pojam, "zvučni tok" ili "zvučna celina", ne može se zameniti nekim od postojećih. U muzici jedan zvučni tok može biti jedna melodija (tema), jedna ritmička figura ili zvuk istog instrumenta. U opisu govornog zvuka to može biti jedan vokal, reč ili rečenica. Načelo se jednako odnosi na celokupno auditivno područje, na celokupno zvučno okruženje. Zajedničko svim ovim primerima jeste to da mora postojati unutarnja kohezija koja ujedinjuje akustičke elemente.

     Proces percepcije, da bi uspešno obavio snalaženje u kompleksnom zvučnom prostoru, u mešavini zvukova, neprestano mora koristiti dva međusobno komplementarna mehanizma: razdvajanje (segregation) i spajanje (integration) zvučnih tokova. Oba ova mehanizma deluju i na sukcesivnom i na simultanom planu. Odvajanje i spajanje nazvali smo komplementarnim mehanizmima, a ne međusobno isključivim, zato što deluju istovremeno i rezultat nije kategorično opredeljenje nego pretpostavka ponderirana verovatnošću. Ovu ideju može ilustrovati ishod bilo kog slušnog testa: čak i kada su signali nedvosmisleni, u velikoj skupini slušalaca nikad odgovori nisu potpuno podudarni. To potvrđuje navedenu pretpostavku o komplementarnom delovanju razdvajanja i spajanja u procesu percepcije jer pokazuje da kod nekih ispitanika prevagne integrirajući mehanizam, a kod nekih separirajući.

      Načelo objedinjavanja zvučnih elemenata u celine često se uspoređuje s osetom vida. S obzirom na to da je spektrogram zapravo slika zvuka, moglo bi se očekivati da je upravo to medij u kojem se principi ponašanja oseta na vizuelnom planu neposredno poklapaju s analizom oseta na auditivnom planu. Vizuelno područje (kad je o spektrogramu reč) pokazuje se značajno inferiornim auditivnoj domeni. Zbog toga pokusi u projektu visible speech opisani u istoimenoj knjizi (Potter et al. 1947) koja niz godina predstavlja početnicu za očitavanje spektrograma, nisu doveli do željenih rezultata. Da podsetimo, izum spektrografa omogućio je da se predloži ideja po kojoj bi se slušno hendikepiranim osobama zvuk (govora) približio pomoću vizuelnoga medija. Projekat nije uspeo uprkos tome što su ispitanicima predočeni samo, u akustičkom smislu, relativno jasni govorni uzorci. Pravi se problem pojavljuje tek kad govorni uzorci više nisu dostupni u svom "čistom" obliku nego su, na jedan od bezbroj načina, izobličeni ili maskirani drugim zvukom. Takva je, zapravo, normalna svakodnevna govorna situacija. Govornici ne komuniciraju zatvoreni u laboratorijskim uslovima bez buke, prisustva drugih zvukova i ne izgovaraju reči u takozvanom citatnom obliku. Uprkos svim tim negativnim uticajima na prenos govornog signala, govorna je komunikacija začuđujuće uspešna.

Govor kao organizovani sled akustičkih elemenata

     Govor je organizovan u vremenu "s leva na desno", odnosno u govoru je važan redosled akustičkih elemenata. Brzi sled različitih vrsta zvukova koji dolaze od pojedinoga govornika moraju se okupljati u jedan tok i ne smeju se istovremeno sekvencijalno povezivati sa zvukovima koji dolaze od drugoga govornika. Redosled akustičkih elemenata, sekvencijalno povezivanje važno je i na nivou pojedinih glasnika. Identifikacija onih glasnika govora kod kojih je vremenski sled bitan element njihove organizacije (npr. afrikate) zavisi o redosledu relevantnih informacija koje se pripisuju jednom zvučnom toku. Tako se tišina pred šumom afrikate ne sme interpretirati kao prekid jednog zvučnog toka jer u tom slučaju ne bi bilo percepcije afrikate. Slušalac mora tu tišinu inerpretirati kao događaj unutar istog zvučnog toka (sled zvučnih elemenata istog izvora, govornika). Isto tako, ako jedan govornik prestane a drugi započne govoriti, slučajna tišina koja tako nastane ne sme da signalizuje okluziju.

    Percepcija redosleda akustičkih elemenata za razumevanje govora ima ključno značenje. Uz prosečan tempo artikulacije oko 5 slogova u sekundi (Bakran, 1984) fonemi se izmenjuju tempom bržim od 10 u sekundi, odnosno prosečno im je trajanje manje od 100 ms. Međutim, ako se govor veštački ubrza do 30 fonema u sekundi (uz zadržavanje iste tonske visine) slušaoci i dalje mogu razumeti govor bez vremenske konfuzije, odnosno, percipiraju ispravan sled glasnika. Nasuprot tome, ako se niz u kojem se izmenjuju niski i visoki tonovi ubrza na sličan način, ono što se u sporom tempu percipira kao jedan zvučni tok, počinje se razdvajati u pod-tokove (substreams), tonovi se povezuju u tokove koji imaju sličnu tonsku visinu.

    Zanimljivo je da ljudi mogu razumeti brzu izmenu glasnika govora uprkos tome što je govor sled kvalitativno različitih zvukova (frikativ je različiti tip zvuka od vokala), a nisu u stanju percipirati redosled nepovezanih zvukova (zvižduk, šum, zujanje, vokal). Sled takvih zvukova mora biti mnogo sporiji od sleda glasnika govora da bi se ispravno identifikovao. Za razumevanje govora slušalac mora ispravno odrediti redosled glasnika jer izmenjeni redosled može predstavljati drugu reč ili ne- reč. Warren(1982) upozorava da se kod slušanja govora ne mora nužno prepoznati svaki konstitutivni element nego da slušaoci provode vrstu globalne analize, a rezultat uspoređuju s pohranjenim podacima u memoriji. Deca prepoznaju reči a da ne moraju biti svesna od kojih su elemenata one sastavljene. Međutim, ovakvo objašnjenje ne rešava problem odjeljivanja zvučnih tokova u govoru.

     Zanimljiv pokus kojim se pokazuje specifična struktura govornog zvuka proveo je Bregman (1994). On je pretpostavio da deca počinju prepoznavati reči kao celine zato što uočavaju da se isti zvučni tokovi (reči) pojavljuju u različitim okolinama. Niz reči bez pauze izgovarao je monotonim glasom tako da su se one ponavljale u različitom redosledu. Zatim je snimku reprodukovao naopako. Na taj je način dobijen potpuno neprepoznatljiv niz zvukova. Nakon jednog sata, uspeo je da izdvoji sve celine koje su se ponavljale. Potom je istim tempom kojim su se izmenjivali glasnici govora snimio niz nepovezanih zvukova i isto ih tako grupisao u "reči". Takvi se nizovi ni nakon dugog slušanja nisu mogli izdvajiti u prepoznatljive celine. Prema tome, u govornom zvuku mora postojati unutrašnja kohezija koja slušaocu olakšava povezivanje u perceptivne celine.

     Warren (1982) proučava kako slušaoci određuju redosled nizova nepovezanih glasnika. Vrlo je teško odrediti redosled vokalnih segmenata u trajanju od 200 ms izrezanih iz prirodno izgovorenih vokala. Zadatak je lakši ako vokalni elementi traju 150 ms, s 50 ms tišine među segmentima. Još je lakše odrediti redosled ako to nisu izrezani elementi nego stvarno izgovoreni vokali s vlastitim prirodnim početkom i završetkom. Određivanje redosleda takvih zvučnih elemenata mnogo je bolje nego određivanje redosleda raznovrsnih zvukova (zvižduk, šum, zujanje, ton...) u istom tempu, ali je mnogo lošije nego određivanje elemenata brzog povezanoga govora. Superiornost određivanja redosleda vokala u odnosu na određivanje redosleda raznovrsnih zvukova može se delomično protumačiti korištenjem jezičnih sposobnosti. Moguće je da se niz doživljava (čuje) kao višesložni verbalni izgovor. Uspešnost je prema tome bolja što su elementi niza sličniji prirodnom izgovoru.

     S obzirom na to da se u prirodnom govoru izmenjuju raznovrsni slogovi sastavljeni od kombinacija konsonanata i vokala, može se pretpostaviti da će uvođenje konsonantskih elemenata u pokuse identifikacije redosleda govornih elemenata olakšati percepciju. Lackner i Goldstein (1974) pokusom su proverili da li postojanje okluziva /b/ ili /p/ koji unose kratku pauzu i brzi tranzijent među vokalima može olakšati detekciju redosleda. Iznenađuje rezultat da je uspeh u detekciji najlošiji kada se izmenjuju slogovi s konsonantom i slogovi bez konsonanta u nizu CV-V-CV-V. Uspešnost je u takvom slučaju bila ispod nivoa slučajnosti. Zbog toga su se slogovi s konsonantima odvojili u poseban zvučni tok pa su slušaoci umesto “de-o-be-a-de-o... “ registrovali “de--be--de--...” i “--o--a--o...” kao odvojene, simultano reprodukovane tokove.

     Noteboom i sur. (1976) sistematski su istraživali delovanje fundamentalne frekvencije sintetskih vokala na odvajanje tokova. Varirali su F0 od 0 do 20 polutonova, a trajanje segmenata od 100 ms razmaknuto je 0 do 400 ms. Rezultati su pokazali jasan "trade-off" ;efekt (menjanje veličine jedne varijable utiče na efikasnost druge) između frekvencijske različitosti i trajanja tišine između sukcesivnih stimulusa. Ako je pauza između sukcesivnih zvučnih elemenata bila oko 100 ms, razlika njihovih fundamentalnih frekvencija ne sme biti veća od 2-3 polutona kako bi se niz mogao percipirati kao jedan zvučni tok. Uz veći razmak među susednim zvučnim elementima, frekvencijska razlika može biti veća. Uz razmak od 200 ms kao isti zvučni tok mogli su se percipirati vokalni elementi kojima se frekvencija osnovnog tona razlikovala do 10 polutonova.

Uloga harmoničkih odnosa i F0

      Delovanje tonske visine primećeno je u istraživanjima selektivne pažnje. Ako se od ispitanika traži da "pokrivaju" jedan od dva simultana govora ("shadowing" - eksperimentalni postupak u kojem ispitanici sa što manjim vremenskim pomakom ponavljaju zadani tekst), oni će tu zadaću jednostavnije obaviti kad su ta dva glasa različite tonske visine (Norman 1976). Uspešnosti zasenjivanja također pomaže ako su spektri dva signala ograničeni na različita frekvencijska područja. U ovakvim i sličnim istraživanjima selektivne pažnje korišten je prirodni povezani govor tako da su akustičke okolnosti bile vrlo kompleksne. Istraživanje koje se opisuje u nastavku mnogo je analitičnije u akustičkom smislu.

      Najpre, potrebno je pokazati da je slušni mehanizam u stanju istovremeno postojanje dva reda različitih fundamentalnih frekvencija iskoristiti za odvajanje zvučnih tokova. U jednom pokusu Brokx i Noteboom (1982) promatrali su kako će ispitanici ponavljati besmislene rečenice koje su reproducirane simultano s čitanjem kontinuiranog teksta jedne priče. U jednom delu test-materijala muški je govornik povišenim registrom i normalnim intonacijskim varijacijama izgovarao besmislene rečenice, a u drugom ih je izgovarao svojim normalnim glasom. Kako se i očekivalo, mnogo je uspješnije bilo ponavljanje besmislenih rečenica kad je interferirajući signal bio bitno različite fundamentalne frekvencije.       Delovanje tonske visine provereno je i preciznim kontrolisanjem tonske visine digitalnom obradom. Na taj se način isključuje delovanje intonacije prirodnoga govora, njezinoga kontinuiteta, kao objedinjavajućeg faktora. Ustanovljeno je da se broj pogrešaka smanjuje s povećavanjem razlike u fundamentalnim frekvencijama. Uz razliku frekvencija od tri polutona broj pogrešaka smanji se za 20 %. Međutim, uz razliku od oktave, ponovno se povećava broj pogrešaka zbog toga što se frekvencije harmonika jednog i drugoga glasa poklapaju. Disonantan frekvencijski odnos pogoduje odvajanju tokova.

     Korištenje dve različite fundamentalne frekvencije za odvajanje dva glasa za slušni mehanizam ozbiljan je problem. Slušni mehanizam u svakom trenutku mora detektovati dve različite fundamentalne frekvencije da bi registrovao dve različite tonske visine, uz to mora nekako oformiti dva odvojena spektra. Svaki od njih mora sadržavati ne samo harmonike, nego i njihove relativne intenzitete. To je potrebno zato što identitet zvučnih glasnika ovisi o relativnim intenzitetima pojedinih harmonika i o njihovim promenama u vremenu. Da bi se moglo odlučiti koja su dva vokala prisutna, kompleksan oblik intenzitetskih odnosa pojedinih harmonika mora se razložiti u dva odvojena spektralna oblika.

Kontinuirana priroda frekvencije osnovnog tona

     Već se iz opisanih primera i pokusa u kojima se manipulisalo frekvencijom tonova,;može razabrati da tonska visina ima vrlo važnu ulogu za percepciju zvučnog kontinuiteta. Percepciju tonske visine u govoru omogućava (kvazi) periodičan karakter zvučnoga govora (detaljnije o teorijama percepcije tonske visine videti (Moore 1990). Dijapazon i varijacije tonske visine u govoru nisu proizvoljne veličine. One delomično zavise o fiziologiji proizvodnje harmoničnoga zvuka, a delomično o paradigmama jezičnog funkcionisanja. Uprkos tome što oset tonske visine pobuđuje periodičan, harmoničan zvuk, koji se u govoru vrlo brzo izmenjuje s neperiodičnim (zvučni i bezvučni glasnici), oset tonske visine ne menja se naglo, a pogotovo ne u ritmu izmene zvučnih i bezvučnih glasnika. Prema tome postoje tri tipa ograničenja u kretanju tonske visine: jedno je relativna sporost promene, drugo je jezična zadanost oblika promene, i treće je ograničenje koje predstavljaju individualne karakteristike govornika (dijapazoni varijacija tonske visine kod različitih se govornika međusobno razlikuju).

     Važnost intonativnog kontinuiteta pokazuje jednostavan pokus. Ako se iz povezanog govora izdvoje pojedine reči te se one poredaju u jedan drugi, također smisleni niz, rezultat je teško razumljiv. Slušaocima se čini da zvuk dolazi iz različitih izvora i imaju poteškoća integrisati ga u smislenu celinu. Treisman (1960) provela je pokus u kojem je ispitanicima u jedno uvo (leva slušalica) emitovan jedan tekst, a u drugo uvo (desna slušalica) drugi tekst. Imali su zadatak ponavljati samo tekst koji se čuje u jednom (levom) uvu. U jednom trenutku preklopnikom bi se zamenile strane, tako da tekst koji je stizao u levo uvo dođe u desno, i obratno. Ispitanici bi nakon prebacivanja teksta koji su ponavljali iz levog uva u desno, ponovili još nekoliko reči koje su nastavak istog teksta, bez obzira na to što se promenilo uvo, i tek su se onda ponovno vratili na zadatak, ponavljanju onoga što čuju u levom uhu.

     Ovom se pokusu može prigovoriti to da se u njemu ne može odvojiti delovanje niza elemenata koji održavaju kontinuitet, npr. prostorna i semantička povezanost. U ponovljenom pokusu odvaja se delovanje semantičke povezanosti i inotacijskog kontinuiteta. U trenutku prebacivanja iz jednoga u drugo uvo, jednom je zadržan intonacijski oblik a promenjen smisao, drugi puta obrnuto. Obe vrste “preklopnika” uzrokovale su pogreške u obavljanju zadatka, no greške nisu bile istoga tipa. Kada je prekinut semantički kontinuum, ispitanici bi zapeli u ponavljanju jer se nastavak ne očekuje na temelju konteksta, ali ne bi ponovili reči u suprotnom uvu. Međutim, kad je prekinut intonativni kontinuum, ispitanici bi ponovili još koju reč koja je stigla u suprotno uvo jer one reči koje su stizale u “zadano” uvo nisu pripadale istom intonativnom obliku (kontinuitetu).

      U pokusima s prirodnim govorom ne mogu se dobro kontrolisati sve dimenzije koje simultano deluju na objedinjavanje i odvajanje zvučnih tokova. Zato su Darwin i Bethel-Fox (1977) pokusima sa sintetičkim govorom pokazali upravo neverojatnu važnost kontinuiteta fundamentalne frekvencije za percepciju sleda govornih elemenata. Oni su sintetizovali sled formanata za /uau/ s pripadajućim tranzijentima i nepromienjenom fundamentalnom frekvencijom (130 Hz). Takav se sled čuje kao jedan slog. Međutim, ako se formantski oblik zadrži, a fundamentalna se frekvencija promeni na polovini svakog tranzijenta tako da se dobije sled: nisko, visoko, nisko, s frekvencijama 110, 170, 110 Hz, potpuno se gubi prijašnji perceptivni utisak te se čuju dva sloga niskog tona i jedan slog visokog tona. Na pitanje koji su to slogovi, odnosno koji glasnik čuju pre /a/, ispitanici su odgovarali /b/, zato jer je promenom fundamentalne frekvencije na polovici tranzijenta od /u/ do /a/ prekinut zvučni tok i percipira se skraćeni tranzijent koji je nalik na tranzijent od /b/. Ovim se pokusom pokazalo da je diskontinuitet fundamentalne frekvencije odvojio zvučne elemente u različite tokove uprkos kontinuitetu spektralnog oblika.

      Kontinuitet frekvencije osnovnog tona može u jedan zvučni tok objediniti dva vokala između kojih je interpoliran bezvučni konsonant. Pitanje je po čemu je taj interpolirani konsonant deo istoga zvučnoga toka, odnosno kako to da spektralni diskontinuitet koji predstavlja interpolirani konsonant ne signalizuje drugi zvučni tok. Verovatan odgovor na to pitanje jest da se radi o kontinuiranosti spektralnih promena (videti iduće poglavlje). Prekid zvuka za okluziju, odnosno rubovi toga prekida sadrže spektralni kontinuum. Međutim, u ovom slučaju simultano deluje spektralni kontinuum koji se manifestuje adekvatnim tranzijentima i kontinuum fundamentalne frekvencije. Ekstrapoliramo li rezultate Darwina i Bethell-Foxa, možemo zamisliti što će se u sintetiziranoj rieči čuti ako se razbije kontinuitet toka fundamentalne frekvencije pre i posle bezvučnog okluziva: moguće je da će se to čuti kao dva različita glasnika, kao što je moguće i da se uopšte ne pecipira okluziv interpoliran između dva vokala. To znači da je upravo kontinuitet fundamentalne frekvencije zaslužan za percepciju bezvučnog okluziva u takvom okruženju.

Formanti kao faktor objedinjavanja zvučnih tokova

     Istraživanja u vezi s grupiranjem simultanih komponenata uglavnom se odnose na grupiranje formanata jer oni predstavljaju relevantne akustičke znakove za identitet velikog dela glasnika. Ima i drugih razloga za odabir formanata za materijal istraživanja: teorija njihova nastajanja prilično je zaokružena, a osim toga, oni predstavljaju jednostavne akustičke elemente pomoću kojih se vokali i okluzivi mogu lako sintetizovati.

     Većina naučnika koji se bave govorom veruju da su formanti smislene perceptivne činjenice i da auditivni sustav sledi te spektralne vrhove i njihove promene u vremenu tokom procesa prepoznavanja govora. Na spektrogramu je relativno lako vizuelno razdvojiti formante. S druge strane, nije jednostavno "začuti" pojedini formant kao zasebnu boju. Ima istraživača koji sumnjaju u to da formanti imaju središnju ulogu u percepciji govora. Oni misle da su formanti samo akustička baza za perceptivnu analizu globalnih kvaliteta kao što su kompaktnost, oblik spektra ili brzina spektralne promene (Stevens i Blumstein, 1981).

     Broadbent i Ladefoged (1957) prvi su postavili pitanje grupiranja formanata u situaciji simultanog pojavljivanja formanata koji pripadaju različitim glasnicima. Pitanje je kako slušni sustav zna koju kombinaciju formanata treba odabrati da bi se oblikovao vokal. Njihovo je objašnjenje u tome da je presudno ritmično pulsiranje u funkciji frekvencije osnovnog tona. Uvo grupira one formante koji imaju identično pulsiranje. To su autori zaključili na temelju pokusa u kojem su sintetizovali jednostavnu rečenicu, tako da su prvom i drugom formantu pridružili jednom identičnu F0, a drugi put različite F0. Rezultat je emitovan ispitanicima tako da su prvo oba formanta emitovana u isto uvo, a potom u različita uva. Ispitanici su trebali proceniti čuju li jednog ili dva govornika, i jesu li oni u na istom mestu u prostoru. Kad je za sintetiziranje oba formanata upotrebljena identična F0, bez obzira na to jesu li oni emitovani u isto ili u različita uva, ispitanici su čuli da se radi o jednom glasniku. Oni su, isto tako, čuli da je signal bio u onom uvu u koje je emitovan prvi formant. Nasuprot tome, kad su formanti sintetizovani različitim F0, bez obzira na to je li intonacija bila prirodno modulirana ili monotona, čuli su dva govornika. Posebno je važan deo pokusa u kojem su korištena dva posebna generatora za osnovni ton, svaki za svoj formant, i kad su sledili isti intonativni oblik. Zbog neznatnih neslaganja sistema, oni su se povremeno razilazili u fazama. Uprkos istoj frekvenciji osnovnog tona, povezivanje formanata u tom slučaju bilo je slabije, a kad bi se oni emitiovali u različita uha, čula bi se dva govornika. To pokazuje da je za povezivanje različitih spektralnih delova potrebna velika vremenska podudarnost (preciznost), i da nije dovoljno da su harmonici povezani samo s istom F0, frekvencijski, nego F0 mora biti podudarna i u fazi. Ovi su pokusi posebno važni jer iste rezultate pokazuju s ljudskim glasom u rečenicama kao i s negovornim zvukom.

     Cutting (1976) je pokusima proveravao delovanje frekvencije osnovnog tona u povezivanju formanata emitovanih u različita uhva u funkciji fonetske identifikacije. Radilo se o slogovima okluziv-vokal, koji se uverljivo mogu sintetizovati sa samo dva formanta. U slučaju kad se sintetizirao slog “da” i kad su oba formanta prezentovana u oba uva,samo je o frekvenciji osnovnog tona pojedinog formanta zavisilo čuje li se jedan ili dva govornika. Razlika u frekvenciji osnovnog tona od samo 2 Hz bila je dovoljna da se čuju dva različita glasa (govornika). Pritom je ispravno identificiran slog "da", a ne nešto drugo. To znači da slušaoci mogu kombiniovati informacije iz levog i desnog uva da bi se uobličio identitet govornog elementa (sloga).

     Postoji izuzetak u tom opštem ponašanju. Naime, kada postoje različite mogućnosti percepcije zavisno o tome koji se formanti grupiraju zajedno, podudarnost u frekvenciji osnovnog tona pomaže, priklanja se jednoj od mogućih percepcija. Ima slučajeva kad F1, F2 i F3 zajedno daju jedan perceptivni rezultat, a F1, F3 i F4 drugačiji. Ishod percepcije (identifikacije) zavisi o tome koja kombinacija formanata ima zajedničku frekvenciju osnovnog tona. Prema tome, frekvencija osnovnog tona, koja predstavlja važan elemenat za mehanizam "primitivnoga" grupisanja, u problematičnim slučajevima može pomoći prepoznavanju fonema, premda je ono prvenstveno proces koji se temelji na obrascima (shema-based),

Korelacijske frekvencijske promene

      Fundamentalni ton ljudskoga glasa varira u vremenu. Te varijacije, dakle intonativni oblik,istovremeno menjaju frekvencije harmonika. To znači, ako se osnovnom tonu frekvencija promeni za 25%, onda se i frekvencije svih harmonika paralelno promene za 25%. S druge strane, ako dve osobe govore istovremeno, nije verovatno da se njihove intonacije mienjaju paralelno. Paralelno pomicanje deluje kao objedinjavajući faktor zvučnog toka, to jest oni harmonici koji se paralelno pomiču po frekvencijskoj skali, pripadaju istom zvučnom toku (glasu, govorniku). Pritom nije jasno da li grupisanje prema tom načelu samo odvaja glasove u tom smislu da su slušatelji svesni da se radi o različitim glasovima ili takvo grupisanje akustičkih elemenata olakšava ujedno i fonetsku identifikaciju. Ovde se mogu mešati dva efekta. S jedne strane, paralelno pomicanje harmonika može delovati tako da se grupišu u jednu celinu. S druge strane, sama činjenica frekvencijskog pomicanja harmonika pridonosi boljem ocrtavanju spektralnog oblika. To postaje posebno važno kad je fundamentalna frekvencija relativno visoka, s razmaknutim harmonicima. Paralelno pomicanje harmonika pojašnjava oblik koji ne mora biti posve definirsan frekvencijski stacionarnim harmonicima. Prema tome, ne može se razlučiti koliko na odvajanje zvučnih tokova deluje sama činjenica paralelnog pomicanja frekvencija harmonika, a koliko to što se zbog pomicanja frekvencija harmonika jasnije ocrtava spektralni oblik, što omogućava bolju percepciju vokalne boje.

      I kada govornici nastoje tonsku visinu održati stabilnom, frekvencija osnovnog tona neprestano se menja. Ta se pojava naziva mikromodulacijom ili;jitter. Pokazalo se da dodavanje malih frekvencijskih nepravilnosti sintetiziranom glasu deluje, ne samo tako da glas zvuči prirodnije, nego i tako da se harmonici bolje integrišu u jedan zvučni tok. Sintetizovani su različiti vokali, svaki svojim osnovnim tonom. Jedan skup stimulusa nije sadržavao nikakve frekvencijske nepravilnosti, a drugi skupovi stimulusa varirali su frekvencijski, pravilno (vibrato) ili nepravilno (jitter). Rezultati su pokazali da slušaoci jednostavnije prepoznaju, to jest odvajaju, vokale ako su frekvencijski modulirani, bez obzira na to kakve su vrste bile modulacije, pravilne ili nepravilne. Osim toga, u slučaju kad F0 nije bila modulirana, slušaocima je bilo teško proceniti o kojim se tonskim visinama radi, a kad su stimulusi bili modulirani, čuli su tačno koje su to različite tonske visine. U ponovljenim pokusima, u jednom slučaju sintetizovani vokal modulira se tako da se menjanjem frekvencije F0 bolje ocrtava spektralni oblik (menjaju se amplitude harmonika tako da uz promenu frekvencije slede spektralni oblik), a u drugom slučaju tako da amplitude harmonika ostaju nepromenjene s promenom F0 (pa se prema tomu menja spektralni oblik).

     U oba slučaja podjednako je olakšana identifikacija vokala. To znači da modulirani vokali nisu jasniji samo zbog detaljnije ocrtanog spektralnog oblika. Verovatno je da modulacija snažnije pobuđuje nervni sistem.

      Chalikia i Bregman (1989) posmatrali su identifikaciju simultano emitovanih parova sintetičkih vokala kojima je F0 sporo modulirana, slično kao govorna intonacija. Pritom je promatran uticaj razlike (razmaknutosti) fundamentalnih frekvencija i načina njihova menjanja. Fundamentalni ton pojedinih vokala za jedan skup stimulusa bio je nepromenjen, za drugi se menjao paralelno, a za treći u suprotnom smeru. Obe vrste pomaka, i paralelni i suprotni, značajno su pomogli identifikaciji vokala u usporedbi s nepromenjenom F0. U slučaju kad razmak F0 iznosi upravo jednu oktavu, a to se odnosi na maksimalni razmak koji se kod suprotnih pomaka ostvaruje samo na početku i na kraju, stimulusi s paralelnim pomakom značajno se lošije identifikuju. U načelu, veći frekvencijski razmak između dve fundamentalne frekvencije pridonosi boljem odvajanju stimulusa. U slučaju kad se F0 menja u suprotnim smerovima, zapravo je u većem delu trajanja stimulusa manji frekvencijski razmak nego kod parova kod kojih se F0 nije menjala. To nije umanjilo uspešnost identifikacije.

Kontinuitet spektralnih promena

     S obzirom na to da je ustanovljena neobična važnost kontinuiranosti fundamentalne frekvencije za odeljivanje i integrisanje zvučnih tokova, može se postaviti pitanje ima li kontinuitet spektralnog oblika (frekvencije formanata) slično delovanje. Kontinuiranost promena spektralnog oblika na spektrogramima najbolje se može uočiti kad je govorna celina sastavljena samo od zvučnih elemenata. U tom je slučaju izvor zvuka neprestano ispod rezonancijskih šupljina i one sve deluju na modifikaciju spektralnog oblika u skladu s artikulacijskim pokretima. Onda kada se bezvučni glasnici izmenjuju sa zvučnima, također se može uočiti kontinuiranost spektralnih promena (formanata). Međutim, kontinuitet toka formanata između zvučnih i bezvučnih glasnika, ne vidi se uvek. Kontinuitet formanata može se opaziti, samo ako zvučna struja prolazi istim rezonantnim prostorima. S obzirom na to da je izvor zvuka za zvučne glasnike na razini larinksa, zvuk mora proći celi sistem rezonantnih prostora. Šumni se zvuk, međutim, stvara na različitim mestima govornog trakta. Na primer, šum za /h/ stvara se pre negoli zračna struja uđe u oralnu šupljinu pa se zbog toga filtrira na sličan način kao vokali tako da su mu i formanti u kontinuumu sa susednim vokalima. S druge strane, šum za /f/ stvara se između zuba i usana, i ne filtrira se više kroz sve oralne prostore pa zato njegova formantska struktura nije slična (kontinuirana) susednim glasnicima s kojima je u kontaktu. Prema tome, spektralni kontinuitet (formantski kontinuitet) “vidljiv” je i može se pratiti u kontaktu mnogih, ali ipak ne svih glasnika.

      Postavlja se pitanje kako mogu govorni segmenti potpuno različitog spektralnog sastava i oblika (šumovi na primer) biti objedinjeni u isti zvučni tok (s vokalima)? Budući da šum (frikativa) zajedno sa svojom okolinom stvara smislenu celinu, jedno od mogućih objašnjenja poziva se na znanje jezika: objedinjavanje u isti zvučni tok postiže se vežbom tokom učenja jezika. Ipak, tranzijenti predstavljaju suptilne osobine akustičkog sleda koje omogućavaju “primitivnu” analizu i objedinjuju sled u jedan zvučni tok. Tranzijenti sugerišu artikulacijski kontinuum. Da se ne radi samo o naučenim oblicima, potvrđuje Bregmanovo iskustvo (Bregman, 1994). On je slušao govornika jezika s klikovima i unatoč tome što nije poznavao jezik, tačno je identificikovao položaj klika unutar zvučnog sleda. To je bilo moguće jer je klik proizveden artikulacijom, a nije mehanički superponisan govoru na slučajnom mestu. Izgovoreni klik rezultat je konsonantskog pokreta koji istovremeno modifikuje spektralne osobine zvučne okoline i ta sinkronost može signalizovati slušnom mehanizmu da su te dve pojave povezane. Nasuprot tome, Ladefoged  i Broadbent (1960) i posle drugi objavili su da slušaoci nisu u stanju odrediti mesto slučajno interpoliranog klika u govornom toku. Takvo se ponašanje ispitanika primećuje i u pokusu s restauracijom fonema. Ako se u govornom toku neki glasnik zameni komadićem šuma, slušatelji nadomeštaju (u percepciji) zamenjeni fonem kao da se ništa nije dogodilo, a najčešće nisu svesni da je fonem bio zamenjen. Osim toga, ispitanici često nisu u stanju tačno odrediti na kojem su mestu u govornom toku čuli da se pojavio šumni delić (Erdeljac, 1997).

     Bregman (1994) izveštava o pokusu u kojem je promatrano delovanje spektralnog kontinuiteta u sintetizovanom govoru. Želelo se videti kako formantski tranzijenti pridonose sekvencijalnoj integraciji slogova. Sintetizovani su različiti tipovi niza vokala /o, a, i, u/, svaki s istom fundamentalnom frekvencijom i stalnim frekvencijama prva tra formanata. Jedan tip sastojao se od dugih vokala trajanja 120 ms bez tranzijenata. Drugi tip uključio je sintetizovani /b/ u sekvenciji CVC (/b/ zbog toga što se u engleskom može jednostavno sintetizovati samo s vokalnim tranzijentima, jer zvučna okluzija nije obavezan akustički znak zvučnih okluziva u engleskom). Kod toga stabilni deo formanata trajao je 30 ms, a tranzijenti po 45 ms. U trećem tipu nizova kratki vokali sintetizovani su tako da je uzet od prethodnog tipa samo stabilni vokalni deo od 30 ms, a tranzijenti su zamenjeni tišinom. U četvrtom tipu, formanti povezanih vokala neposredno se nadovezuju. Peti tip nizova može se nazvati pseudoslogovima zbog toga što je stabilnom delu formanata dodan pomak tranzijenata na više, što ne može rezultovati prepoznatljivim slogovima.

      Zadatak ispitanika bio je da ispišu redosled vokala. Od ponuđenih tipova dva su niza bila u izrazitoj prednosti: onaj s vokalima neposredno spojenim tranzijentima i onaj s CVC slogovima. Lošije se identificikovao redosled vokala u nizovima u kojima oni nisu bili spojeni tranzijentima, a najlošije je prošao tip stimulusa s pseudoslogovima. Kod nepovezanih vokala slušaoci su često čuli dva vokala unutar jednog, a dva unutar drugog zvučnog toka. Pokazalo se također da je najefikasniji u objedinjavanju niza tranzijent najnižeg (prvog) formanta, a da najmanje uticaja ima treći.

      Ovakvo načelo odvajanja različitih zvučnih tokova na osnovu suprotnog pomaka frekvencije osnovnog tona ne može se jednostavno primeniti na frekvencije formanata. Formanti, u zavisnosti o promenama oblika vokalnog trakta, menjaju frekvencije i paralelno i u suprotnim smerovima, na prvi pogled nezavisno, tako da korištenje takva suprotnoga pomaka frekvencija formanata za odvajanje glasova (zvučnih tokova) ne bi funkcionisalo. To da F1 i F2 unutar jedne reči imaju suprotno kretanje redovita je pojava. Postavlja se pitanje: kako to da ih ne odvojimo i ne čujemo kao posebne zvukove? Jedan od mogućih odgovora na to pitanje mogao bi biti da ih objedinjuje zajednička harmonička struktura. Treba se setiti da su formanti zapravo skupine harmonika pojačane rezonancijom. Kad kažemo da se frekvencija formanta kreće prema dole ili prema gore, menja se samo frekvencijsko područje koje će biti pojačano, a ne frekvencije harmonika. Zato, ako F0 raste, frekvencije svih harmonika rastu, a istovremeno, moguće je da frekvencija provoga formanta (F1) raste, a frekvencija drugoga (F2) da pada. Prema tome, ako se dogodi da dva formanta imaju različitu harmoničku strukturu, oni će se odvojiti u dva zvuka, ali se neće odvojiti u različite zvučne tokove na temelju suprotnog frekvencijskog pomaka.

      Slušaoci ne slušaju pojedine fomante i nisu ih svesni kao zasebne boje zvuka, nego njihova kombinacija predstavlja jednu boju. Takvo je slušanje u skladu s načinom nastajanja formanata. Formanti ne nastaju nezavisno - menja se zapravo oblik rezonancijskog sistema. Pri tome, pojedini delovi artikulacijskog trakta, rezonantne šupljine, nisu nezavisno zaslužne za frekvencije pojedinih formanata. Zbog toga govornici ne mogu svojom voljom menjati frekvenciju pojednog formanta.

     Pokazalo se da poteškoće u integriranju zvučnog toka nastaju i kada se nadovezuju različite širine formanata. Dakle, bez obzira na podudarnost središnjih frekvencija formanata, ako se naglo poveća širina formanta, to se čuje kao povećanje glasnoće u jednoj frekvencijskoj zoni. Isto tako glasnoća umetnutog šuma u govorni niz utiče na to hoće li (šum) biti integrisan u zvučni tok ili će biti interpretiran kao neovisan zvučni događaj. To se primijetilo pri pokušaju sinteze konkatenacijom prethodno pripremljnih, spremljenih zvučnih elemenata oblika (Bakran i Lazić, 1998).

Važnost lokalizacije izvora zvuka

Videli smo kako je kontinuitet osnovne frekvencije i formanata važan za integrisanje govornih sekvenci. Oba ova kontinuiteta proizilaze iz postepene promene položaja (kretanja) artikulatora i oblika govornog trakta. Vokalni trakt se ne može trenutno prebaciti iz jednog položaja, pogodnog za proizvodnju glasa, u drugi položaj. Drugi oblik kontinuiteta proizilazi iz činjenice da se govornici uglavnom nalaze na jednom određenom mestu u prostoru ili se relativno sporo kreću kroz prostor.

Položaj izvora zvuka u prostoru i binauralno slušanje nesumnjivo pripadaju najmoćnijim mehanizmima kombinovanja i razdvajanja zvučnih tokova. Principi lokalizacije su odavno poznati (videti Stivens i Dejvis, 1960) i ovde se neće razmatrati. Samo želimo da istaknemo da govor, kao vrsta zvuka, maksimalno koristi sve poznate mehanizme lokalizacije, jer je širokog spektra, dinamički i spektralno modulisan, tako da se nikada ne dešava da svi mehanizmi lokalizacije istovremeno otkažu. Kada jedan od mehanizama lokalizacije postane nedovoljno efikasan zbog vrste zvuka, funkciju prostornog razdvajanja preuzima drugi.

Značaj lokalizacije izvora zvuka za razumljivost govora je odavno primećen u eksperimentima maskiranja. Efekat maskiranja je manji ako se signal (govor) i šum mogu prostorno razdvojiti. U našem eksperimentu smo utvrdili da se razumljivost govora može povećati i do 25% ako su izvori signala i šuma prostorno razdvojeni (Bakran, neobjavljeni rad). Dakle, uprkos činjenici da nivoi intenziteta signala i šuma ostaju isti, razumljivost je olakšana. Poenta je u tome što prostornim razdvajanjem identičan signal ne dopire do oba uha. U gore pomenutom eksperimentu, signal će biti jači u jednom uhu, a šum će biti jači u drugom. Pošto se zvuk u istom uhu lakše integriše u jedan zvučni tok, prostorno razdvajanje je olakšalo razdvajanje zvučnih tokova.

Kada se uzastopni elementi kontinuiranog govora emituju pomoću slušalica, naizmenično između levog i desnog uha, sposobnost njihovog prepoznavanja se smanjuje. Prenos signala na drugo uho deluje kao tišina u prethodnom uhu, kao nedostatak signala, a to dovodi do pogrešne segmentacije. Stoga, ako diskontinuitet u prostornoj lokaciji zvuka predstavlja problem za integraciju, zaključujemo da podudaranje lokacija olakšava integraciju (Hagins, 1964). Teškoća u prepoznavanju zbog prenosa (naizmeničnog) signala sa jednog uha na drugo može se posmatrati i na nivou foneme. Ako je CV slog /mi/ predstavljen tako da se u jednom uhu čuje samo /m/, a u drugom /i/, ispitanici će imati poteškoća u identifikaciji /m/ jer je smanjena mogućnost poređenja uzastopnih spektralnih oblika, a akustični znak za identifikaciju /m/, koji se sastoji u naglom proširenju spektra pri prelasku sa /m/ na /i/, nije registrovan. podaci

Istovremena organizacija govornog zvuka

Do sada smo posmatrali grupisanje i razdvajanje u govornom zvuku kada zvuk stiže u različito vreme (sukcesivno). Postoje mehanizmi za grupisanje i razdvajanje akustičnih komponenti koje istovremeno stižu do uha. Ovi mehanizmi moraju razdvojiti akustičke elemente različitih glasova (govornika) kako ne bismo čuli zvuk koji je slučajna mešavina različitih glasova. Takođe moraju integrisati komponente zvuka koje pripadaju istom glasu (govorniku) kako se ne bi desilo da se formanti ili harmonici istog glasa čuju kao odvojeni zvuci (zvučni tokovi). Ako pretpostavimo da slušni mehanizam prvo formira nešto poput neuronskog spektrograma, da bi detektovao i prepoznao glas, mora integrisati spektralne komponente koje mu pripadaju. Istovremene komponente u negovornom zvuku mogu se razdvojiti na osnovu različitih faktora: visine tona, prostorne lokacije, spektralnih regiona, nezavisnosti promena.

Odnos između „primitivnih“ i mehanizama obrade zasnovanih na šemama

Kroz ceo ovaj rad pažnja je usmerena na takozvane primitivne procese grupisanja i razdvajanja zvučnih elemenata, koji se zasnivaju na svojstvima većine prirodnih zvukova: imaju određeno trajanje, kreću se sporo u prostoru i sastoje se od komponenti koje počinju i završavaju se istovremeno. Međutim, ne treba zanemariti da slušaoci imaju iskustvo i znanje o različitim vrstama zvukova, kao što su govor, muzika i razni poznati svakodnevni zvukovi. Znanje o zvukovima se čuva u obliku obrazaca, šema (Bregman, 1994). Svaki obrazac sadrži informacije o određenoj pravilnosti koja se manifestuje na različitim nivoima. Govor se najčešće navodi kao primer u ovom kontekstu. Ljudi koji poznaju jezik imaju posebne obrasce za pojedinačne govorne zvukove, za pojedinačne reči i za načine na koje se koriste. Obrasci se aktiviraju kada se određeni elementi prepoznaju u zvuku. Aktivirani obrazac zatim utiče na dalji tok percepcije. Ako se čuje „viski“, aktivira se obrazac koji omogućava slušaocu da bude spreman da čuje, na primer, „sa ledom“ (Erdeljac, 1997).

Za razliku od obrazaca, primitivni procesi funkcionišu nezavisno od znanja, pa čak i nezavisno od volje slušaoca. Delovanje primitivnih mehanizama i ovih procesa „odozgo nadole“ ne može se uvek jasno razlikovati. Postoje laboratorijske situacije koje mogu isključiti efikasnost primitivnih procesa. Ako se sintetišu dva samoglasnika iste osnovne frekvencije, istog trajanja i emitovani sa istog mesta, u zvuku nema „primitivnih“ elemenata koji bi ih razdvojili u odvojene entitete. Međutim, slušaoci to mogu da urade. Jedino objašnjenje je da se aktiviraju obrasci koji se prepoznaju u tom zvuku. Još jedan očigledan primer selekcije, ili perceptivnog ishoda zasnovanog isključivo na aktivaciji obrazaca, nalazi se u eksperimentima sa restauracijom fonema.

Postoje eksperimentalna iskustva u kojima se primitivni procesi sukobljavaju sa obrascima. Ako se sintetiše vokal sa dva formanta, ali tako da su sastavljeni od harmonika koji pripadaju različitim osnovnim frekvencijama, slušaoci imaju neobičan auditivni utisak: čuju dva odvojena zvuka, ali su takođe u stanju da čuju vokal koji zahteva ceo spektar, oba formanta.

Primitivni mehanizmi sortiraju signal u pojedinačne elemente, a mehanizmi zasnovani na obrascima biraju i integrišu ove elemente. Oba procesa nisu osetljiva na iste promenljive. Na primer, osnovna frekvencija grupe harmonika je veoma značajna za primitivne mehanizme, a manje važna za procese zasnovane na obrascima.

Korelirane promene amplitude

U vezi sa vremenskom organizacijom zvukova, treba pomenuti neke činjenice koje utiču na razdvajanje zvukova iz različitih izvora. U principu, nezavisni zvukovi ne počinju i ne završavaju se istovremeno. Pored toga, jedan zvuk često traje kada se drugi doda u smešu. Stoga je asinhronost početaka i završetaka relativno pouzdan znak za razdvajanje zvučnih tokova. U jednoj od psihoakustičkih demonstracija (Houtsma et al. 1987), harmonijski ton sastavljen od 10 harmonika se smenjuje sa tonom koji sadrži sve ove harmonike osim jednog. U ovoj alternaciji, slušaoci postaju svesni zvuka određenog harmonika, iako nisu čuli njegov zvuk odvojeno kao sastavni element harmonijskog tona.

U slučaju alternacije samoglasnika i nazala, dešava se da se viši formanti iznenada utišaju (na početku nazala) ili pojačaju (na početku samoglasnika). Ovo bi trebalo da podstakne razdvajanje na takav način da jedan zvuk deluje kontinuirano, a drugi dodato. Ovo zaista možemo osetiti kroz introspekciju ako ponovimo sekvencu /mamamama.../. Međutim, ovaj efekat razdvajanja je mnogo manji od efekta ujedinjenja koji izaziva harmonijski kontinuitet.

Eksperimenti su pokazali da u slučaju maskiranja jednog vokala drugim, kada maskirani počne nekoliko desetina sekunde nakon maske, vokal se identifikuje kao da nema maske. Naprotiv, u tom slučaju, efikasnost identifikacije više ne zavisi od razlike u osnovnim frekvencijama dva vokala. U prirodnom govoru, na granicama okluziva dolazi do naglih promena energije, a to čini okluzive otpornim na maskiranje.

Darvin (1984) je proučavao efekat (čistog) tona umetnutog u sintetizovani vokalni spektar. Otkrio je da čak i kada se dodatni ton savršeno uklapa u harmonijsku strukturu, ako nije sinhron sa početkom vokala, čuje se kao zaseban zvuk i što se kasnije uključi, to manje utiče na percepciju vokalne boje, tako da nakon 250 ms nema nikakvog efekta.

Ako se sintetišu dva odvojena formanta za okluzivno-vokalni prelaz, i ako se ovi formanti emituju svaki na jedno uho, razumljivost je oko 90%. Međutim, ako nisu sinhroni, razumljivost pada na 50% sa vremenskim pomakom od 160 ms. Identifikacija od 50% nije tako loša ako se ima u vidu da je suglasnik pretežno definisan vokalnim tranzijentom koji traje približno 50 ms. Ako perceptivnom procesu trebaju informacije o oba formanta (F1 i F2), on ih ne može kombinovati u jedan osećaj, ali može „koordinirati“ informacije iz jednog i drugog. Pokazano je da asinhronost otežava koordinaciju informacija pojedinačnih formanata nego neslaganje u frekvenciji osnovnog tona (Cutting, 1976). Na osnovu svih ovih primera možemo zaključiti da sinhronizovane promene amplitude različitih delova spektra mogu doprineti pravilnom povezivanju pojedinačnih spektralnih komponenti sa istim izvorom.

Harmoničnost se generalno opisuje kao ekvidistantne frekventne komponente ili kao specifičan, celobrojni odnos između frekvencija pojedinačnih harmonika i frekvencije osnovnog tona. Međutim, kada se posmatra takozvani „široki“ spektrogram, harmonici (u principu) nisu vidljivi, a harmonijski zvuk se prepoznaje po vertikalnim linijama razmaknutim tačno za period osnovnog tona koje se protežu do visokog dela spektra. Ovo ocrtava sinhroniju komponentnih komponenti. Ova sinhronija je posebno važan izvor informacija u visokom delu spektra kada je, zbog ograničenja slušnog sistema (širina kritičnog opsega), pojedinačne harmonik teško razlikovati. U vokalnim traktovima koji sadrže i harmonijski ton i šum, kao što su zvučni frikativi, amplitudna modulacija izazvana periodičnošću laringealnih impulsa je takođe vidljiva u bučnom delu spektra, a ova sinhronija pomaže u objedinjavanju jakih niskoharmonijskih komponentnih komponenti sa šumom.

Zaključak

Čini se da auditivni mehanizam rešava problem analize zvučnog okruženja na dva različita načina: korišćenjem takozvanih primitivnih procesa auditivnog grupisanja i kontrolom slušanja obrazaca zasnovanih na znanju (jeziku), poznavanju zvukova. Ovi mehanizmi se međusobno dopunjuju.

Integracija i razdvajanje zvukova zasniva se na analizi koja deli mešavinu zvukova na elemente. Nakon toga, uključuje se strategija objedinjavanja elemenata koji pripadaju istoj celini, kako u vremenskom nizu (sekvencijalno grupisanje), tako i u spektralnom smislu (simultano grupisanje). Najočigledniji je princip grupisanja po sličnosti. Ovo se odnosi na osnovnu frekvenciju, vremensku blizinu, spektralnu sličnost, prostornu blizinu i sličnost intenziteta. Jedan od važnih elemenata analize su frekventni odnosi između sastavnih elemenata zvuka. Što su zvučni elementi udaljeniji po frekvenciji, manja je verovatnoća da pripadaju istom zvučnom toku. Još jedan efikasan princip integrisanja elemenata analize je harmonija frekventnih komponenti. Auditivni sistem odvojeno grupiše harmonijske elemente koji pripadaju istom osnovnom tonu, formira odvojene senzacije visine tona i odvojene spektralne boje. Istovremeno, pojedinačni harmonici se ne čuju kao odvojeni elementi. Sledeći važan princip objedinjavanja elemenata analize zvuka je korelacija promena pojedinačnih zvučnih elemenata. Istovremena promena odnosa frekvencija i intenziteta je signal za objedinjavanje u istu zvučnu jedinicu. Način na koji se ponaša harmonijski govorni zvuk je idealan primer za to. Treba imati na umu paralelne frekventne promene harmonika u funkciji intonacije govora, kao i male nehotične frekventne modulacije (džiter). Istovremene amplitudne promene u različitim delovima spektra pomažu njihovoj integraciji. Ovo se ponovo odnosi na dva nivoa: velike spore promene i one čiji je izvor periodičnost harmonijskog zvuka koji se proteže preko celog spektra i izaziva sinhrono neuronsko pobuđivanje. Pored sinhroniciteta, treba pomenuti i povezanost prostorno podudarnih sinhronih elemenata i korelaciju sa vizuelnim kanalom. Prostorna povezanost, osim činjenice razlike zvuka koji dopire do različitih ušiju, uključuje i svest o relativno sporim promenama položaja izvora zvuka. Kontinuirani zvuci se lakše povezuju u isti zvučni tok nego diskontinuirani. Poseban fenomen povezan sa analizom zvučnog okruženja je iluzija kontinuiteta. Ako se tihi, kontinuirani zvuk mestimično prekine i zameni mnogo glasnijim zvukom sa potpuno drugačijim svojstvima, slušaoci imaju iluziju da tihi zvuk nije prekinut već se nastavlja „ispod“ glasnijeg, odnosno da je samo maskiran. Ovaj princip se široko koristi kao metod istraživanja u eksperimentima sa takozvanom „restauracijom fonema“.

Kroz ceo ovaj rad pažnja je usmerena na takozvane primitivne procese grupisanja i razdvajanja zvučnih elemenata, koji se zasnivaju na svojstvima većine prirodnih zvukova: imaju određeno trajanje, polako se kreću u prostoru i sastoje se od komponenti koje počinju i završavaju se istovremeno. Međutim, ne treba zanemariti da slušaoci imaju iskustvo i znanje o različitim vrstama zvukova, kao što su govor, muzika i razni svakodnevni poznati zvukovi. Znanje sadrži informacije o nekoj posebnoj pravilnosti koja se manifestuje na različitim nivoima. Govor se najčešće navodi kao primer u ovom kontekstu. Ljudi koji poznaju jezik imaju specifične obrasce za pojedinačne govorne zvukove, za pojedinačne reči i načine njihove upotrebe. Obrasci se aktiviraju kada se određeni elementi prepoznaju u zvuku. Aktivirani obrazac zatim utiče na dalji tok percepcije. Primitivni procesi funkcionišu nezavisno od znanja, pa čak i nezavisno od volje slušaoca. Delovanje primitivnih mehanizama i procesa odozgo nadole ne može se uvek jasno razdvojiti.

Referencije

1.Bakran, J. (1984). Vremenska organizacija hrvatskoga standardnog govora. Disertacija, Filozofski fakultet u Zagrebu.
2.Bakran, J. i Lazić, N. (1998). Fonetski problemi difonske sinteze hrvatskoga govora. Govor, XV, br. 2, 103- 116.
3-Bregman, A. S. (1994).Auditory Scene Analysis.MIT Press.
4-Broadbent, D. F. i Ladefoged, P. (1957). On the fusion of sounds reaching different sense organs.Journal of the Acoustical Society of America,29, 708-710.
5.Brokx, J. K. L. i Noteboom, S. L. (1982). Intonation and perceptual separation of sumultaneous voices. Journal of Phonetics, 10, 23-36.
6.Chalikia, M.H.; Bregman, A.S. (1989). The perceptual segregation of simultaneous audotory sognals: Pulse train segregation and vowel segregation. Perception - Psychophysics,;46, 487-497.
7.Cherry, E. C. (1953). Some experiments on the recognition of speech with one and with two ears.Journal of the Acoustical Society of America, 25,975-979.
8.Cutting, J. E. (1976). Auditory and linguistic processes in speech perception: Inferences from six fusions in dihotic listening. Psychological Review.83, 114-140.
9.Darwin, C. J. (1984). Perceiving vowels in the presence of another sound: Constraints on formant perception.Journal of the Acoustical Society of America 76, 1636-1647.
10.Darwin C.J., Bethell.Fox, C.E. (1977). Pitch continuity and speech source attribution.Journal of Experimental Psychology: Human Perception and Performance, 3, 665-672.
11.Erdeljac, V. (1997). Prepoznavanje riječi. SOL, Ibis,Zagreb
12.Huggins, A.W.F. (1964). Distortion of temporal patterns of speech: Interruptions and alternations.Journal of the Acoustical Society of America, 36, 1055-1065.
13.Houtsma, A.J.M., Rossing, T.D., Wagenaars, W.M. (1987).Auditory Demonstrations. Institute for Perception Research, Eindhoven The Netherlands (CD s popratnom knjžicom)
14.Ladefoged, P., Broadbent, D.E. (1960). Perception of sequence in auditory events.Quarterly Journal of Experimental Psychology, 12, 162-160.
15.Lackner, J.R., Goldstein, L.M. (1974). Primary audotory stream segregation of repeated consonant- vowel sequences.Journal of the Acoustical Society of America 56, 1651-1652.
16.Moore, B.C.J. (1990).An Introduction to the Psychology of Hearing.Academic Press.
17.Norman, D.A. (1976).Memory and Attention: An Introduction to Human Information Processing.New Yor, Viley, (citirano prema Bregman 1994).
18.Noteboom, S,G., Brokx, J.P.L. De Rooij, J.J. (1976). Contributions of prosody to speech perception. In W.J.M. Levelt and G.B. Flores d'Arcais (eds.) Studies in the Perception of Language,Chichester: Wiley, (citirano prema Bregman 1994).
19.Potter, R.K., Kopp, G.A., i Green, H.C. (1947).Visible Speech.Van Nostrand.
20.Stevens, K.N., Blumstein, S.E. (1981). The search for invariant acoustic correlates of phonetic features. In P.D. Eimas and J. L. Miller (eds.) Perspective in the Study of Speech.Hillsdale N.J.: Erlbaum.
21.Stevens, S.S., Davis, H. (1960).Hearing, its Psychology and Physiology, Wiley.
22.Treisman, A.M. (1960). Contextual cues in selective listening.Quarterly Journal of Experimental Psychology, 12, 242-248.
23.Warren, R.M. (1982).Auditory Perception: A New Synthesis.New York, Pergamon.

Naslov na engleskom:

AUDITORY SCENE ; ANALYSIS

Summary:

     U članku se raspravlja o doprinosu pojedinih svojstava govornog zvuka procesu perceptivnog odvajanja mnoštva simultano prisutnih zvukova kojima smo okruženi. Problem predstavlja nastavak istraživanja organizacije percepcije kojim su se početkom stoljeća na vizulanom planu bavili "gestalt" psiholozi. Uz pregled doprinosa pojedinih autora o toj relativno malo istraživanoj temi i komentar na temelju iskustava iz vlastitih istraživanja,predlaže se nekoliko novih termina (na hrvatskom jeziku) nužnih za razumijevanje problema.

     Čini se da slušni mehanizam rješava problem analize zvučnog okruženja na dva različita načina: upotrebom takozvanih primitivnih procesa auditivnog grupiranja i upravljajući slušanje obrascima koje se temelje na znanju (jezika), poznavanju zvukova. Ovi se mehanizmi međusobno nadopunjuju. Integriranje i odvajanje zvukova temelji se na analizi koja smjesu zvukova dijeli na elemente. Nakon toga uključuje se strategija objedinjavanja elemenata koji pripadaju istoj cjelini, i to u vremenskom slijedu (sekvencijalno grupiranje), i u spektralnom smislu (simultano grupiranje). Najočitiji je princip grupiranja po sličnosti. To se odnosi na fundamentalnu frekvenciju, vremensku bliskost, spektralnu sličnost, prostornu bliskost i intenzitetsku sličnost. Jedan od važnih elemenata analize jesu frekvencijski odnosi među sastavnim elementima zvuka. Što su zvučni elementi frekvencijski udaljeniji manja je vjerojatnost da pripadaju istom zvučnom toku. Drugi je od djelotvornih principa integriranja elemenata analize harmoničnost frekvencijskih komponenata. Auditivni sustav odvojeno grupira harmoničke elemente koji pripadaju istom osnovnom tonu, formira odvojene osjete tonske visine i odvojene spektralne boje. Istovremeno, pojedini harmonici ne čuju se kao zasebni elementi. Sljedeći značajan princip objedinjavanja elemenata zvučne analize jest korelacija promjena pojedinih zvučnih elemenata. Simultana promjena frekvencijskih i intenzitetskih odnosa signal je za objedinjavanje u istu zvučnu cjelinu. Način na koji se ponaša harmoničan govorni zvuk, za to je idealan primjer. Tu treba imati na umu paralelne frekvencijske promjene harmonika u funkciji govorne intonacije kao i male nehotične, frekvencijske modulacije (jitter). Simultane amplitudne promjene u različitim dijelovima spektra pomažu njihovu integriranju. To se opet odnosi na dvije razine: velike spore promijene i one kojima je izvor u periodičnosti harmoničnog zvuka koja se proteže po čitavom spektru i uzrokuje sinkronu neuralnu pobudu. Uz sinkronost treba spomenuti i povezivanje prostorno podudarnih sinkronih elemenata i korelaciju s vizualnim kanalom. Prostorno povezivanje osim činjenice o različitosti zvuka koji dopire u različita uha uključuje svijest o relativno sporim promjenama položaja izvora zvuka. Kontinuirani zvukovi lakše se povezuju u isti zvučni tok od diskontinuiranih.

     U cijelom ovom radu pažnja je usredotočena na takozvane primitivne procese grupiranja i odvajanja zvučnih elemenata koji se temelje na svojstvima većine prirodnih zvukova: imaju neko trajanje, sporo se premještaju u prostoru i sastoje se od komponenata koje počinju i završavaju istovremeno. Međutim, ne smije se zanemariti da slušatelji imaju iskustvo i znanje o različitim vrstama zvukova kao što je govor, glazba i raznovrsni svakodnevni poznati zvukovi. Znanje sadrži informacije o nekoj posebnoj pravilnosti koje se manifestiraju na različitim razinama. Govor se u tom kontekstu najčešće navodi kao primjer. Ljudi koji znaju jezik imaju posebne obrasce za pojedine glasnike govora, za pojedine riječi i načine njihova korištenja. Obrasci se aktiviraju kad se u zvuku prepoznaju neki elementi. Aktivirani obrazac potom djeluje na daljnji tijek percepcije. Primitivni procesi djeluju nezavisno od znanja, pa čak i neovisno o volji slušatelja. Djelovanje primitivnih mehanizama i "top-down" procesa ne može se uvijek jasno razlikovati.

autori:Juraj Bakran ; Filozofski fakultet, Zagreb, Hrvatska Vlasta Erdeljac ; Filozofski fakultet, Zagreb Hrvatska Nikolaj Lazić ; Filozofski fakultet,Zagreb, Hrvatska

izvor PDF 

Коментари