বিষয়বস্তুতে চলুন

প্রকৌশল শব্দবিজ্ঞান/উৎস-ফিল্টার তত্ত্ব

উইকিবই থেকে

source-filter তত্ত্ব (Fant 1960) ধারণা দেয় যে একটি ধ্বনিতাত্ত্বিক বাক্ সংকেতকে একটি উৎস সংকেত হিসেবে দেখা যেতে পারে, যা স্বরযন্ত্র বা সংকোচনের পরে স্বরনালীর গহ্বরের অনুরণনের মাধ্যমে ছাঁকা হয়। এই সহজ ভাষণ সংশ্লেষণ (speech synthesis) মডেলটি একটি অনুমানের উপর ভিত্তি করে গঠিত, যেখানে সিস্টেমের গতি রৈখিক (linear) এবং তিনটি প্রধান অংশে ভাগযোগ্য: গ্লটালের শক্তি (উৎস), স্বরনালী (ফিল্টার), এবং ধ্বনি বিকিরণের ধ্বনিতাত্ত্বিক প্রভাব (যা স্বতন্ত্র)। (ডান পাশে চিত্রে প্রদর্শিত)

গ্লটাল উৎস আনুমানিকভাবে সাব-গ্লটাল সিস্টেমের সাথে মেলে, আর স্বরনালী (VT) সুপরা-গ্লটাল সিস্টেমের সাথে সাদৃশ্যপূর্ণ। রেডিয়েশন ব্লকটিকে একটি কনভার্টার হিসেবে ধরা যায়, যা ভলিউম ভেলোসিটিকে অ্যাকুস্টিক প্রেসারে রূপান্তর করে। সাধারণত, গ্লটাল উৎসের উৎস ফাংশনের বর্ণালি S(f) এবং রেডিয়েশন বৈশিষ্ট্য R(f) ফ্রিকোয়েন্সির মসৃণ এবং একমুখী ফাংশন। তবে, ট্রান্সফার ফাংশন T(f)-এর বৈশিষ্ট্য কয়েকটি শীর্ষ বিন্দু দ্বারা নির্ধারিত হয়, যা স্বরনালীর অনুরণন নির্দেশ করে। গহ্বরগুলোর আকৃতি পরিবর্তনের ফলে এই শীর্ষবিন্দুর অবস্থান ও প্রশস্ততা বদলায়। বাম পাশের চিত্রে একটি স্বরের জন্য স্বরনালীর আকৃতি দেখানো হয়েছে। প্রতিটি ক্ষেত্রে উৎস স্পেকট্রাম S(f), ট্রান্সফার ফাংশন T(f), রেডিয়েশন বৈশিষ্ট্য R(f), এবং সাউন্ড প্রেসার pr(f) এর গঠন দেখানো হয়েছে।

ট্রান্সফার ফাংশন T(f) নির্ধারণ করা হয় বিভিন্ন আকৃতির নলের মধ্যে ধ্বনি প্রচারের তত্ত্ব প্রয়োগ করে। ৫০০০ Hz পর্যন্ত ফ্রিকোয়েন্সিতে স্বরনালীর ক্রস ডাইমেনশন শব্দের তরঙ্গদৈর্ঘ্যের চেয়ে ছোট হওয়ায়, শব্দের প্রচারকে সমতল তরঙ্গ হিসেবে ধরা যায় এবং স্বরনালীকে বিভিন্ন ব্যাসার্ধের একটি অ্যাকুস্টিক নল হিসেবে দেখা যায়।

vocal tract transfer function

[সম্পাদনা]

স্বরনালীর ট্রান্সফার ফাংশন একটি নির্দিষ্ট দৈর্ঘ্যের অ্যাকুস্টিক নল হিসেবে ধরা হয় যা বিভিন্ন সেকশনের সমন্বয়ে গঠিত। এটি এইরূপভাবে উপস্থাপন করা যায়:

এখানে, K একটি ধ্রুবক, sa1,sa2,... হলো H(s)-এর জিরো এবং s1,s2,... হলো পোল। এই সমীকরণে, পোল ও জিরো অধিকাংশ ক্ষেত্রেই কমপ্লেক্স কনজুগেট জোড়ায় থাকে এবং এগুলোর বাস্তব অংশ কাল্পনিক অংশের তুলনায় অনেক কম, যা নির্দেশ করে প্রতি চক্রে শক্তি ক্ষয় সঞ্চিত শক্তির তুলনায় কম। সুতরাং, H(s)-এর পোল নিচেরভাবে প্রকাশ করা যায়:

এখানে, Kp একটি ধ্রুবক এবং তারকাচিহ্নিত মানগুলো কমপ্লেক্স কনজুগেট নির্দেশ করে। স্বরনালীর প্রাকৃতিক ফ্রিকোয়েন্সি পোল দ্বারা উপস্থাপিত হয় এবং এগুলোর কাল্পনিক অংশ ফর্ম্যান্ট ফ্রিকোয়েন্সি নির্দেশ করে — অর্থাৎ যেসব ফ্রিকোয়েন্সিতে উত্তেজনার অনুপস্থিতিতে কম্পন ঘটে। বাস্তব অংশ হলো এই কম্পনের ক্ষয় হারের সূচক। শব্দ তরঙ্গের প্রতিফলনের মাধ্যমে নির্দিষ্ট ফ্রিকোয়েন্সিতে অনুরণন সৃষ্টি হয় এবং এগুলোকেই ফর্ম্যান্ট বলা হয়, যা শ্রুত শব্দ নির্ধারণে গুরুত্বপূর্ণ।

Acoustic interpretation of transfer function

[সম্পাদনা]
চিত্র:Vocal tract as tubes with varying cross section.jpg
Vocal tract as tubes with varying cross section

নলের অ্যাকুস্টিক্স অনুযায়ী, নলের এক প্রান্তে (x=L) চাপ ও ভলিউম ভেলোসিটি অপর প্রান্তের (x=0) মানের সাথে সম্পর্কযুক্ত। নিচের ট্রান্সফার ম্যাট্রিক্সটি ফ্রিকোয়েন্সি ডোমেইনে দুই প্রান্তের সম্পর্ক নির্ধারণ করে:

এখানে K হলো তরঙ্গ সংখ্যা এবং L হলো নলের দৈর্ঘ্য। এই সমীকরণ দিয়ে এক বিন্দুর তরঙ্গ অবস্থা থেকে অন্য বিন্দুর অবস্থা নির্ণয় করা যায়।

স্বরনালীকে বিভিন্ন ক্রস সেকশনের n সংখ্যক নল হিসেবে ধরা যায় (ডান পাশে চিত্র দেখুন), তখন ট্রান্সফার ফাংশন গ্লটিস থেকে রেডিয়েটেড শব্দ পর্যন্ত সম্পর্ক স্থাপন করে:

স্বরনালীর সামগ্রিক সমীকরণ হয়:

এখানে Zrad হলো রেডিয়েশন ইম্পিডেন্স। প্রায় ৬০০০ Hz পর্যন্ত, একে এইরূপে প্রকাশ করা যায়:

এখানে A হলো মুখগহ্বরের ক্ষেত্রফল, a হলো কার্যকর ব্যাসার্ধ, এবং Ks(f) হলো ফ্রিকোয়েন্সি নির্ভর এক মাত্রাহীন গুণক যা মাথার বাধা প্রতিফলনের প্রভাব নির্ধারণ করে।

সিস্টেমের ট্রান্সফার ফাংশন হয়:

ফলে, নিচের সমীকরণ পাওয়া যায়:

উপরে দেখানো এই সমীকরণটি উৎস, ফিল্টার এবং রেডিয়েশন দ্বারা মুখের সামনে চাপ নির্ধারণ করে, যা প্রথম অংশে বর্ণিত source-filter তত্ত্ব ব্যাখ্যা করে।

Effects of vocal tract wall and other losses

[সম্পাদনা]

পূর্ববর্তী অংশে স্বরনালীর ক্ষয় উপেক্ষা করা হয়েছে, শুধুমাত্র টার্মিনেশন ইম্পিডেন্স ছাড়া। তবে, আরো কিছু দ্বিতীয় স্তরের প্রভাব যেমন প্রাচীরের প্রভাব, তাপ পরিবাহিতা, সান্দ্রতা, এবং গ্লটালের খোলার মতো বিষয়গুলি ফর্ম্যান্ট ফ্রিকোয়েন্সির ব্যান্ডউইথ ও অবস্থানে প্রভাব ফেলে।

Resonant frequencies of air in a tube

[সম্পাদনা]

স্বরনালীর গঠন ও ট্রান্সফার ফাংশনের সম্পর্ক জটিল, তবে একটি সাধারণ নল দিয়ে এ বিষয়টি সহজভাবে বোঝা যায়। স্বরধ্বনির সময় স্বরনালীকে এক প্রান্ত বন্ধ (গ্লটিস) এবং অপর প্রান্ত খোলা (ঠোঁট) একটি নল হিসেবে ধরা যায়।

১৭ সেমি দীর্ঘ স্বরনালীর অনুরণন ফ্রিকোয়েন্সি হয়:

f= n * c / 4 * L, যেখানে n = 1, 3, 5, ... f = ফর্ম্যান্ট ফ্রিকোয়েন্সি (Hz) c = শব্দের বেগ 34,000 cm/s L = স্বরনালীর দৈর্ঘ্য (cm)

তাহলে সর্বনিম্ন ফর্ম্যান্ট:

f = c / 4 * L = 34,000 / 4 * 17 = 500 Hz

এবং ফর্ম্যান্ট ফ্রিকোয়েন্সির ব্যবধান: f = 2 *c / 4 * L = c / 2 * L = 1000 Hz

অতএব, ফর্ম্যান্ট: F1=500, F2=1500, F3=2500, F4=3500।

(বাকি অংশ অনুবাদ করা হচ্ছে…)