বিষয়বস্তুতে চলুন

ইন্দ্রিয়তন্ত্র/কম্পিউটার মডেল/শ্রবণতন্ত্র সিমুলেশন

উইকিবই থেকে

শ্রবণ ব্যবস্থার কম্পিউটার সিমুলেশন

[সম্পাদনা]

শব্দ নিয়ে কাজ

[সম্পাদনা]

অডিও সংকেত বিভিন্ন ফরম্যাটে সংরক্ষণ করা যায়। এগুলো অসংকুচিত বা সংকুচিত হতে পারে, এবং এনকোডিং ওপেন (খোলা) বা প্রোপ্রাইটারি (মালিকানাধীন) হতে পারে। উইন্ডোজ সিস্টেমে সবচেয়ে সাধারণ ফরম্যাট হলো WAV-ফরম্যাট (w:WAV)। এতে একটি হেডার থাকে, যেখানে চ্যানেলের সংখ্যা, স্যাম্পল রেট, প্রতি স্যাম্পলে বিট ইত্যাদি সম্পর্কে তথ্য থাকে। এই হেডারের পরে থাকে আসল ডেটা। সাধারণত ব্যবহৃত বিটস্ট্রিম এনকোডিং হলো লিনিয়ার পালস-কোড মডুলেশন (LPCM)ফরম্যাট (w:Pulse-code_modulation)।

অনেক প্রোগ্রামিং ভাষায় WAV-ফাইল পড়া ও লেখার জন্য কমান্ড উপলব্ধ থাকে। অন্যান্য ফরম্যাটের ডেটা নিয়ে কাজ করার সময় আপনার দুটি বিকল্প থাকে:

  • আপনি সেগুলোকে WAV-ফরম্যাটে রূপান্তর করতে পারেন, এবং সেখান থেকে কাজ চালিয়ে যেতে পারেন। অডিও ও ভিডিও রেকর্ড, রূপান্তর ও স্ট্রিম করার জন্য একটি অত্যন্ত বিস্তৃত, মুক্ত এবং বহুমাত্রিক প্ল্যাটফর্ম সমাধান হলো ffmpeg (http://www.ffmpeg.org/)।
  • অথবা আপনি কাঙ্ক্ষিত ফরম্যাট পড়া/লেখার জন্য বিশেষ প্রোগ্রাম মডিউল সংগ্রহ করতে পারেন।

ফুরিয়ার রূপান্তরনের স্মরণ (w:ফুরিয়ার রূপান্তরন)

[সম্পাদনা]

একটি ধারাবাহিক ফাংশন রূপান্তর করতে ফুরিয়ার ইনটেগ্রাল ব্যবহার করা হয়:

এখানে k ফ্রিকোয়েন্সি নির্দেশ করে। লক্ষ্য করুন, F(k) একটি জটিল সংখ্যা : এর আপাত মান আমাদের ফাংশনের প্রশস্ততা দেয়, এবং এর ফেজ কোসাইন ও সাইন উপাদানগুলোর মধ্যে ফেজ-বিচ্যুতি নির্ধারণ করে।

এর বিপরীত রূপান্তর হলো:

ফুরিয়ার রূপান্তর: সাইন-তরঙ্গের একটি যোগফল যেকোনো পুনরাবৃত্ত তরঙ্গরূপ গঠন করতে পারে।

যদি ডেটা একটি নির্দিষ্ট স্যাম্পলিং ফ্রিকোয়েন্সিতে নমুনা নেওয়া হয় এবং মোট N টি ডেটা পয়েন্ট থাকে,

তাহলে গুণনীয়কগুলো Fn পাওয়া যাবে এইভাবে:

যেহেতু এখানে ডেটা পয়েন্টের সংখ্যা ও তরঙ্গ সংখ্যা উভয়ই সসীম ও বিযুক্ত, এই রূপান্তরকে বলা হয় বিযুক্ত ফুরিয়ার রূপান্তর (DFT)। আর ফাস্ট ফুরিয়ার ট্রান্সফর্ম (FFT) DFT-এর একটি বিশেষ রূপ, যেখানে পয়েন্ট সংখ্যা একটি ২-এর ঘাত:

লক্ষ্য করুন, প্রতিটি একটি জটিল সংখ্যা: এর মান নির্দেশ করে সংশ্লিষ্ট ফ্রিকোয়েন্সি উপাদানের প্রশস্ততা; আর এর ফেজ নির্দেশ করে সংশ্লিষ্ট ফেজ (ইলাস্ট্রেশন দেখুন)। যদি টাইম ডোমেইনে "f(t)" বাস্তব মানবিশিষ্ট হয়, যেমন অধিকাংশ পরিমাপকৃত ডেটার ক্ষেত্রে হয়, তাহলে সংশ্লিষ্ট ফ্রিকোয়েন্সি উপাদানগুলোর উপর একটি সীমাবদ্ধতা আরোপিত হয়: তখন আমরা পাই

প্রায়শ বিভ্রান্তির উৎস হলো এই প্রশ্নটি: “ কোন ফ্রিকোয়েন্সির সাথে সম্পর্কিত?” যদি N টি ডেটা পয়েন্ট থাকে এবং স্যাম্পলিং পিরিয়ড হয় , তবে ফ্রিকোয়েন্সি হবে


অর্থাৎ, সর্বনিম্ন ফ্রিকোয়েন্সি হলো [Hz-এ], এবং নাইকুইস্ট-শ্যানন উপপাদ্যের কারণে সর্বোচ্চ স্বাধীন ফ্রিকোয়েন্সি হলো । লক্ষ্য করুন, MATLAB-এ প্রথম রিটার্ন মানটি ফাংশনের অফসেট নির্দেশ করে, আর দ্বিতীয়টি n=1 এর জন্য।

জীববৈজ্ঞানিক সংকেতের স্পেকট্রাল বিশ্লেষণ

[সম্পাদনা]

স্থির সংকেতের পাওয়ার স্পেকট্রাম

[সম্পাদনা]

বেশিরভাগ FFT ফাংশন ও অ্যালগোরিদম জটিল ফুরিয়ার গুণনীয়ক প্রদান করে। যদি আমরা শুধুমাত্র সংশ্লিষ্ট ফ্রিকোয়েন্সিতে অবদানের মাত্রা জানতে চাই, তাহলে আমরা তা নিম্নরূপে নির্ণয় করতে পারি:

এটি আমাদের সংকেতের পাওয়ার স্পেকট্রাম এবং এটি জানায় বিভিন্ন ফ্রিকোয়েন্সির অবদান কতটা বড়।

অ-স্থির সংকেতের পাওয়ার স্পেকট্রাম

[সম্পাদনা]

প্রায়ই এমন সংকেত নিয়ে কাজ করতে হয় যেগুলোর বৈশিষ্ট্য সময়ের সাথে পরিবর্তিত হয়। সে ক্ষেত্রে, সময়ের সাথে সাথে পাওয়ার স্পেকট্রামের পরিবর্তন জানার প্রয়োজন হয়। সবচেয়ে সহজ উপায় হলো প্রতি সময়ে শুধুমাত্র একটি ছোট অংশের ডেটা নেওয়া এবং তার জন্য পাওয়ার স্পেকট্রাম গণনা করা। এই পদ্ধতিকে বলা হয় শর্ট টাইম ফুরিয়ার ট্রান্সফর্ম (STFT)

তবে এতে প্রান্তিক প্রভাব সংকেতকে বিকৃত করতে পারে, কারণ আমরা ধরে নিচ্ছি আমাদের সংকেতটি পর্যায়বৃত্ত।

"হ্যানিং উইন্ডো"

প্রান্তিক বিকৃতি দূর করার জন্য সংকেতকে ছেঁকে, বা "উইন্ডো করা" যায় (w:উইন্ডো_ফাংশন)। এমন একটি উইন্ডোর উদাহরণ উপরের চিত্রে প্রদর্শিত হয়েছে। কিছু উইন্ডো ভালো ফ্রিকোয়েন্সি রেজোলিউশন প্রদান করে (যেমন: আয়তাকার উইন্ডো), আবার কিছুতে কম বিকৃতি দেখা যায়, যেমন স্পেকট্রাল লিকেজ (যেমন: হ্যানিং উইন্ডো)।

সংকেতের একটি নির্বাচিত অংশের জন্য, উইন্ডো প্রয়োগ করার ফলে প্রাপ্ত ডেটা হয় সংকেত ও উইন্ডোর গুণফল (বাম চিত্রে দেখানো হয়েছে):

একটি সংকেত উইন্ডো করার প্রভাব।

ডান চিত্রে দেখানো হয়েছে, কীভাবে একটি সংকেত কেটে নিয়ে তাতে উইন্ডো প্রয়োগ করলে স্পেকট্রাল পাওয়ার বণ্টনে প্রভাব পড়ে। (সম্পর্কিত পাইথন কোড পাওয়া যাবে [] এবং লক্ষ্য করুন, নমুনা উইন্ডোর প্রস্থ কমালে সংশ্লিষ্ট পাওয়ার স্পেকট্রামের প্রস্থ বেড়ে যায়।

একক সময় উইন্ডোর জন্য উদ্দীপনার তীব্রতা
[সম্পাদনা]

একটি নির্দিষ্ট সময় উইন্ডোর জন্য পাওয়ার স্পেকট্রাম পেতে হলে প্রথম ধাপে সময়-সঙ্কেতের ফাস্ট ফুরিয়ার ট্রান্সফর্ম (FFT) ব্যবহার করে পাওয়ার স্পেকট্রাম গণনা করতে হয়। এর ফলে ফ্রিকোয়েন্সি ডোমেইনে শব্দের তীব্রতা এবং সংশ্লিষ্ট ফ্রিকোয়েন্সিগুলি পাওয়া যায়। দ্বিতীয় ধাপে, সেই তীব্রতাগুলো কয়েকটি নির্দিষ্ট ফ্রিকোয়েন্সিতে কেন্দ্রীভূত করা হয় ("বিনিং")। এর ফলে শব্দ সংকেতটি কয়েকটি নির্দিষ্ট ফ্রিকোয়েন্সি নিয়ে গঠিত হয় – যা সিমুলেটেড ককলিয়ায় ইলেক্ট্রোডগুলোর অবস্থান নির্দেশ করে। সময় ডোমেইনে পুনরায় রূপান্তর করলে ঐ সময় উইন্ডোর জন্য সিমুলেটেড শব্দ সংকেত পাওয়া যায়।

নিচের পাইথন ফাংশনটি একটি প্রদত্ত সংকেতের উপর শব্দ প্রক্রিয়াকরণ সম্পাদন করে।

import numpy as np

def pSpect(data, rate):
    '''হ্যামিং উইন্ডো ব্যবহার করে পাওয়ার স্পেকট্রাম এবং সংশ্লিষ্ট ফ্রিকোয়েন্সি গণনা'''
    nData = len(data)
    window = np.hamming(nData)
    fftData = np.fft.fft(data*window)
    PowerSpect = fftData * fftData.conj() / nData
    freq = np.arange(nData) * float(rate) / nData
    return (np.real(PowerSpect), freq)

def calc_stimstrength(sound, rate=1000, sample_freqs=[100, 200, 400]): 
    '''প্রদত্ত শব্দের জন্য উদ্দীপনার তীব্রতা গণনা করুন'''

    # পাওয়ার স্পেকট্রাম গণনা করুন
    Pxx, freq = pSpect(sound, rate)

    # নির্দিষ্ট ফ্রিকোয়েন্সি বিনগুলোর উপর গড় নির্ণয় করার জন্য ম্যাট্রিক্স তৈরি
    num_electrodes = len(sample_freqs)
    sample_freqs = np.hstack((0, sample_freqs))
    average_freqs = np.zeros([len(freq), num_electrodes])
    for jj in range(num_electrodes):
        average_freqs[((freq>sample_freqs[jj]) * (freq<sample_freqs[jj+1])),jj] = 1

    # উদ্দীপনার তীব্রতা গণনা (অ্যামপ্লিটিউড পেতে বর্গমূল নিতে হয়)
    StimStrength = np.sqrt(Pxx).dot(average_freqs)

    return StimStrength

পিন্না এবং বাইরের কানের মাধ্যমে শব্দ পরিবহণ

[সম্পাদনা]

বাইরের কান দুইটি অংশে বিভক্ত: মাথার পাশে দৃশ্যমান অংশ (পিন্না), এবং বহিঃকর্ণ শ্রবণনালি, যা কানের পর্দার দিকে নিয়ে যায়, যেমন নিচের চিত্রে দেখানো হয়েছে। এই গঠন দ্বারা বাইরের কান শব্দের অবস্থান নির্ধারণে 'স্পেকট্রাল সংকেত' প্রদান করে, যার ফলে মানুষ শুধু শব্দ সনাক্ত এবং চিহ্নিত করতে পারে না, বরং শব্দ উৎস কোথায় সেটিও নির্ধারণ করতে পারে।[]

মানব কানের শারীরস্থান

পিন্নার কার্যকারিতা

[সম্পাদনা]

পিন্নার শঙ্কু আকৃতি এটি শব্দ তরঙ্গ সংগ্রহ করতে এবং সেগুলো বহিঃকর্ণ শ্রবণনালিতে প্রবাহিত করতে সাহায্য করে। এর উপর, পিন্নার বিভিন্ন ভাঁজ এটিকে একটি অনুরণনকারী গহ্বরে রূপান্তর করে, যা নির্দিষ্ট ফ্রিকোয়েন্সিগুলোকে প্রবল করে তোলে। তদুপরি, পিন্নার কারণে শব্দ প্রতিফলনের ফলে সৃষ্ট হস্তক্ষেপ প্রভাবগুলি দিকনির্ভর হয় এবং কিছু ফ্রিকোয়েন্সিকে দুর্বল করে দেয়। অতএব, পিন্নাকে আগত শব্দের উপর একটি ফিল্টার ফাংশনের মতো আচরণকারী হিসেবে ধরা যেতে পারে, যা তার অ্যামপ্লিটিউড এবং ফেজ স্পেকট্রা পরিবর্তন করে।

পিন্নার দ্বারা দুটি ভিন্ন দিক থেকে আগত শব্দের জন্য ফ্রিকোয়েন্সি প্রতিক্রিয়া []

পিন্নার গহ্বরের অনুরণন মোটামুটি ছয়টি স্বাভাবিক মোড দ্বারা ব্যাখ্যা করা যায়।[] এই মোডগুলোর মধ্যে, প্রথম মোড – যা মূলত কনকার গভতার উপর নির্ভর করে (অর্থাৎ, পিন্নার কানের নালির নিকটবর্তী থালা-আকৃতির অংশের গভতা) – সবচেয়ে গুরুত্বপূর্ণ।


পিন্নার প্রতিফলনের ফলে নির্দিষ্ট কিছু ফ্রিকোয়েন্সির বাতিল হওয়াকে “পিন্না নচ” বলা হয়।[] ডান দিকের চিত্রে দেখানো হয়েছে [], পিন্না দ্বারা পরিবাহিত শব্দ দুটি পথে যায় – একটি সরাসরি পথ এবং একটি দীর্ঘ প্রতিফলিত পথ। এই পথদ্বয়ের দৈর্ঘ্য আলাদা, যার ফলে তারা ফেজ পার্থক্য সৃষ্টি করে। যখন আগত শব্দ সংকেতের ফ্রিকোয়েন্সি এমন হয় যে পথের পার্থক্য শব্দ তরঙ্গদৈর্ঘ্যের অর্ধেকের সমান হয়, তখন সরাসরি ও প্রতিফলিত পথের শব্দের হস্তক্ষেপ ধ্বংসাত্মক হয়। এই ঘটনাটিকে “পিন্না নচ” বলা হয়। সাধারণত এই নচ ফ্রিকোয়েন্সি ৬ কিহার্জ থেকে ১৬ কিহার্জ পর্যন্ত যেকোনো জায়গায় ঘটতে পারে, এবং এটি পিন্নার আকৃতির উপর নির্ভর করে। আরও দেখা যায়, পিন্নার ফ্রিকোয়েন্সি প্রতিক্রিয়া দিকনির্ভর, যা শব্দ অবস্থান নির্ধারণের জন্য স্থানিক সংকেত সরবরাহ করে।


কানের ছিদ্রের কার্যাবলী

[সম্পাদনা]

বাহ্যিক কানের ছিদ্র প্রায় ২৫ মিমি লম্বা এবং ৮ মিমি ব্যাসবিশিষ্ট, যা কানের প্রবেশপথ থেকে কানের পর্দা পর্যন্ত একটি ঘূর্ণায়মান পথ তৈরি করে। বাহ্যিক কানের ছিদ্রকে এক প্রান্তে বন্ধ একটি নলের মতো মডেল করা যায়, যার ফলে এটি প্রায় ৩ কিহার্জ ফ্রিকোয়েন্সিতে অনুরণিত হয়। এইভাবে, বাহ্যিক কানের ছিদ্র এমন একটি ফ্রিকোয়েন্সি পরিসরে শব্দকে বর্ধিত করে, যা মানুষের বাকভঙ্গির জন্য গুরুত্বপূর্ণ। []

বাহ্যিক কানের অনুকরণ

[সম্পাদনা]

বাহ্যিক কানের মূল কার্যাবলির ভিত্তিতে, যদি ফিল্টারের বৈশিষ্ট্যগুলি জানা থাকে, তবে কানছত্র এবং বাহ্যিক কানের ছিদ্র দ্বারা শব্দ সঞ্চালনকে একটি ফিল্টার বা ফিল্টার ব্যাংকের মাধ্যমে সহজেই অনুকরণ করা যায়।

অনেক গবেষক মানব শ্রবণ ব্যবস্থার অনুকরণের উপর কাজ করছেন, যার মধ্যে বাহ্যিক কানের অনুকরণ অন্তর্ভুক্ত। পরবর্তী অধ্যায়ে প্রথমে একটি পিনা-সম্পর্কিত স্থানান্তর ফাংশন মডেল উপস্থাপন করা হয়েছে, যার পরে ফিনল্যান্ড এবং যুক্তরাজ্যের গবেষণা গোষ্ঠী কর্তৃক উন্নীত দুটি MATLAB টুলবক্স ব্যাখ্যা করা হয়েছে।

স্প্যানিওলের PRTF (পিনা-সম্পর্কিত স্থানান্তর ফাংশন) মডেল

[সম্পাদনা]

এই অংশটি সম্পূর্ণরূপে এস.স্প্যাগনল, এম. গেরোনাজ্জো এবং এফ. আভানজিনি কর্তৃক প্রকাশিত একটি গবেষণাপত্র থেকে নেওয়া হয়েছে। []

কানছত্রের কার্যাবলী মডেল করার জন্য, স্প্যানিওল একটি পিনা-সম্পর্কিত স্থানান্তর ফাংশন(PRTF) পুনর্গঠন মডেল তৈরি করেন, যা একটি ফ্রিকোয়েন্সি প্রতিক্রিয়া যা বর্ণনা করে কিভাবে কানছত্র শব্দকে রূপান্তর করে। এই মডেল দুটি স্বতন্ত্র ফিল্টার ব্লকে গঠিত, যথা: অনুরণন ফাংশন এবং প্রতিফলন ফাংশন, যেগুলো নিচের চিত্রে প্রদর্শিত হয়েছে।

PRTF পুনর্গঠনের সাধারণ মডেল[]

কানছত্রের প্রাসঙ্গিক ফ্রিকোয়েন্সি পরিসরে দুটি প্রধান অনুরণন থাকে[], যেগুলো দুটি নির্দিষ্ট ব্যান্ডউইডথবিশিষ্ট দ্বিতীয়-স্তরের পীক ফিল্টার দ্বারা উপস্থাপন করা যায় []: : যেখানে


 :

এবং হলো নমুনা গ্রহণ ফ্রিকোয়েন্সি, হলো কেন্দ্র ফ্রিকোয়েন্সি এবং হলো নচ গভীরতা।

প্রতিফলন অংশের জন্য, তিনটি দ্বিতীয়-স্তরের নচ ফিল্টার ডিজাইন করা হয়েছে [], যাদের প্যারামিটারে অন্তর্ভুক্ত রয়েছে কেন্দ্র ফ্রিকোয়েন্সি , নচ গভীরতা , এবং ব্যান্ডউইডথ : : যেখানে আগের মতো সংজ্ঞায়িত, এবং : : :

প্রতিটি নচ ভিন্ন ভিন্ন স্পেকট্রাল ফ্রিকোয়েন্সিকে উপস্থাপন করে।

তিনটি ধারাবাহিক নচ ফিল্টারকে দুটি প্যারালাল পীক ফিল্টারের পর সিরিজে যুক্ত করে একটি অষ্টম-ক্রমের ফিল্টার তৈরি করা হয় যা PRTF মডেল করে।
মূল PRTF এর সঙ্গে সিনথেটিক PRTF তুলনা করে স্প্যানিওল উপসংহারে আসেন যে, এই মডেলটি সামগ্রিকভাবে কার্যকর। তবে কাটা ফ্রিকোয়েন্সির সীমাবদ্ধতার কারণে কিছু নচ অনুপস্থিত থাকতে পারে এবং অনুকরণকৃত নয় এমন অনুরণনের কারণে আনুমানিক ত্রুটি দেখা দিতে পারে।

মূল বনাম সিনথেটিক PRTF প্লটসমূহ[]

HUTear MATLAB টুলবক্স

[সম্পাদনা]
HUTear-এর সাধারণ শ্রবণ মডেলের ব্লক ডায়াগ্রাম

HUTear একটি MATLAB টুলবক্স যা শ্রবণ মডেলিংয়ের জন্য অ্যাকোস্টিকস এবং অডিও সিগন্যাল প্রসেসিংয়ের ল্যাব দ্বারা হেলসিঙ্কি ইউনিভার্সিটি অফ টেকনোলজি-এ উন্নয়ন করা হয়েছে []। এই ওপেন সোর্স টুলবক্সটি এখানে থেকে ডাউনলোড করা যেতে পারে। টুলবক্সটির কাঠামো ডান পাশে প্রদর্শিত চিত্রে দেখানো হয়েছে। এই মডেলে, একটি “বাইরের এবং মধ্যকর্ণ” (OME) সিমুলেশনের জন্য ব্লক রয়েছে। এই OME মডেলটি গ্লাসবার্গ এবং মুরের উপর ভিত্তি করে তৈরি [১০]। এই OME ফিল্টার সাধারণত একটি রৈখিক ফিল্টার। শ্রবণ ফিল্টারটি "৬০ ডিবি" (ELC)/"ন্যূনতম শ্রবণযোগ্য ক্ষেত্র" (MAF)/"কর্ণ খালে ন্যূনতম শ্রবণযোগ্য চাপ" (MAP) এ সমান উচ্চতার বক্ররেখা সংশোধন বিবেচনায় নিয়ে তৈরি করা হয়। এই মডেলটি বহিঃকর্ণ অনুকরণ করে। "OEMtool" দ্বারা বিভিন্ন প্যারামিটার নির্ধারণ করে আপনি MAP IIR আনুমানিককরণ এবং MAP ডেটার তুলনা করতে পারেন, যেমন নিচের চিত্রে দেখানো হয়েছে।

HUTear টুলবক্সের OEMtool-এর UI

শ্রবণ পেরিফেরির MATLAB মডেল (MAP)

[সম্পাদনা]

MAP একটি কম্পিউটার মডেল যা মানব শ্রবণ ব্যবস্থার শারীরবৃত্তীয় ভিত্তির উপর ভিত্তি করে তৈরি, এবং এটি হিয়ারিং রিসার্চ ল্যাব, ইউনিভার্সিটি অফ এসেক্স, ইংল্যান্ড-এ তৈরি হয়েছে [১১]। এটি একটি ওপেন-সোর্স কোড প্যাকেজ যা পরীক্ষার জন্য এবং মডেল উন্নয়নের জন্য ব্যবহৃত হয় এবং এখানে থেকে ডাউনলোড করা যায়। মডেলটির কাঠামো ডানদিকে প্রদর্শিত চিত্রে দেখানো হয়েছে।

MAP মডেলের কাঠামো

MAP মডেলের মধ্যে একটি “বাইরের মধ্যকর্ণ (OME)” উপ-মডেল রয়েছে, যা ব্যবহারকারীকে একটি OME মডেল পরীক্ষা ও তৈরি করতে দেয়। এই OME মডেলে, বহিঃকর্ণের কার্যকারিতা একটি অনুরণন ফাংশন হিসেবে মডেল করা হয়েছে। অনুরণন দুটি সমান্তরাল ব্যান্ডপাস ফিল্টার দ্বারা গঠিত, যথাক্রমে কনচা অনুরণন এবং বহিঃকর্ণ নালি অনুরণন উপস্থাপন করে। এই দুটি ফিল্টার পাস ফ্রিকোয়েন্সি রেঞ্জ, লাভ এবং অর্ডার দ্বারা নির্ধারিত হয়। অনুরণন ফিল্টারের আউটপুট মূল শব্দচাপ তরঙ্গের সঙ্গে যোগ করে বহিঃকর্ণ মডেলের আউটপুট পাওয়া যায়।

OME মডেল পরীক্ষা করতে, “testOME.m” নামক ফাংশনটি চালান। একটি চিত্র প্রদর্শিত হবে যেখানে বহিঃকর্ণ অনুরণন এবং স্ট্যাপেসের শীর্ষ স্থানচ্যুতি দেখানো হবে (যেমন নিচের চিত্রে দেখানো হয়েছে)।

MAP মডেলের OME থেকে বহিঃকর্ণ অনুরণন এবং স্ট্যাপেসের শীর্ষ স্থানচ্যুতি

সারসংক্ষেপ

[সম্পাদনা]

বহিঃকর্ণ, যা পিনা এবং বহিঃকর্ণ নালিকে অন্তর্ভুক্ত করে, একটি রৈখিক ফিল্টার বা ফিল্টার ব্যাংক হিসেবে সিমুলেট করা যায়। এটি আগত শব্দে এর অনুরণন ও প্রতিফলন প্রভাব প্রতিফলিত করে। লক্ষ্যণীয় বিষয় হলো পিনার গঠন ব্যক্তি ভেদে পরিবর্তিত হয়, ফলে মডেল প্যারামিটার যেমন অনুরণন ফ্রিকোয়েন্সি, ব্যক্তিনির্ভর হয়ে থাকে।

একটি গুরুত্বপূর্ণ দিক যা উপরোক্ত মডেলগুলিতে অন্তর্ভুক্ত নয় তা হলো মাথা সম্পর্কিত স্থানান্তর ফাংশন(HRTF)। HRTF বর্ণনা করে কিভাবে একটি কান স্থানিক শব্দ উৎস থেকে একটি শব্দ গ্রহণ করে। এটি এখানে অন্তর্ভুক্ত করা হয়নি কারণ এটি শুধুমাত্র বহিঃকর্ণের (পিনা এবং বহিঃকর্ণ নালি) প্রভাব নয়, বরং মাথা ও ধড়ের প্রভাবেও প্রভাবিত হয়। আগ্রহী পাঠকদের জন্য HRTF বিষয়ে প্রচুর সাহিত্য ও প্রকাশনা রয়েছে (উইকি, টিউটোরিয়াল 1, 2, স্থানিক অডিও গবেষণার জন্য পঠন তালিকা যার মধ্যে HRTF রয়েছে)।


অন্তঃকর্ণের অনুকরণ

[সম্পাদনা]

বেসিলার ঝিল্লির আকৃতি ও বিন্যাস এমনভাবে গঠিত যে বিভিন্ন ফ্রিকোয়েন্সি ঝিল্লির বিভিন্ন স্থানে বিশেষভাবে প্রতিধ্বনিত হয়। এর ফলে ঝিল্লির বরাবর ফ্রিকোয়েন্সি পরিসরের প্রতি সংবেদনশীলতা একধরনের টোনোটপিক সংগঠন ধারণ করে, যা একগুচ্ছ অভারল্যাপিং ব্যান্ড-পাস ফিল্টার হিসেবে মডেল করা যায়, যেগুলোকে "শ্রাবণ ফিল্টার" বলা হয়।[১২]

শ্রাবণ ফিল্টারগুলি বেসিলার ঝিল্লির নির্দিষ্ট বিন্দুর সাথে সম্পর্কিত এবং শ্রবণযন্ত্রের ফ্রিকোয়েন্সি নির্বাচন ক্ষমতা নির্ধারণ করে, যা একজন শ্রোতার বিভিন্ন শব্দ পার্থক্য করার দক্ষতা নির্ধারণ করে।[১৩] এই ফিল্টারগুলো নন-লিনিয়ার, স্তর-নির্ভর এবং এর ব্যান্ডউইড্থ কোক্লিয়ার গোড়া থেকে শীর্ষ পর্যন্ত কমে যায়, কারণ বেসিলার ঝিল্লির টিউনিং উচ্চ থেকে নিম্ন ফ্রিকোয়েন্সিতে পরিবর্তিত হয়।[১৩][১৪]

শ্রাবণ ফিল্টারের ব্যান্ডউইড্থকে ক্রিটিকাল ব্যান্ডউইড্থ বলা হয়, যা প্রথমে ফ্লেচার ১৯৪০ সালে প্রস্তাব করেন। যদি একটি সংকেত এবং মাস্কার একসাথে উপস্থাপিত হয়, তবে কেবলমাত্র মাস্কারের সেই ফ্রিকোয়েন্সিগুলি যা ক্রিটিকাল ব্যান্ডউইড্থের মধ্যে পড়ে, সংকেতকে মাস্ক করে। ব্যান্ডউইড্থ যত বড়, সংকেত-টু-নয়েজ রেশিও (SNR) তত কম হয় এবং সংকেতটি তত বেশি মাস্ক হয়।

ERB বনাম কেন্দ্র ফ্রিকোয়েন্সি। ডায়াগ্রামে গ্লাসবার্গ ও মুর-এর সূত্র অনুযায়ী কেন্দ্র ফ্রিকোয়েন্সির বিপরীতে ERB দেখানো হয়েছে।[১৩]

শ্রাবণ ফিল্টারের সাথে সম্পর্কিত একটি আরেকটি গুরুত্বপূর্ণ ধারণা হলো সমতুল্য আয়তক্ষেত্রাকার ব্যান্ডউইড্থ (ERB)। ERB শ্রাবণ ফিল্টার, ফ্রিকোয়েন্সি এবং ক্রিটিকাল ব্যান্ডউইড্থের মধ্যে সম্পর্ক দেখায়। এটি ঐ শ্রাবণ ফিল্টারটির সমান পরিমাণ শক্তি প্রেরণ করে এবং দেখায় কিভাবে এটি ইনপুট ফ্রিকোয়েন্সির সাথে পরিবর্তিত হয়।[১৩]

নিম্ন শব্দ স্তরে, গ্লাসবার্গ ও মুর-এর সূত্র অনুযায়ী ERB-কে নিম্নলিখিত সমীকরণ দ্বারা প্রায় নির্ণয় করা যায়:[১৩]

এখানে ERB-এর একক হর্ৎজ (Hz) এবং F হলো কেন্দ্র ফ্রিকোয়েন্সি কিলোহর্ৎজে (kHz)।

ধারণা করা হয় যে প্রতিটি ERB প্রায় ০.৯ মিমি বেসিলার ঝিল্লির দৈর্ঘ্যের সমান।[১৩][১৪]

গামাটোন ফিল্টার

[সম্পাদনা]
একটি গামাটোন ইম্পালস রেসপন্সের নমুনা

শ্রাবণ ফিল্টার মডেল করার জন্য একটি ব্যবহৃত ফিল্টার হলো গামাটোন ফিল্টার। এটি নির্দিষ্ট একটি বেসিলার ঝিল্লির বিন্দুর গতিবিধি বর্ণনা করার জন্য একটি সাধারণ লিনিয়ার ফিল্টার প্রদান করে এবং সহজেই বাস্তবায়নযোগ্য। লিনিয়ার ফিল্টারগুলি শ্রাবণ ব্যবস্থার বিভিন্ন দিক মডেল করার জন্য জনপ্রিয়। সাধারণত, এগুলো IIR ফিল্টার অর্থাৎ অসীম ইম্পালস রেসপন্স ফিল্টার, যেগুলো ফিডফরওয়ার্ড ও প্রতিক্রিয়া উভয়ই অন্তর্ভুক্ত করে এবং নিচের সমীকরণ দ্বারা সংজ্ঞায়িত হয়:

যেখানে

অর্থাৎ, এবং গুণাঙ্কগুলো এই ফিল্টারের ধরন নির্ধারণ করে। এই ফিল্টারগুলোর ফিডব্যাক প্রকৃতি আরও স্পষ্টভাবে বোঝাতে সমীকরণটি পুনঃগঠন করা যায়:

(বিপরীতে, FIR ফিল্টার– সীমাবদ্ধ আবেগ প্রতিক্রিয়া ফিল্টার– কেবল ফিডফরওয়াড অংশ নিয়ে গঠিত: সেক্ষেত্রে হয় i > 1 এর জন্য।)

IIR ফিল্টারের সাধারণ বর্ণনা

লিনিয়ার ফিল্টার শ্রাবণ ব্যবস্থার নন-লিনিয়ার দিকগুলি মডেল করতে পারে না, তবুও সেগুলো বহু শ্রাবণ মডেলে ব্যবহৃত হয়। গামাটোন ইম্পালস রেসপন্স নিচের রূপে প্রকাশ করা যায়:

যেখানে: = ফ্রিকোয়েন্সি, = ক্যারিয়ারের ফেজ, = এম্প্লিটিউড, = ফিল্টারের অর্ডার, = ফিল্টারের ব্যান্ডউইড্থ, = সময়।

এটি একটি সাইন ওয়েভ যার এম্প্লিটিউড এনভেলপ গামা বন্টন ফাংশনের স্কেলকৃত রূপ।

গামাটোন মডেলের বিভিন্ন রূপ ও উন্নত সংস্করণগুলো হল: গামাচার্প ফিল্টার, অল-পোল ও ওয়ান-জিরো গামাটোন ফিল্টার, টু-সাইডেড গামাটোন ফিল্টার, ফিল্টার ক্যাসকেড মডেল, এবং স্তরনির্ভর ও গতিশীল নন-লিনিয়ার সংস্করণ।[১৫]

কম্পিউটার সিমুলেশনের জন্য, গামাটোন ফিল্টারের দক্ষ বাস্তবায়ন ম্যাটল্যাব ও পাইথনের জন্য উপলব্ধ।[১৬]

গামাটোন ফিল্টার ব্যবহারের সময়, নির্দিষ্ট একটি ফ্রিকোয়েন্সি ব্যান্ডে শক্তি নির্ধারণের জন্য পার্সেভালের উপপাদ্য ব্যবহার করা যায়:


শ্রাব্য অডিও সংকোচন এবং ককলিয়ার ছাঁকনি বৈশিষ্ট্য

[সম্পাদনা]

এই পাতায় শ্রাব্য অডিও সংকোচনের নীতি এবং প্রক্রিয়াগুলোর পর্যালোচনা করা হয়েছে। এর অন্তর্নিহিত সাইকোঅ্যাকুস্টিক নীতিমালা ব্যাখ্যা করা হয়েছে। ককলিয়ার ছাঁকনি বৈশিষ্ট্য ও উচ্চতর কর্টিকাল প্রক্রিয়াকরণ ধাপগুলোর সঙ্গে সম্পর্ক তুলে ধরা হয়েছে।

শ্রাব্য অডিও সংকোচন

[সম্পাদনা]

এমপিথ্রি (MPEG-1 লেয়ার ৩, যা MPEG-2 ও MPEG-4 অ্যাডভান্সড অডিও কোডিং (AAC)-এর পূর্বসূরি) সম্ভবত এখনও সবচেয়ে পরিচিত অডিও ফরম্যাট, যা অডিও সংকেতের শ্রাব্য সংকোচনের সুবিধা গ্রহণ করে। AAC একটি অধিক কার্যকর সম্প্রসারণ, যা সাধারণত আরও ভালো শব্দমান সরবরাহ করে, বিস্তৃত ব্যান্ডউইথের পরিসর অনুমোদন করে, কিন্তু এমপিথ্রির অনুরূপ কোডিং নীতির ওপর নির্ভরশীল। উভয় ফরম্যাট ISO ও IEC দ্বারা মান্যতা প্রাপ্ত, তবে শুধুমাত্র ডিকোডার সম্পূর্ণভাবে নির্ধারিত এবং এনকোডার বাস্তবায়ন উন্মুক্ত রাখা হয়েছে। এর ফলে বিভিন্ন ধরনের এনকোডার তৈরি হয়েছে, যেগুলোর পুনরুৎপাদন গুণমান, বিট-রেট, কর্মক্ষমতা এবং কোডিং দক্ষতায় পার্থক্য থাকে [১৭]

প্রচলিত সংকেত সংকোচন অ্যালগরিদমের সঙ্গে তুলনায়, যেখানে লক্ষ্য থাকে সর্বনিম্ন বিট ব্যবহার করে সংকেতের গুণমান বজায় রাখা, শ্রাব্য অডিও সংকোচন মানব শ্রবণতন্ত্র সম্পর্কে বিদ্যমান জ্ঞানের সুবিধা নিয়ে সেই তথ্য বাদ দেয় যা অধিকাংশ শ্রোতার কাছে শ্রাব্য নয়। এই লসি সংকোচন মানব শ্রবণতন্ত্রের বৈশিষ্ট্য এবং পরিসংখ্যানগত অতিরিক্ততার ভিত্তিতে সম্পাদিত হয়। এমপিথ্রির জন্য সাধারণত ব্যবহৃত কোডিং বিটরেট ১২৮ কেবিপিএস এবং দক্ষ এনকোডারগুলো সাধারণত প্রায় ১০ গুণ ডেটা হ্রাস করতে পারে, যখন সিডি-মানের অডিও (১৬ বিট পিসিএম, ৪৪.১ কেএইচজেড, ≈ ১৪১১ কেবিপিএস) সংকোচন করা হয়। অন্যভাবে বললে, একটি সিডি-তে সংরক্ষিত প্রায় ৯০% তথ্য শ্রোতা উপলব্ধি করতে পারে না। সিডি-মানই সাধারণত সঙ্গীত শোনার ক্ষেত্রে শ্রোতারা প্রত্যাশা করে (সিডি-মান আসলে এনালগ অডিওর যথাযথ পুনরুৎপাদনের জন্য যথেষ্ট কিনা তা নিয়ে দীর্ঘ বিতর্ক রয়েছে। এই দুইটি রেফারেন্স[১৭][১৮] আগ্রহীদের জন্য পাঠযোগ্য হতে পারে)। অধিক কার্যকর অডিও সংকোচনের প্রয়োজনীয়তা নেটওয়ার্ক, মাল্টিমিডিয়া সিস্টেম ও সংরক্ষণ প্রয়োজনে দেখা দেয় এবং এমপিথ্রি মূলত অডিওভিজ্যুয়াল কনটেন্ট আরও দক্ষভাবে স্থানান্তরের জন্য তৈরি হয়।

শ্রাব্য অডিও সংকোচনের তাত্ত্বিক সীমা জনস্টন[১৯] কর্তৃক অন্বেষণ করা হয়েছিল, যার ফলে ইন্দ্রিয়গ্রাহ্য এনট্রপি ধারণার জন্ম হয়। পরিমাপের ভিত্তিতে এই শ্রাব্য এনট্রোপি প্রায় ২ বিট/স্যাম্পল হিসাবে নির্ধারিত হয় সিডি-মানের অডিওর জন্য। আধুনিক এনকোডারগুলো এই পর্যায়ের দক্ষতা নিশ্চিত করে যা স্বচ্ছ (নিকট সিডি-মান) অডিও সংকোচন প্রদান করে[২০]। শ্রাব্য সংকোচন অ্যালগরিদমের গুণমান সাধারণত শ্রবণ পরীক্ষার মাধ্যমে এবং সাম্প্রতিক সময়ে শ্রাব্য গুণমানের উদ্দেশ্য মাপক PEAQ (অডিও মানের উপলব্ধিগত মূল্যায়ন) অ্যালগরিদমের সাহায্যে মূল্যায়ন করা হয়।

শ্রাব্য অডিও এনকোডারের মৌলিক স্থাপত্য

[সম্পাদনা]
শ্রাব্য অডিও এনকোডারের মৌলিক স্থাপত্য

বেশিরভাগ শ্রাব্য অডিও এনকোডার উপরের চিত্রে প্রদর্শিত মৌলিক স্থাপত্য দ্বারা বর্ণনা করা যায়। বিশ্লেষণ ফিল্টার ব্যাংক মানব শ্রবণতন্ত্রের সাময়িক এবং বর্ণালী বিশ্লেষণের বৈশিষ্ট্য অনুকরণ করে। ইনপুটকে ফ্রেমে ভাগ করে সেটিকে কিছু প্যারামিটারে রূপান্তর করা হয় যা কোয়ান্টাইজ ও এনকোড করা যায়। কোয়ান্টাইজেশন ও কোডিং ধাপ পরিসংখ্যানগত অতিরিক্ততা নির্ণয় করে এবং বিট বণ্টন ও কোয়ান্টাইজেশন নয়েজের আকার নির্ধারণে শ্রাব্য মডেলের সরবরাহকৃত থ্রেশহোল্ড ব্যবহার করে। শ্রাব্য মডেল ফ্রিকোয়েন্সির ফাংশন হিসেবে মাস্কিং থ্রেশহোল্ড বর্ণনা করে। অবশেষে, এনকোডিং ধাপে লসলেস সংকোচন কৌশল, যেমন হাফম্যান কোডিং ব্যবহৃত হয়। প্রযুক্তিগত অ্যালগরিদম ব্যাখ্যা এবং উদাহরণ বাস্তবায়নের জন্য অনলাইন বই দেখতে পারেন।

পারসেপচুয়াল অডিও কোডিংয়ের জন্য ব্যবহৃত সাইকোঅ্যাকোস্টিক নীতিসমূহ

[সম্পাদনা]

পারসেপচুয়াল অডিও কোডিংয়ের মূল ধারণা হলো কোয়ান্টাইজেশন নয়েজকে এমনভাবে গঠন করা যাতে এটি মূল অডিও সংকেত দ্বারা মাস্ক (আবৃত) হয়ে যায় এবং শ্রোতার কাছে শ্রুতিগোচর না হয়। এটি কিছু সাইকোঅ্যাকোস্টিক নীতির সাহায্যে অর্জিত হয়, যেমনঃ শ্রবণের পরম সীমা, ক্রিটিকাল ব্যান্ড ফ্রিকোয়েন্সি বিশ্লেষণ এবং শ্রবণীয় মাস্কিং[২০]। যেহেতু প্লেব্যাক স্তর কোডিংয়ের সময় প্রায়শই অজানা থাকে, তাই কোডিং প্রক্রিয়ায় সাধারণত শ্রবণের পরম সীমা সম্পর্কিত রক্ষণশীল অনুমান ব্যবহার করে সংকেত স্বাভাবিকীকরণ করা হয়। শ্রবণীয় মাস্কিং এমন একটি ঘটনা যেখানে একটি শব্দের উপস্থিতি অন্য একটি শব্দের শ্রবণ উপলব্ধিকে প্রভাবিত করে। মাস্কিং প্রভাব ফ্রিকোয়েন্সি ডোমেইনে (সমকালীন মাস্কিং) এবং সময় ডোমেইনেও (অসমকালীন মাস্কিং) দেখা যায়।

সমকালীন মাস্কিং

[সম্পাদনা]
Jayant et al.[২১] থেকে গৃহীত। সমকালীন মাস্কিংয়ের জন্য স্প্রেডিং ফাংশন। বিভিন্ন তীব্রতার ১ কিহার্টজ ক্রিটিকাল-ব্যান্ড নয়েজ মাস্কার।

সমকালীন মাস্কিংয়ের ক্ষেত্রে কক্লিয়ার ফ্রিকোয়েন্সি রেজোলিউশন গুরুত্বপূর্ণ ভূমিকা পালন করে। কক্লিয়ার মধ্যে ফ্রিকোয়েন্সি-থেকে-স্থান রূপান্তর ঘটে এবং বিভিন্ন ফ্রিকোয়েন্সি ব্যান্ডে টিউন করা নির্দিষ্ট অঞ্চল সৃষ্টি হয়। এই নির্দিষ্ট ফ্রিকোয়েন্সি অঞ্চলগুলোকে শ্রবণের ক্রিটিকাল ব্যান্ড (বা ক্রিটিকাল ব্যান্ডউইথ) বলা হয়। ক্রিটিকাল ব্যান্ডউইথ প্রায় ৫০০ হার্টজ পর্যন্ত ≈ ১০০ হার্টজ এর কাছাকাছি থাকে এবং এর পরে কেন্দ্রীয় ফ্রিকোয়েন্সির প্রায় ২০% পর্যন্ত বৃদ্ধি পায়।[২০] প্রথম ২৪টি ক্রিটিকাল ব্যান্ড বার্ক স্কেলে বর্ণনা করা হয়েছে। একটি স্বরের উপস্থিতি বাসিলার ঝিল্লিকে উদ্দীপ্ত করে, যা একই ব্যান্ডের আরেকটি স্বর শনাক্ত করার সীমাকে প্রভাবিত করে (ইনট্রা-ব্যান্ড মাস্কিং)। পাশাপাশি পার্শ্ববর্তী ব্যান্ডও প্রভাবিত হয় (ইন্টার-ব্যান্ড মাস্কিং)। পার্শ্ববর্তী ব্যান্ডের এই প্রভাবকে স্প্রেডিং ফাংশন দ্বারা বর্ণনা করা হয়। ডান পাশে চিত্রে একটি ভিন্ন তীব্রতার ক্রিটিকাল-ব্যান্ড নয়েজ মাস্কারের জন্য পরিমাপকৃত স্প্রেডিং ফাংশন দেখানো হয়েছে। চিত্র অনুযায়ী, একটি মাস্কার উচ্চ ফ্রিকোয়েন্সি ব্যান্ড মাস্ক করতে কম ফ্রিকোয়েন্সির চেয়ে বেশি কার্যকর — একে মাস্কিংয়ের ঊর্ধ্বগামী বিস্তার বলা হয়। এই স্প্রেডিং ফাংশনের কারণ হিসেবে কক্লিয়ার যান্ত্রিক ফিল্টার বৈশিষ্ট্যকে দায়ী করা হয়, যেখানে আউটার হেয়ার সেল বাসিলার ঝিল্লির গতি বাড়িয়ে ফ্রিকোয়েন্সি রেজোলিউশন বৃদ্ধি করে[২১]। মাস্কিংয়ের এই ঊর্ধ্বগামী বিস্তারের কারণ এখনও সুস্পষ্ট নয়, এবং যান্ত্রিক উদ্দীপনার পাশাপাশি সাপ্রেশনও ভূমিকা রাখে বলে ধারণা করা হয়[২২]। এছাড়াও, ২ কিহার্টজে দ্বিতীয় পিকের উপস্থিতি (১ কিহার্টজের দ্বিতীয় হারমোনিক) এবং উচ্চ সাউন্ড প্রেশার লেভেলে অভ্যন্তরীণ ও মধ্য-কানের অ-রৈখিক স্থানান্তর বৈশিষ্ট্যও ভূমিকা রাখে[২১]

একটি শক্তিশালী নয়েজ বা স্বর মাস্কারের উপস্থিতি বাসিলার ঝিল্লিতে যথেষ্ট শক্তির উদ্দীপনা তৈরি করে, যার ফলে দুর্বল সংকেতটি নিজস্ব ক্রিটিকাল ব্যান্ডে এবং মাস্কিং বিস্তারের মাধ্যমে পার্শ্ববর্তী ব্যান্ডেও বন্ধ হয়ে যায়। দুটি প্রকারের সমকালীন মাস্কার দেখা গেছে: নয়েজ-মাস্কিং-স্বর এবং স্বর-মাস্কিং-নয়েজ। নয়েজ-মাস্কিং-স্বর ক্ষেত্রে একটি স্বরের উপস্থিতি এমন এক থ্রেশহোল্ড অনুমান করতে সাহায্য করে যা নয়েজ স্পেকট্রামকে মাস্ক করে; আর স্বর-মাস্কিং-নয়েজের ক্ষেত্রে নয়েজের উপস্থিতি স্বরের মাস্কিং থ্রেশহোল্ড অনুমান করতে সাহায্য করে। নিরেট স্বর এবং ক্রিটিকাল-ব্যান্ড সীমাবদ্ধ নয়েজের জন্য ভিন্ন থ্রেশহোল্ড রিপোর্ট করা হয়েছে।[২০] সংগীতের পারসেপচুয়াল কোডিংয়ে এই থ্রেশহোল্ডসমূহকে সময়-ফ্রিকোয়েন্সি বিশ্লেষণের ভিত্তিতে ইন্টারপোলেট করা হয় এবং তার পর স্প্রেডিং ফাংশন প্রয়োগ করা হয়। অবজেক্টিভ সংকেত-টু-নয়েজ অনুপাত (SNR) খুব কম হতে পারে, যেমন ২০ ডিবি, কিন্তু এটি অডিও বিষয়বস্তুর উপর নির্ভর করে, যখন সাবজেক্টিভ SNR যথেষ্ট বেশি হয় যাতে স্বচ্ছ কোডিং সম্ভব হয়।[২১] তুলনায়, একটি অডিও সিডির SNR হলো ৯৬ ডিবি।

অসমকালীন মাস্কিং

[সম্পাদনা]
Jayant et al.[২১] থেকে গৃহীত। অসমকালীন মাস্কিং। একটি আকস্মিক ট্রানজিয়েন্ট সময় ডোমেইনে দুইটি সংকেতের শ্রবণ উপলব্ধিকে প্রভাবিত করে। এই প্রভাব ট্রানজিয়েন্টের আগে (প্রি বা ব্যাকওয়ার্ড মাস্কিং) এবং পরে (পোস্ট বা ফরওয়ার্ড মাস্কিং) উভয় ক্ষেত্রেই ঘটে।

অডিও সংকেতের আকস্মিক পরিবর্তন (বা শক্তিশালী অ্যাটাক) সময় ডোমেইনে মাস্কিং প্রভাব সৃষ্টি করতে পারে। এই প্রভাবটি ট্রানজিয়েন্টের আগে (ব্যাকওয়ার্ড মাস্কিং) এবং পরে (ফরওয়ার্ড মাস্কিং) অনুভূত হয়, যা চিত্রে দেখানো হয়েছে। ব্যাকওয়ার্ড মাস্কিং অঞ্চলের স্থায়িত্ব মিলিসেকেন্ডের পর্যায়ে এবং ফরওয়ার্ড মাস্কিং অঞ্চলের স্থায়িত্ব দশ মিলিসেকেন্ডের পর্যায়ে হয়[২০]

টেম্পোরাল মাস্কিং এখনও সম্পূর্ণরূপে বোঝা যায়নি এবং এটি একটি সক্রিয় গবেষণার বিষয়। তবে প্রমাণ আছে যে উচ্চতর কর্টিকাল প্রক্রিয়াকরণ এই প্রক্রিয়ায় জড়িত। এটি এখনও অনির্ধারিত যে এই প্রভাব শব্দসমূহের সংহতির সাথে, নিউরাল প্রক্রিয়ার বাধা বা বিঘ্নের সাথে এবং/অথবা সংবহনগত পার্থক্যের সাথে সম্পর্কিত কিনা। ফরওয়ার্ড এবং ব্যাকওয়ার্ড মাস্কিংয়ের বৈশিষ্ট্য আলাদা এবং তাই ধারণা করা হয় যে এটি মানব শ্রবণ ব্যবস্থার বিভিন্ন বৈশিষ্ট্য থেকে উদ্ভূত হয়[২৩]

মাস্কিং এবং যৌথ স্টেরিও কোডিং

[সম্পাদনা]

অডিও কোডিংয়ে একটি কার্যকর কৌশল হলো যৌথ স্টেরিও কোডিং। যেহেতু সংগীত সংকেতের জন্য বাম ও ডান অডিও চ্যানেল সাধারণত উচ্চভাবে সম্পর্কিত, তাই অনেক সময় অডিও সংকেতের যোগ/বিয়োগ (L+R, L–R) কোডিং করা অধিক কার্যকর হয়। Mp3-তে এই যোগ/বিয়োগ কোডিংয়ের সম্ভাবনা পুরোপুরি ব্যবহার করা হয়নি; একটি দক্ষ কৌশলে বাম/ডান এবং যোগ/বিয়োগ কোডিংয়ের থ্রেশহোল্ড তুলনা করে গতিশীলভাবে সবচেয়ে কার্যকর পদ্ধতিটি বেছে নেওয়া হতো। মাস্কিং থ্রেশহোল্ড গণনার সময় বিশেষ সতর্কতা অবলম্বন করতে হয়, কারণ যৌথ চ্যানেল কোডিং দ্বিকর্ণ শ্রবণের কারণে শ্রুতিগোচর বিকৃতি তৈরি করতে পারে।[২১]

Mp3 এবং AAC এর জন্য কোডিং বিট রেট নির্বাচন করা হয়, কোন নির্দিষ্ট কম্প্রেশন ফ্যাক্টর নয়, কারণ কম্প্রেশন ফ্যাক্টর বিষয়বস্তুর উপর নির্ভরশীল। একটি নিম্ন বিট রেট উচ্চতর কম্প্রেশন অনুপাত তৈরি করে এবং একটি উচ্চ বিট রেট নিম্নতর কম্প্রেশন অনুপাত তৈরি করে যার ফলে বিকৃতি সম্ভাবনা কমে যায়। এর ফলে নির্দিষ্ট কাজের ক্ষেত্র (বা বিট রেট) তৈরি হয় যেখানে একটি নির্দিষ্ট অ্যালগরিদম সবচেয়ে ভালো কাজ করে এবং উচ্চতর বিট রেটে সামান্য উন্নতি দেখা যায়।[১৭] সিডি প্লেয়ারের নয়েজ ও বিকৃতি আমরা শুনে অভ্যস্ত, কিন্তু পারসেপচুয়াল এনকোডারের শ্রুতিগোচর বিকৃতিগুলো বিরক্তিকর হতে পারে। যদি স্বচ্ছ কোডিংয়ের জন্য বিট রেট যথেষ্ট না হয়, তাহলে উৎপন্ন নয়েজ ও বিকৃতি সময়-ভিত্তিক সিগন্যালের মত শোনা যায়, যেখানে বিকৃতিগুলো হরমোনিকভাবে সম্পর্কিত নয়, নয়েজ ব্যান্ডসীমাবদ্ধ এবং ফ্রেম থেকে ফ্রেমে ব্যান্ডউইথ পরিবর্তিত হওয়ায় সংকেতটি খসখসে শোনাতে পারে।[১৭]

ব্যান্ডউইথ হারানো

[সম্পাদনা]

যদি এনকোডার বিট শেষ করে ফেলে, তখন কম ফ্রিকোয়েন্সির বিষয়বস্তুর নির্ভুল কোডিং ও ব্যান্ডউইথের মধ্যে একটি মৌলিক সমঝোতা তৈরি হয়। এর ফলে কোড করা ফ্রিকোয়েন্সি ব্যান্ডউইথ ফ্রেম থেকে ফ্রেমে পরিবর্তিত হতে পারে, যা অপ্রীতিকর শোনাতে পারে। সাধারণভাবে, এই বিকৃতির প্রতিকার হিসেবে কম বিট রেটের জন্য ব্যান্ডউইথ সীমাবদ্ধ করা হয়।

প্রি-ইকো

[সম্পাদনা]

প্রি-ইকো সবচেয়ে কঠিন ত্রুটি যা এড়ানো কঠিন এবং এটি পারসেপচুয়াল এনকোডারের ফ্রেম সাইজের সঙ্গে সম্পর্কিত। যদি একটি শক্তিশালী অ্যাটাক বা হঠাৎ উচ্চতর শব্দ ফ্রেমের মাঝখানে ঘটে, তাহলে শব্দের জন্য গণনাকৃত থ্রেশহোল্ডটি ব্যাকওয়ার্ড মাস্কিং অঞ্চলের উপর ছড়িয়ে পড়তে পারে ফ্রেম সাইজের কারণে এবং ফলে এটি শ্রুতিগোচর হতে পারে। প্রি-ইকোর ঘটনা কমানোর জন্য বিভিন্ন কৌশল ব্যবহৃত হয়, যেমন পরিবর্তনশীল ফ্রেম সাইজ বিশ্লেষণ ফিল্টারব্যাঙ্ক।[১৭]

কক্লিয়ার ফিল্টার বৈশিষ্ট্যের সাথে সম্পর্ক

[সম্পাদনা]

সারসংক্ষেপে বলা যায়, পারসেপচুয়াল কোডিং মানব শ্রবণ ব্যবস্থার বৈশিষ্ট্যগুলোর ব্যাপক ব্যবহার করে। শ্রবণের পরম সীমা কক্লিয়ার বৈশিষ্ট্য এবং মধ্য ও বাহ্যিক কানের ধ্বনিক ও যান্ত্রিক বৈশিষ্ট্যের সঙ্গে সম্পর্কিত। সমকালীন মাস্কিংয়ে ইনট্রা- এবং ইন্টার-ক্রিটিকাল ব্যান্ড মাস্কিং থ্রেশহোল্ড (স্প্রেডিং ফাংশন) কক্লিয়ার ফিল্টার বৈশিষ্ট্য থেকে উদ্ভূত হয়। তবে, মাস্কিংয়ের ঊর্ধ্বগামী বিস্তার কেবল কক্লিয়ার বৈশিষ্ট্য দ্বারা ব্যাখ্যা করা যায় না এবং অন্যান্য ঘটনা যেমন সাপ্রেশনও ভূমিকা রাখতে পারে। সর্বশেষে, টেম্পোরাল মাস্কিংয়ের ঘটনা শুধুমাত্র উচ্চতর কর্টিকাল প্রক্রিয়াকরণ দ্বারা ব্যাখ্যা করা যায় এবং যৌথ স্টেরিও কোডিং থেকে উদ্ভূত বিকৃতি যেগুলো দ্বিকর্ণ শ্রবণের উপর নির্ভর করে তা প্রমাণ করে যে মানব শ্রবণ ব্যবস্থার বিভিন্ন স্তর এতে জড়িত।

  1. T. Haslwanter (২০১২)। "Short Time Fourier Transform [Python]"private communications 
  2. Semple, M.N. (১৯৯৮), "Auditory perception: Sounds in a virtual world", Nature, Nature Publishing Group, 396 (6713): 721–724, doi:10.1038/25447 
  3. ৩.০ ৩.১ http://tav.net/audio/binaural_sound.htm
  4. ৪.০ ৪.১ Shaw, E.A.G. (১৯৯৭), "Acoustical features of the human ear", Binaural and spatial hearing in real and virtual environments, Mahwah, NJ: Lawrence Erlbaum, 25: 47 
  5. Federico Avanzini (২০০৭–২০০৮), Algorithms for sound and music computing, Course Material of Informatica Musicale (http://www.dei.unipd.it/~musica/IM06/Dispense06/4_soundinspace.pdf), পৃষ্ঠা 432  অজানা প্যারামিটার |1= উপেক্ষা করা হয়েছে (সাহায্য); |title= এ বহিঃসংযোগ দেয়া (সাহায্য)
  6. ৬.০ ৬.১ ৬.২ ৬.৩ Spagnol, S. and Geronazzo, M. and Avanzini, F. (২০১০), "Structural modeling of pinna-related transfer functions", In Proc. Int. Conf. on Sound and Music Computing (SMC 2010), barcelona, পৃষ্ঠা 422-428 
  7. S. J. Orfanidis, ed., Introduction To Signal Processing. Prentice Hall, 1996.
  8. U. Zölzer, ed., Digital Audio Effects. New York, NY, USA: J.Wiley & Sons, 2002.
  9. http://www.acoustics.hut.fi/software/HUTear/
  10. Glasberg, B.R. and Moore, B.C.J. (১৯৯০), "Derivation of auditory filter shapes from notched-noise data", Hearing research, Elsevier, 47 (1-2): 103–138 
  11. http://www.essex.ac.uk/psychology/department/research/hearing_models.html
  12. Munkong, R. (২০০৮), IEEE Signal Processing Magazine, 25 (3), পৃষ্ঠা 98––117, doi:10.1109/MSP.2008.918418, বিবকোড:2008ISPM...25...98M  |শিরোনাম= অনুপস্থিত বা খালি (সাহায্য)
  13. ১৩.০ ১৩.১ ১৩.২ ১৩.৩ ১৩.৪ ১৩.৫ Moore, B. C. J. (১৯৯৮)। Cochlear hearing loss। London: Whurr Publishers Ltd.। আইএসবিএন 0585122563 
  14. ১৪.০ ১৪.১ Moore, B. C. J. (১৯৮৬), "Parallels between frequency selectivity measured psychophysically and in cochlear mechanics", Scand. Audio Suppl. (25), পৃষ্ঠা 129–52 
  15. R. F. Lyon, A. G. Katsiamis, E. M. Drakakis (২০১০)। "History and Future of Auditory Filter Models" (PDF)Proc. ISCAS। IEEE। 
  16. T. Haslwanter (২০১১)। "Gammatone Toolbox [Python]"private communications 
  17. ১৭.০ ১৭.১ ১৭.২ ১৭.৩ ১৭.৪ Karlheinz Brandenburg. Mp3 and aac explained. In Audio Engineering Society Conference: 17th International Conference: High-Quality Audio Coding. Audio Engineering Society, 1999.
  18. J. R. Stuart for Acoustic Renaissance for Audio. A proposal for the high-quality audio application of high-density CD carriers. 1995.
  19. James D Johnston. Estimation of perceptual entropy using noise masking criteria. In Proceedings of the International Conference on Acoustics, Speech, and Signal Processing of the IEEE 1988.
  20. ২০.০ ২০.১ ২০.২ ২০.৩ ২০.৪ Ted Painter and Andreas Spanias. A review of algorithms for perceptual coding of digital audio signals. In Proceedings of the 13th International Conference on Digital Signal Processing of the IEEE 1997.
  21. ২১.০ ২১.১ ২১.২ ২১.৩ ২১.৪ ২১.৫ Nikil Jayant, James Johnston, and Robert Safranek. Signal compression based on models of human perception. Proceedings of the IEEE, 81(10):1385-1422, 1993.
  22. Andrew J Oxenham and Christopher J Plack. Suppression and the upward spread of masking. The Journal of the Acoustical Society of America, 104(6):3500-3510, 1998.
  23. Renata Filippini. Unmasking auditory temporal masking, 2015. http://hearinghealthmatters.org/pathways/2015/unmasking-auditory-temporal-masking/

মানব বাক্‌প্রকাশ

[সম্পাদনা]

স্বরযন্ত্র

[সম্পাদনা]

মানব কণ্ঠস্বর উৎপন্ন হয় স্বরযন্ত্র দ্বারা। যদিও কথা বলা সহজ মনে হয়, এটি ফুসফুস, জিভ, তালু, ঠোঁট ও দাঁতের একটি অত্যন্ত সূক্ষ্ম মোটর সমন্বয় প্রয়োজন করে। কর্টিকাল স্তরে, এই মোটর সমন্বয় ঘটে ব্রোকা'স এলাকা-তে।

মানব স্বরযন্ত্র।


পরিভাষা

[সম্পাদনা]

শব্দের তীব্রতা

[সম্পাদনা]

শব্দের তীব্রতা সাধারণত ডেসিবেল (dB) এ প্রকাশ করা হয়, যা সংজ্ঞায়িত:

যেখানে SPL = “সাউন্ড প্রেসার লেভেল” (dB-এ), এবং রেফারেন্স চাপ । লক্ষ্য করুন, এটি বায়ুচাপের তুলনায় অনেক ছোট (প্রায় 105 N/m2)! সতর্ক থাকতে হবে, কারণ শব্দ অনেক সময় "Hearing Level"-এর তুলনায় প্রকাশ করা হয়, SPL নয়।

  • 0 - 20 dB SPL ... শ্রবণস্তর (১ kHz – ৪ kHz এর সাইন তরঙ্গের জন্য ০ dB)
  • 60 dB SPL ... মাঝারি জোরালো শব্দ, কথোপকথনের স্তর

ল্যারিংক্সে স্বরকরার কম্পন থেকে উৎপন্ন মৌলিক ফ্রিকোয়েন্সি প্রাপ্তবয়স্ক পুরুষের ক্ষেত্রে প্রায় ১২০ Hz, নারীর ক্ষেত্রে ২৫০ Hz এবং শিশুদের ক্ষেত্রে ৪০০ Hz পর্যন্ত হতে পারে।

মানব শ্রবণের ক্ষয় র জন্য ফ্রিকোয়েন্সি ও তীব্রতার উপর নির্ভরতা।

ফর্ম্যান্ট

[সম্পাদনা]

ফর্ম্যান্ট হলো মানব বাক্‌প্রকাশের প্রধান ফ্রিকোয়েন্সিগুলি, যা মুখগহ্বর প্রভৃতি অঞ্চলে স্বরকরের সংকেতের অনুরণনের ফলে সৃষ্টি হয়। ফর্ম্যান্টগুলি শব্দের ফ্রিকোয়েন্সি স্পেকট্রামে শক্তির স্বতন্ত্র শিখর হিসেবে প্রকাশ পায়। এগুলিকে নিম্ন ফ্রিকোয়েন্সি থেকে শুরু করে ক্রমানুসারে নম্বর দেওয়া হয়।

একটি স্বরের পাওয়ার স্পেকট্রাম। স্বরকরার কম্পন ভিত্তি ফ্রিকোয়েন্সি নির্ধারণ করে। মানব স্বরযন্ত্রের অনুরণন 'ফর্ম্যান্ট'-এর অবস্থান নির্ধারণ করে। ফর্ম্যান্টগুলির আপেক্ষিক অবস্থান স্বরের ধরন নির্ধারণ করে।
জার্মান স্বরধ্বনি "a,e,i,o,u" এর স্পেক্ট্রোগ্রাম। এগুলি ইংরেজি শব্দ "hut, hat, hit, hot, put" এর স্বরধ্বনির প্রায় সমতুল্য। MATLAB কমান্ড "spectrogram(data, 512,256, 512, fs)" ব্যবহার করে গণনা করা হয়েছে। নিচের অধ্যায় Power Spectrum of Non-stationary Signals এ স্পেকট্রোগ্রামের পেছনের গণিত ব্যাখ্যা করা হয়েছে।

ধ্বনিমূল

[সম্পাদনা]

বাক্‌প্রকাশকে প্রায়ই একটি ক্রমিক শ্রবণাত্মক একক বা "ফোন" এর ধারাবাহিকতা হিসেবে ধরা হয়, যা ভাষাগত একক "ধ্বনিমূল" -এর সাথে সম্পর্কযুক্ত। ধ্বনিমূল হলো শব্দ পার্থক্য করার জন্য সবচেয়ে ছোট শ্রবণ একক। উদাহরণস্বরূপ, "dog" শব্দটিতে তিনটি ধ্বনিমূল রয়েছে। প্রথম, দ্বিতীয় ও তৃতীয় ধ্বনিমূল পরিবর্তন করলে যথাক্রমে "log", "dig" এবং "dot" পাওয়া যায়। ইংরেজিতে প্রায় ৪০টি ধ্বনিমূল রয়েছে, যেমন /d/, /o/, /g/ "dog" শব্দের জন্য।

বাক্‌ধ্বনি অনুধাবন

[সম্পাদনা]

মানুষের বাক্‌ধ্বনি বিশ্লেষণের সক্ষমতা এখনো পর্যন্ত যে কোনো কৃত্রিম অ্যালগরিদমের তুলনায় অনেক বেশি। যদিও পরিষ্কারভাবে উচ্চারিত বাক্য এবং উচ্চ সিগন্যাল-টু-নয়েজ অনুপাত সহ পরিবেশে স্বয়ংক্রিয় বাক্‌স্বীকৃতি বেশ সফল হয়েছে, তবুও পরিবেশ একটু প্রতিকূল হলে এই অ্যালগরিদমগুলো মানুষের তুলনায় অনেক খারাপ ফলাফল দেয়। এটি ইঙ্গিত করে যে, মানব বাক্‌অনুধাবনের অন্তর্নিহিত প্রক্রিয়া এখনো সম্পূর্ণরূপে অনুকরণ করতে পারেনি কৃত্রিম পদ্ধতি।

প্রমাণ রয়েছে যে, বাক্‌ধ্বনি অনুধাবনের ক্ষেত্রে মানব মস্তিষ্ক সাধারণ শব্দ অনুধাবনের চেয়ে ভিন্ন পথ অনুসরণ করে। অ-ভাষিক শব্দে প্রতিক্রিয়া সাধারণত ক্রমাগত হলেও, বাক্‌ধ্বনির ক্ষেত্রে প্রায়শই প্রতিক্রিয়া বিচ্ছিন্ন হয়। উদাহরণস্বরূপ, লিস্কার এবং আব্রামসন[] একটি প্রাক-স্বরিত 'b/p' ধ্বনি বাজান। এই ধ্বনিকে /b/ না /p/ হিসেবে শোনা যায় তা নির্ভর করে "ভয়েস শুরুর সময়" (VOT)-এর উপর। তারা দেখেছেন যে, VOT ধীরে ধীরে বাড়ানো হলে একটি সুনির্দিষ্ট সময় (~২০ms)-এ শ্রোতারা হঠাৎ করে /b/ থেকে /p/-তে স্থানান্তরিত হয়। তাছাড়া, শ্রোতারা একই শ্রেণির দুটি শব্দ পার্থক্য করতে খুব কষ্ট পায় (যেমন -১০ms থেকে ১০ms এর দুটি /b/), কিন্তু ১০ms ও ৩০ms (একটি /b/, অন্যটি /p/) পার্থক্য করতে পারে। এটি নির্দেশ করে যে, কিছু ধরণের শ্রেণিবিভাগ পদ্ধতি কাজ করছে। বাক্‌ধ্বনি অনুধাবনের একটি বড় সমস্যা হলো তথাকথিত 'ইনভেরিয়েন্স-এর অভাব', যা আসলে 'ভেরিয়েন্স'। এর অর্থ, একটি নির্দিষ্ট ধ্বনিমূল (যেমন /p/) বহু রকম তরঙ্গরূপ ধারণ করতে পারে, এবং সেই তরঙ্গরূপ ও ধ্বনিমূলের সম্পর্ক প্রায়শই অস্পষ্ট ও প্রেক্ষিত-নির্ভর। তবুও, মানুষ নির্ভুলভাবে সঠিক ধ্বনি শনাক্ত করতে পারে।

যদিও বাক্‌অনুধাবনের জন্য সর্বজনস্বীকৃত মডেল এখনো নেই, তবে বিদ্যমান মডেলগুলোকে দুই শ্রেণিতে ভাগ করা যায়: প্যাসিভ অনুধাবন এবং অ্যাকটিভ অনুধাবন।

প্যাসিভ গ্রহণ মডেল

[সম্পাদনা]

প্যাসিভ গ্রহণ তত্ত্বসমূহ সাধারণত মানব বাক্-গ্রহণ সমস্যাটিকে বর্ণনা করে অনেকটা যেভাবে অধিকাংশ সংবেদনাত্মক সংকেত প্রক্রিয়াকরণ অ্যালগোরিদম করে: একটি কাঁচা ইনপুট সংকেত প্রবেশ করে এবং একটি শ্রেণিবদ্ধ প্রক্রিয়াকরণ স্তরের মধ্য দিয়ে যায়, যেখানে প্রতিটি পরবর্তী স্তর ইনপুট থেকে আরও বিমূর্ত সংকেত নির্যাস করে। প্যাসিভ মডেলের প্রাথমিক উদাহরণগুলোর একটি ছিল বিশিষ্ট বৈশিষ্ট্য তত্ত্ব। এই তত্ত্বের মূল ধারণা হলো নির্দিষ্ট কিছু বৈশিষ্ট্যের জন্য বাইনারি মানগুলোর উপস্থিতি শনাক্ত করা। উদাহরণস্বরূপ, ‘নাসাল/ওরাল’, ‘ভোকালিক/নন-ভোকালিক’।

এই তত্ত্ব অনুযায়ী, একটি ধ্বনিমূল বোঝানো হয় এই বৈশিষ্ট্যগুলোর উপস্থিতি বা অনুপস্থিতি দ্বারা গঠিত একটি বাইনারি ভেক্টর হিসেবে। এই বৈশিষ্ট্যগুলো স্পেক্ট্রোগ্রাম ডেটা থেকে নির্ণয় করা যেতে পারে। অন্যান্য প্যাসিভ মডেল, যেমন সেলফিজ[] এবং উতলি[] বর্ণিত, একটি প্রোটোটাইপ বা ছাঁচ-মেলানোর ধাঁচ অনুসরণ করে, যেখানে প্রক্রিয়াকরণ স্তরসমূহের একটি শ্রেণিবিন্যাস ধীরে ধীরে এমন বৈশিষ্ট্য নির্ণয় করে যেগুলো আরও বিমূর্ত এবং নির্দিষ্ট কিছু অপ্রাসঙ্গিক বৈশিষ্ট্য (যেমন ধ্বনির প্রযোজক ব্যক্তির পরিচয়) থেকে অপরিবর্তনীয়।

সক্রিয় অনুধাবন মডেল

[সম্পাদনা]

ভাষা অনুধাবন নিয়ে একেবারে ভিন্ন একটি দৃষ্টিভঙ্গি হলো সক্রিয়-অনুধাবন তত্ত্বসমূহ। এই তত্ত্বগুলোর মূল বক্তব্য হলো, মস্তিষ্কের জন্য ভাষা অনুধাবন ও ভাষা উৎপাদনের জন্য দুটি সমান্তরাল প্রণালী রাখা অনাবশ্যক, কারণ কোনো ধ্বনি উৎপাদনের সক্ষমতা সেই ধ্বনিকে শনাক্ত করার সক্ষমতার সঙ্গে ঘনিষ্ঠভাবে সম্পর্কিত—এই তত্ত্বের প্রবক্তারা বলেন, স্বরবর্ণ শনাক্তকরণ ও উৎপাদনের জন্য দুটি আলাদা ডেটাবেস রাখা অপচয় ও জটিলতা সৃষ্টি করবে। তারা যুক্তি দেন যে ভাষা অনুধাবন আসলে আগত সংকেত পুনরুৎপাদনের চেষ্টা করে সম্পন্ন হয়, এবং এজন্য স্বরবর্ণ উৎপাদন ও শনাক্তকরণে একই সার্কিট ব্যবহৃত হয়। ভাষা অনুধাবনের মোটর তত্ত্ব (লিবারম্যান প্রভৃতি, ১৯৬৭) বলছে যে ভাষার ধ্বনিগুলো কোনো টেমপ্লেট মিলিয়ে শনাক্ত করা হয় না, বরং ভাষা-উৎপাদনকারী প্রক্রিয়াগুলো ব্যবহার করে ঐ ধ্বনির একটি অনুলিপি তৈরির চেষ্টা করা হয়। এই তত্ত্ব অনুসারে স্বরবর্ণকে ভাষার ভেতরে লুকানো সংকেত হিসেবে দেখা উচিত নয়, বরং এগুলো হলো এমন "সংকেত" যা উৎপাদক প্রক্রিয়া একটি প্রাক-ভাষা সংকেতে পুনরুত্পাদনের চেষ্টা করে। এই তত্ত্ব বলছে যে, ভাষা উৎপাদনকারী মস্তিষ্ক অঞ্চলসমূহ ক্রমাগত নিজের কথা শোনার মাধ্যমে নির্ধারণ করে যে কোন প্রাক-ভাষা সংকেত কোন ধ্বনি তৈরি করে।

শিশুদের বকবকানিকে এই তত্ত্ব অনুসারে ব্যাখ্যা করা হয় এমনভাবে যে, তারা এই "সংকেত" ধ্বনিগুলো কীভাবে প্রাক-মোটর সংকেত থেকে তৈরি করতে হয় তা শেখে।[]

একই রকম একটি ধারণা উপস্থাপন করেছেন স্টিভেনস ও হ্যালি, তাঁদের "বিশ্লেষণ-দ্বারা-সংশ্লেষণ" মডেলে।[] এই মডেল একটি উৎপাদনশীল প্রক্রিয়ার বর্ণনা দেয় যা আগত ধ্বনির সদৃশ একটি সংকেত পুনরুত্পাদনের চেষ্টা করে। এটি মূলত এই সুবিধা গ্রহণ করে যে মানুষের ভাষা-উৎপাদন ব্যবস্থা পরস্পরের মধ্যে সাদৃশ্যপূর্ণ, এবং ভাষায় শোনা বৈশিষ্ট্যগুলো বক্তা নিজেই পুনরুৎপাদন করতে পারে। যখন বক্তা একটি ধ্বনি শোনে, তখন ভাষাকেন্দ্রগুলো ঐ সংকেত তৈরি করার চেষ্টা করে। তুলনাকারী ব্যবস্থা নিয়মিতভাবে পুনরুৎপাদনের গুণগত মান যাচাই করে। অনুধাবনের এককসমূহ তাই আগত শব্দের বিমূর্ত রূপ নয়, বরং একই ভাষা সংকেত তৈরির জন্য প্রাক-মোটর আদেশ।

মোটর তত্ত্বগুলো এক ধাক্কা খায় যখন ব্রোকা’স অ্যাফাসিয়া নামে পরিচিত অবস্থার উপর বেশ কয়েকটি গবেষণা প্রকাশিত হয়। এই অবস্থায় ব্যক্তির ভাষা উৎপাদনের সক্ষমতা ব্যাহত হয়, কিন্তু ভাষা অনুধাবনের সক্ষমতা অক্ষুণ্ণ থাকে। অথচ মূল মোটর তত্ত্ব অনুসারে বলা হয়, ভাষা উৎপাদন ও অনুধাবন একই সার্কিট দ্বারা সম্পন্ন হয়, তাই ভাষা উৎপাদনে সমস্যা থাকলে অনুধাবনেও সমস্যা হওয়া উচিত। কিন্তু ব্রোকা’স অ্যাফাসিয়ার অস্তিত্ব এই পূর্বাভাসের সঙ্গে সাংঘর্ষিক।[]

বর্তমান মডেল

[সম্পাদনা]
স্পিচ অনুধাবনের ট্রেস মডেল। ইনপুট স্তরের বাইরে সকল সংযোগ দ্বিমুখী। প্রতিটি একক একটি শব্দ বা স্বরবর্ণের মতো ভাষার একক প্রতিনিধিত্ব করে।

ভাষা অনুধাবনের অন্যতম প্রভাবশালী গণনামূলক মডেল হলো ট্রেস।[] ট্রেস একটি নিউরাল নেটওয়ার্ক সদৃশ মডেল, যাতে তিনটি স্তর ও পুনরাবৃত্ত সংযোগ পদ্ধতি রয়েছে। প্রথম স্তর ইনপুট স্পেক্ট্রোগ্রাম থেকে বৈশিষ্ট্যগুলো কালানুক্রমিকভাবে নিষ্কাশন করে, যা মূলত কক্লিয়ার কার্যপ্রণালিকে অনুকরণ করে। দ্বিতীয় স্তর বৈশিষ্ট্য তথ্য থেকে স্বরবর্ণ চিহ্নিত করে, এবং তৃতীয় স্তর স্বরবর্ণ থেকে শব্দ চিহ্নিত করে। এই মডেলে ফিড-ফরোয়ার্ড (নিম্নগামী) উত্তেজক সংযোগ, পার্শ্বিক প্রতিহতকারী সংযোগ, এবং ফিডব্যাক (ঊর্ধ্বগামী) উত্তেজক সংযোগ রয়েছে। এই মডেলে প্রতিটি গাণিতিক একক একটি অনুধাবন এককের (যেমন /p/ ধ্বনি বা "অযৌক্তিক" শব্দ) প্রতিনিধিত্ব করে। মূল ধারণা হলো, ইনপুটের ভিত্তিতে একটি স্তরের মধ্যে এককগুলো সবচেয়ে শক্তিশালী আউটপুটের জন্য প্রতিযোগিতা করে। পার্শ্বিক প্রতিহতকারী সংযোগের ফলে এক ধরনের ‘বিজয়ী-সব পায়’ সার্কিট তৈরি হয়, যেখানে সবচেয়ে শক্তিশালী ইনপুটপ্রাপ্ত একক তার প্রতিবেশীদের দমন করে পরিষ্কারভাবে বিজয়ী হয়। ফিডব্যাক সংযোগগুলো প্রসঙ্গনির্ভর অনুধাবন ব্যাখ্যা করতে সাহায্য করে—উদাহরণস্বরূপ, যদি স্বরবর্ণ স্তর নিম্নগামী ইনপুটের ভিত্তিতে নির্ধারণ করতে না পারে যে /g/ না /k/ ধ্বনি শোনা গেছে, কিন্তু সেটি ‘an’ দ্বারা শুরু হয়ে এবং ‘ry’ দ্বারা শেষ হয়েছে, তাহলে /g/ ও /k/ একক উভয়ই সমানভাবে সক্রিয় হবে এবং শব্দ স্তরে ইনপুট পাঠাবে, যেখানে আগের ‘an’ দ্বারা উত্তেজিত ‘অ্যানাকোন্ডা', 'রাগী', এবং 'গোড়ালি' ধরনের শব্দ এককগুলো ইতোমধ্যেই সক্রিয় থাকবে। /g/ অথবা /k/ এর উত্তেজনা তখন এই শব্দগুলোর সাথে সামঞ্জস্যপূর্ণ হওয়ার ভিত্তিতে চূড়ান্তভাবে নির্ধারিত হতে পারে।

তথ্যসূত্র

[সম্পাদনা]
  1. Lisker, L. (১৯৭০)। "The voicing dimension: Some experiments in comparative phonetics"। B. Hála, M. Romportl and P. Janota। Proceedings of the 6th International Congress of Phonetic Sciences। Prague: Academia।  অজানা প্যারামিটার |coauthors= উপেক্ষা করা হয়েছে (|author= ব্যবহারের পরামর্শ দেয়া হচ্ছে) (সাহায্য)
  2. Selfridge, O.C (1959) "Pandemonium: a paradigm for learning". in Proceedings of the Symposium on Mechanisation of Thought Process. National Physics Laboratory.
  3. Uttley, A.M. (জুলাই ১৯৬৬)। "The transmission of information and the effect of local feedback in theoretical and neural networks"। Brain Research2 (1): 21–50। doi:10.1016/0006-8993(66)90060-6 
  4. Liberman, M. T.; Mattingly, I. G.; Turvey (১৯৬৭)। "Language codes and memory codes"। Melton, A. W.; Martin, E.। Coding Processes in Human Memory। V. H. Winston & Sons। পৃষ্ঠা 307–334।  একের অধিক |first1= এবং |first= উল্লেখ করা হয়েছে (সাহায্য)
  5. Stevens, K. N.; Halle, M. (১৯৬৭)। "Remarks on analysis by synthesis and distinctive features"। Wathen-Dunn, W.। Models for the perception of speech and visual form: proceedings of a symposium। Cambridge, MA: MIT Press। পৃষ্ঠা 88–102। 
  6. Hickok, Gregory (জানুয়ারি ২০১০)। "The role of mirror neurons in speech and language processing"। Brain and Language112 (1): 1–2। doi:10.1016/j.bandl.2009.10.006 
  7. McClelland, James L; Elman, Jeffrey L (জানুয়ারি ১৯৮৬)। "The TRACE model of speech perception"। Cognitive Psychology18 (1): 1–86। doi:10.1016/0010-0285(86)90015-0 

Visual_System_Simulation · Vestibular_System_Simulation