বিষয়বস্তুতে চলুন

ইন্দ্রিয়তন্ত্র/কম্পিউটার মডেল/শ্রবণতন্ত্র সিমুলেশন/প্রত্যক্ষণমূলক অডিও কোডিং

উইকিবই থেকে

কক্লিয়ার ইন্দ্রিয়গ্রাহ্য অডিও কোডিং এবং ফিল্টারিং বৈশিষ্ট্য

[সম্পাদনা]

এই পৃষ্ঠায় ইন্দ্রিয়গ্রাহ্য অডিও কোডিংয়ের মূল প্রক্রিয়াগুলি পর্যালোচনা করার পাশাপাশি অন্তর্নিহিত সাইকোঅ্যাকোস্টিক নীতিগুলি ব্যাখ্যা করা হয়েছে এবং কক্লিয়ার ফিল্টারিং বৈশিষ্ট্য এবং উচ্চতর কর্টিকাল প্রক্রিয়াকরণ পর্যায়ের সাথে সম্পর্ক নির্দেশ করা হয়েছে।

পারসেপচুয়াল অডিও কোডিং

[সম্পাদনা]

এমপিথ্রি (এমপিইজি-১ স্তর ৩, এমপিইজি-২ এবং এমপিইজি-৪ অ্যাডভান্সড অডিও কোডিংয়ের (এএসি) পূর্বসূরী) সম্ভবত এখনও সর্বাধিক পরিচিত অডিও ফর্ম্যাট যা অডিও সংকেতের ইন্দ্রিয়গ্রাহ্য কোডিং ব্যবহার করে। এএসি উন্নত শব্দ মানের অর্জনকারী একটি আরও দক্ষ এক্সটেনশন বিস্তৃত ব্যান্ডউইথের অনুমতি দেয় তবে এমপিথ্রির তুলনায় একই কোডিং নীতির উপর নির্ভর করে। উভয় ফর্ম্যাট আইএসও এবং আইইসি দ্বারা প্রমিত করা হয়েছে তবে কেবল ডিকোডার সম্পূর্ণরূপে নির্দিষ্ট করা হয়েছে এবং এনকোডার বাস্তবায়ন সক্রিয় রাখা হয়েছে। এর ফলে বিভিন্ন ধরণের উপলব্ধ এনকোডার তৈরি হয়েছে যার উৎপাদনের গুণমান, অর্জনযোগ্য বিট-রেট, কর্মক্ষমতা এবং কোডিং দক্ষতার ক্ষেত্রে ভিন্ন।[]

ধ্রুপদী সংকেত সংকোচন অ্যালগরিদমের বিপরীতে, যেখানে লক্ষ্য হল সংকেত প্রজনন গুণমান বজায় রেখে ন্যূনতম সংখ্যক বিট সহ তথ্য উপস্থাপন করা, উপলব্ধিযোগ্য অডিও কোডিং মানব শ্রবণ ব্যবস্থা থেকে জ্ঞানকে বিবেচনা করে এবং বেশিরভাগ শ্রোতার জন্য উপলব্ধিযোগ্যভাবে অপ্রাসঙ্গিক তথ্য সরিয়ে বিট রেট হ্রাস করে। এই ক্ষতিকারক সংকোচন মানব শ্রবণ ব্যবস্থার বৈশিষ্ট্য এবং পরিসংখ্যানগত অপ্রয়োজনীয়তা অন্বেষণ করে অর্জন করা হয়। Mp3 এর জন্য সাধারণত ব্যবহৃত কোডিং বিটরেট হল 128 kbit/s এবং দক্ষ এনকোডারগুলি সাধারণত CD-মানের অডিও সংকুচিত করার সময় ডেটা হ্রাসে 10 এর কাছাকাছি একটি ফ্যাক্টর অর্জন করে (16 বিট PCM, 44.1 kHz, ≈ 1411 kBit/s)। অন্যভাবে বলতে গেলে, CD তে সংরক্ষিত প্রায় 90% ডেটা শ্রোতা দ্বারা উপলব্ধি করা যায় না। ব্যবহারকারীরা সাধারণত সঙ্গীত শোনার সময় CD-মানের প্রত্যাশা করেন (সিডি-মানের অ্যানালগ মূল অডিও পুনরুত্পাদন করার জন্য যথেষ্ট ভাল কিনা তা নিয়ে দীর্ঘ বিতর্ক রয়েছে। বিভিন্ন বিশেষজ্ঞ মতামতের মধ্যে, এই দুটি উল্লেখ[][] আরও পড়ার জন্য আগ্রহের হতে পারে।)। আরও দক্ষ অডিও কোডিংয়ের প্রয়োজনীয়তা নেটওয়ার্ক, মাল্টিমিডিয়া সিস্টেম এবং স্টোরেজ অ্যাপ্লিকেশন থেকে উদ্ভূত হয়েছিল এবং Mp3 মূলত অডিওভিজ্যুয়াল কন্টেন্টের আরও দক্ষ ট্রান্সমিশনের জন্য তৈরি করা হয়েছিল।

জনস্টন,[] যা "অনুভূত এনট্রপি" ধারণার দিকে পরিচালিত করে। পরিমাপের উপর ভিত্তি করে সিডি-মানের অডিওর জন্য প্রতি নমুনায় প্রায় 2 বিট অনুভূত এনট্রপি অনুমান করা হয়েছিল। অত্যাধুনিক এনকোডারগুলি স্বচ্ছ (কাছাকাছি) সিডি-মানের অডিও কোডিংয়ের জন্য এই দক্ষতা নিশ্চিত করে।[] একটি ইন্দ্রিয়গ্রাহ্য কোডিং অ্যালগরিদমের মান সাধারণত শ্রবণ পরীক্ষার মাধ্যমে মূল্যায়ন করা হয় এবং সম্প্রতি পারসেপচুয়াল ইভালুয়েশন অফ অডিও কোয়ালিটি (PEAQ) নামক অনুভূত অডিও মানের উদ্দেশ্যমূলক পরিমাপের জন্য একটি প্রমিত অ্যালগরিদমের সাথেও মিলিত হয়।

একটি পারসেপচুয়াল অডিও এনকোডারের মৌলিক স্থাপত্য

[সম্পাদনা]
একটি পারসেপচুয়াল অডিও এনকোডারের মৌলিক স্থাপত্য

বেশিরভাগ পারসেপচুয়াল অডিও এনকোডারকে চিত্রে দেখানো মৌলিক স্থাপত্যের সাহায্যে বর্ণনা করা যেতে পারে। বিশ্লেষণ ফিল্টার ব্যাংকটি মানব শ্রবণ ব্যবস্থার টেম্পোরাল এবং বর্ণালী বিশ্লেষণ বৈশিষ্ট্যের আনুমানিক হিসাব করে। ইনপুটটি ফ্রেমে বিভক্ত, যা প্যারামিটারের একটি সেটে রূপান্তরিত হয় যা কোয়ান্টাইজড এবং এনকোড করা যেতে পারে। কোয়ান্টাইজেশন এবং কোডিং পর্যায় পরিসংখ্যানগত অপ্রয়োজনীয়তা কাজে লাগায় এবং বিট বরাদ্দ এবং কোয়ান্টাইজেশন শব্দ গঠনের জন্য পারসেপচুয়াল মডেল দ্বারা সরবরাহ করা থ্রেশহোল্ডের উপর নির্ভর করে। পারসেপচুয়াল মডেলটি কোডিংয়ের জন্য ফ্রিকোয়েন্সির একটি ফাংশন হিসাবে মাস্কিং থ্রেশহোল্ডকে বর্ণনা করে। অবশেষে, এনকোডিং পর্যায়টি স্ট্যান্ডার্ড লসলেস কোডিং কৌশল ব্যবহার করে, যেমন [১]। একটি প্রযুক্তিগত অ্যালগরিদম ব্যাখ্যা এবং উদাহরণ বাস্তবায়নের জন্য আমি অনলাইন বই J.O. Smith-এর উল্লেখ করছি।

ইন্দ্রিয়গ্রাহ্য অডিও কোডিংয়ের জন্য ব্যবহৃত সাইকোঅ্যাকোস্টিক নীতি

[সম্পাদনা]

ইন্দ্রিয়গ্রাহ্য অডিও কোডিংয়ের মূল ধারণা হল কোয়ান্টাইজেশন নয়েজকে এমনভাবে আকৃতি দেওয়া যাতে এটি অডিও সিগন্যাল দ্বারা আবৃত থাকে এবং তাই শ্রোতা দ্বারা উপলব্ধি করা যায় না। এটি পরম শ্রবণের থ্রেশহোল্ড, সমালোচনামূলক ব্যান্ড ফ্রিকোয়েন্সি বিশ্লেষণ এবং শ্রবণ মাস্কিং সহ সাইকোঅ্যাকোস্টিক নীতিগুলি কাজে লাগিয়ে অর্জন করা হয়।[] যেহেতু কোডিং পর্যায়ে প্লেব্যাক স্তর প্রায়শই অজানা থাকে, তাই কোডিং প্রক্রিয়া চলাকালীন সংকেত স্বাভাবিককরণের জন্য সাধারণত পরম শ্রবণ থ্রেশহোল্ড সম্পর্কে রক্ষণশীল অনুমান ব্যবহার করা হয়। শ্রবণ মাস্কিং এমন ঘটনা বর্ণনা করে, যেখানে একটি শব্দের উপলব্ধি অন্য শব্দের উপস্থিতি দ্বারা প্রভাবিত হয়। মাস্কিং প্রভাব ফ্রিকোয়েন্সি ডোমেইনে (একযোগে মাস্কিং), এবং টাইম ডোমেইনে (অ-একযোগে মাস্কিং) ঘটে।

একযোগে মাস্কিং

[সম্পাদনা]
Adapted from Jayant et al.[] একযোগে মাস্কিংয়ের জন্য স্প্রেডিং ফাংশন। 1 kHz এ বিভিন্ন তীব্রতার ক্রিটিক্যাল-ব্যান্ড নয়েজ মাস্কর।

একযোগে মাস্কিংয়ের জন্য কক্লিয়ার ফ্রিকোয়েন্সি রেজোলিউশন একটি কেন্দ্রীয় ভূমিকা পালন করে। কক্লিয়ার ভিতরে একটি ফ্রিকোয়েন্সি-টু-প্লেস রূপান্তর ঘটে এবং বিভিন্ন ফ্রিকোয়েন্সি ব্যান্ডের সাথে সুরক্ষিত স্বতন্ত্র অঞ্চল তৈরি হয়। এই স্বতন্ত্র ফ্রিকোয়েন্সি অঞ্চলগুলিকে শ্রবণশক্তির সমালোচনামূলক ব্যান্ড (বা সমালোচনামূলক ব্যান্ডউইথ) বলা হয়। ক্রিটিক্যাল ব্যান্ডউইথ ≈ ১০০ হার্জ থেকে ৫০০ হার্জ পর্যন্ত স্থির থাকে এবং ৫০০ হার্জের উপরে কেন্দ্র ফ্রিকোয়েন্সির প্রায় ২০% পর্যন্ত বৃদ্ধি পায়।[] প্রথম ২৪টি ক্রিটিক্যাল ব্যান্ড বার্ক স্কেল দ্বারা বর্ণনা করা হয়েছে। একটি স্বরের উপস্থিতি বেসিলার মেমব্রেনের উত্তেজনার দিকে পরিচালিত করে, যা এর ক্রিটিক্যাল ব্যান্ডের ভিতরে দ্বিতীয় স্বরের জন্য সনাক্তকরণ থ্রেশহোল্ডকে প্রভাবিত করে (ইন্ট্র-ব্যান্ড মাস্কিং)। এছাড়াও, প্রতিবেশী ব্যান্ডগুলিও প্রভাবিত হয় (ইন্টার-ব্যান্ড মাস্কিং)। প্রতিবেশী ব্যান্ডগুলির স্নেহ স্প্রেডিং ফাংশন দ্বারা বর্ণনা করা হয়েছে। বিভিন্ন তীব্রতার একটি ক্রিটিক্যাল-ব্যান্ড নয়েজ মাস্কারের জন্য একটি পরিমাপিত স্প্রেডিং ফাংশন ডান দিকের চিত্রে দেখানো হয়েছে। চিত্রে যেমন দেখানো হয়েছে, একটি মাস্কার নিম্ন ফ্রিকোয়েন্সি ব্যান্ডের তুলনায় উচ্চ ফ্রিকোয়েন্সি ব্যান্ডগুলিকে মাস্কিং করতে বেশি দক্ষ, যাকে মাস্কিংয়ের ঊর্ধ্বমুখী স্প্রেড বলা হয়। স্প্রেডিং ফাংশনের কারণ কক্লিয়ার যান্ত্রিক ফিল্টার বৈশিষ্ট্যের একটি উপজাত বলে মনে করা হয়, যেখানে বাইরের চুলের কোষগুলি ফ্রিকোয়েন্সি রেজোলিউশন বৃদ্ধির জন্য বেসিলার ঝিল্লির গতিকে প্রশস্ত করে।[] মাস্কিংয়ের ঊর্ধ্বমুখী বিস্তারের কারণ স্পষ্টভাবে চিহ্নিত করা হয়নি এবং যান্ত্রিক উত্তেজনার পাশাপাশি দমনও একটি ভূমিকা পালন করে।[] অধিকন্তু, চিত্রের দ্বিতীয় শিখরটি উচ্চতর শব্দ চাপ স্তরে 2 kHz (1 kHz এর দ্বিতীয় সুরেলা) এর কাছাকাছি উত্থিত হওয়ার সাথে সাথে অভ্যন্তরীণ এবং মধ্যকর্ণের অরৈখিক স্থানান্তর বৈশিষ্ট্যও ভূমিকা পালন করে।[]

একটি শক্তিশালী শব্দ বা টোন মাস্কারের উপস্থিতি বেসিলার মেমব্রেনে যথেষ্ট পরিমাণে উত্তেজনা তৈরি করে যা এর ক্রিটিক্যাল ব্যান্ডে দুর্বল সংকেতের সংক্রমণকে কার্যকরভাবে ব্লক করতে পারে এবং মাস্কিংয়ের বিস্তারের ফলে প্রতিবেশী ব্যান্ডগুলিও প্রভাবিত হয়। দুই ধরণের যুগপত মাস্কর লক্ষ্য করা গেছে: নয়েজ-মাস্কিং-টোন এবং টোন-মাস্কিং-নয়েজ। একটি নয়েজ-মাস্কিং-টোনের জন্য একটি স্বরের উপস্থিতি মুখোশযুক্ত শব্দ বর্ণালীর জন্য একটি থ্রেশহোল্ড ভবিষ্যদ্বাণী করতে দেয় এবং টোন-মাস্কিং-নয়েজের জন্য একটি শব্দের উপস্থিতি মুখোশযুক্ত স্বরের জন্য একটি থ্রেশহোল্ড ভবিষ্যদ্বাণী করতে দেয়। বিশুদ্ধ টোন এবং ক্রিটিক্যাল-ব্যান্ড সীমিত শব্দের জন্য বিভিন্ন থ্রেশহোল্ড রিপোর্ট করা হয়েছে।[] সঙ্গীতের ইন্দ্রিয়গ্রাহ্য কোডিং সম্পর্কে, স্প্রেডিং ফাংশনটি বিবেচনায় নেওয়ার আগে ইন্দ্রিয়গ্রাহ্য এনকোডারের সময়-ফ্রিকোয়েন্সি বিশ্লেষণের বিষয়বস্তুর উপর নির্ভর করে এই থ্রেশহোল্ডগুলিকে ইন্টারপোলেট করা হয়। উদ্দেশ্যমূলক সংকেত-থেকে-শব্দ অনুপাত (SNR) খুব কম হতে পারে, যেমন। ২০ ডিবি, কিন্তু অডিও কন্টেন্টের উপর নির্ভর করে, যখন সাবজেক্টিভ SNR স্বচ্ছ কোডিং অর্জনের জন্য যথেষ্ট বেশি।[] তুলনার জন্য, একটি অডিও সিডির SNR 96 ডিবি।

অ-একযোগে মাস্কিং

[সম্পাদনা]
জয়ন্ত এবং অন্যান্যদের থেকে অভিযোজিত।[] অ-একযোগে মাস্কিং। একটি তীক্ষ্ণ ক্ষণস্থায়ী মাস্কিং প্রভাব তৈরি করে যা সময় ডোমেনে দুটি সংকেতের শ্রবণ উপলব্ধিকে প্রভাবিত করে। ক্ষণস্থায়ী (পূর্ব বা পশ্চাদগামী মাস্কিং) এর আগে এবং পরে উপলব্ধি (পরবর্তী বা পশ্চাদগামী মাস্কিং) প্রভাবিত হয়।

অডিও সংকেতে আকস্মিক ক্ষণস্থায়ী (বা শক্তিশালী আক্রমণ) সময় ডোমেনে মাস্কিং প্রভাব সৃষ্টি করতে পারে। চিত্রে দেখানো হয়েছে যে, ক্ষণস্থায়ী (পরবর্তী বা পশ্চাদগামী মাস্কিং) এর আগে এবং পরে উপলব্ধি (পূর্ব বা পশ্চাদগামী মাস্কিং) প্রভাবিত হয়। পশ্চাদমুখী মাস্কিং অঞ্চলটি মিলিসেকেন্ডের ক্রমানুসারে স্থায়ী হয় এবং সামনের দিকে মাস্কিং অঞ্চলটি দীর্ঘস্থায়ী হয় এবং মিলিসেকেন্ডের দশমাংশের ক্রমানুসারে থাকে।[]

টেম্পোরাল মাস্কিং এখনও সম্পূর্ণরূপে বোঝা যায় না এবং এটি একটি সক্রিয় গবেষণার বিষয়। তবে, প্রমাণ রয়েছে যে উচ্চতর কর্টিকাল প্রক্রিয়াকরণ এই ঘটনার সাথে জড়িত। এই প্রভাবটি শব্দের একীকরণ, স্নায়ু প্রক্রিয়াকরণের বাধা বা বাধা এবং/অথবা সংক্রমণ বেগের পার্থক্যের সাথে সম্পর্কিত কিনা তা এখনও স্পষ্ট নয়। ফরোয়ার্ড এবং পিছনের দিকে মাস্কিং বিভিন্ন বৈশিষ্ট্য দেখায় এবং তাই মানব শ্রবণ ব্যবস্থার বিভিন্ন বৈশিষ্ট্য থেকে উদ্ভূত বলে মনে করা হয়।[]

মাস্কিং এবং জয়েন্ট স্টেরিও কোডিং

[সম্পাদনা]

অডিও কোডিংয়ে একটি কার্যকর কৌশল হল জয়েন্ট স্টেরিও কোডিং। যেহেতু একটি সঙ্গীত সংকেতের জন্য বাম এবং ডান অডিও চ্যানেলগুলি সাধারণত অত্যন্ত সম্পর্কিত, তাই কখনও কখনও অডিও সংকেতের sum/difference (L-R, L+R) কোডিং করা আরও দক্ষ। Mp3 এর ক্ষেত্রে sum/difference কোডিংয়ের সম্ভাবনা সম্পূর্ণরূপে কাজে লাগানো হয়নি, একটি দক্ষ কৌশল বাম/ডান এবং sum/difference কোডিংয়ের থ্রেশহোল্ডগুলির তুলনা করবে এবং গতিশীলভাবে আরও দক্ষটি বেছে নেবে। মাস্কিং থ্রেশহোল্ড গণনা করার সময় বিশেষ যত্ন নেওয়া উচিত, কারণ জয়েন্ট চ্যানেল কোডিং বাইনোরাল শোনার কারণে শ্রবণযোগ্য আর্টিফ্যাক্ট তৈরি করতে পারে।[]

আর্টিফ্যাক্টস (w: Compression_artifact)

[সম্পাদনা]

Mp3 এবং AAC এর জন্য কোডিং বিট রেট বেছে নেওয়া হয় এবং কম্প্রেশন ফ্যাক্টর নয়, কারণ কম্প্রেশন ফ্যাক্টরটি বিষয়বস্তু নির্ভর। কম বিট রেট উচ্চতর কম্প্রেশন অনুপাতের দিকে পরিচালিত করে এবং উচ্চতর বিট রেট সম্ভাব্য আর্টিফ্যাক্টের সম্ভাবনা কম করে এমন কম কম্প্রেশন অনুপাতের দিকে পরিচালিত করে। এটি কার্যকরী অঞ্চলগুলিতে (বা বিট রেট) নিয়ে যায়, যেখানে একটি নির্দিষ্ট অ্যালগরিদম সবচেয়ে ভালো পারফর্ম করে এবং উচ্চতর বিট রেটগুলির জন্য সামান্য উন্নতি করে।[] প্লেব্যাক সরঞ্জাম থেকে শব্দ এবং বিকৃতি আর্টিফ্যাক্টের বিপরীতে, যা আমরা সকলেই সিডি শোনার সময় অভ্যস্ত, উপলব্ধিমূলক এনকোডার থেকে শ্রবণযোগ্য আর্টিফ্যাক্ট বিরক্তিকর হতে পারে। যদি স্বচ্ছ কোডিংয়ের জন্য বিট রেট খুব কম হয়, তাহলে ফলে শব্দ এবং বিকৃতিগুলিকে সময়-পরিবর্তিত সংকেত হিসাবে বর্ণনা করা যেতে পারে, যেখানে বিকৃতিগুলি সুরেলাভাবে সম্পর্কিত নয়, শব্দ ব্যান্ড-সীমাবদ্ধ এবং ব্যান্ডউইথ ফ্রেম থেকে ফ্রেমে পরিবর্তিত হতে পারে তাই সংকেতটি রুক্ষ শোনাতে পারে।[]

ব্যান্ডউইথের ক্ষতি

[সম্পাদনা]

যদি এনকোডারে বিট ফুরিয়ে যায় তবে ফ্রিকোয়েন্সি ব্যান্ডউইথ এবং কম ফ্রিকোয়েন্সি কন্টেন্টের সঠিক কোডিংয়ের মধ্যে একটি মৌলিক লেনদেন হয়। এর ফলে একটি কোডেড ফ্রিকোয়েন্সি ব্যান্ডউইথ তৈরি হতে পারে যা ফ্রেম থেকে ফ্রেমে পরিবর্তিত হয় যা খুব অপ্রীতিকর শোনাতে পারে। সাধারণত কম বিট রেটের জন্য ফ্রিকোয়েন্সি ব্যান্ডউইথ সীমিত করে এই শিল্পকর্মটি প্রতিহত করা হয়।

প্রিচো

[সম্পাদনা]

প্রিচো হল সবচেয়ে কঠিন ত্রুটি যা এড়ানো যায় এবং এটি ইন্দ্রিয়গ্রাহ্য এনকোডারের ফ্রেম আকারের সাথে সম্পর্কিত। যদি কোনও ফ্রেমের মাঝখানে কোনও অডিও সিগন্যালের তীব্র আক্রমণ ঘটে তবে ফ্রেমের আকারের কারণে শব্দের জন্য গণনা করা থ্রেশহোল্ডটি পিছনের মাস্কিং অঞ্চলে ছড়িয়ে পড়তে পারে এবং এইভাবে শ্রবণযোগ্য হয়ে উঠতে পারে। প্রিচোসের ঘটনা কমানোর জন্য বিভিন্ন কৌশল রয়েছে, যেমন একটি পরিবর্তনশীল ফ্রেম আকার বিশ্লেষণ ফিল্টারব্যাঙ্ক।[]

কক্লিয়ার ফিল্টারিং বৈশিষ্ট্যের সাথে সম্পর্ক

[সম্পাদনা]

সংক্ষেপে এবং উপসংহারে, ইন্দ্রিয়গ্রাহ্য কোডিং মানব শ্রবণ ব্যবস্থার বৈশিষ্ট্যগুলির ব্যাপক ব্যবহার করে। পরম শ্রবণ থ্রেশহোল্ড কক্লিয়ার বৈশিষ্ট্যের সাথে সম্পর্কিত, তবে মধ্য এবং বাইরের কানের অ্যাকোস্টিক এবং যান্ত্রিক বৈশিষ্ট্যের সাথেও সম্পর্কিত। একযোগে মাস্কিংয়ে, ইন্ট্রা- এবং ইন্টার-ক্রিটিক্যাল ব্যান্ড মাস্কিং থ্রেশহোল্ড (স্প্রেডিং ফাংশন) কক্লিয়ার ফিল্টারিং বৈশিষ্ট্য থেকে উদ্ভূত হয়। তবে, মাস্কিংয়ের ঊর্ধ্বমুখী বিস্তার কেবল কক্লিয়ার বৈশিষ্ট্য দ্বারা ব্যাখ্যা করা যায় না এবং দমনের মতো অন্যান্য ঘটনাও ভূমিকা পালন করতে পারে। পরিশেষে, টেম্পোরাল মাস্কিংয়ের ঘটনাটি কেবল শ্রবণতন্ত্রের উচ্চতর কর্টিকাল প্রক্রিয়াকরণ দ্বারা ব্যাখ্যা করা যেতে পারে এবং জয়েন্ট স্টেরিও কোডিং থেকে উদ্ভূত শিল্পকর্মগুলিও নির্দেশ করে যে এই প্রক্রিয়াটি মানব শ্রবণতন্ত্রের বিভিন্ন স্তরের সাথে জড়িত।

  1. ১.০ ১.১ ১.২ ১.৩ ১.৪ Karlheinz Brandenburg. Mp3 and aac explained. In Audio Engineering Society Conference: 17th International Conference: High-Quality Audio Coding. Audio Engineering Society, 1999.
  2. J. R. Stuart for Acoustic Renaissance for Audio. A proposal for the high-quality audio application of high-density CD carriers. 1995.
  3. James D Johnston. Estimation of perceptual entropy using noise masking criteria. In Proceedings of the International Conference on Acoustics, Speech, and Signal Processing of the IEEE 1988.
  4. ৪.০ ৪.১ ৪.২ ৪.৩ ৪.৪ Ted Painter and Andreas Spanias. A review of algorithms for perceptual coding of digital audio signals. In Proceedings of the 13th International Conference on Digital Signal Processing of the IEEE 1997.
  5. ৫.০ ৫.১ ৫.২ ৫.৩ ৫.৪ ৫.৫ Nikil Jayant, James Johnston, and Robert Safranek. Signal compression based on models of human perception. Proceedings of the IEEE, 81(10):1385-1422, 1993.
  6. Andrew J Oxenham and Christopher J Plack. Suppression and the upward spread of masking. The Journal of the Acoustical Society of America, 104(6):3500-3510, 1998.
  7. Renata Filippini. Unmasking auditory temporal masking, 2015. http://hearinghealthmatters.org/pathways/2015/unmasking-auditory-temporal-masking/