ნილ იანგი 1970-იან წლებში იყო ცნობილი როკ-მუსიკოსი, რომელიც განსაკუთრებულად გამოირჩეოდა ცოცხალი შესრულებებით და უცნაური აკუსტიკური სივრცეების სიყვარულით – მაგალითად, იმ ექოთი სავსე რკინის ნახერხის ღუმელი, სადაც ოდესღაც ბავშვობაში მე თვითონაც მიძინია.
The New York Times Magazine-თან ბოლო ინტერვიუში მან განაცხადა, რომ ციფრული კომპრესიის ტექნოლოგიები — CD, MP3 და სტრიმინგი — არღვევს ადამიანურ ღირსებას. ათასობით კომენტარს შორის ბევრი მკითხველი მას ემოციურად, ანტიმეცნიერად, ტექნოფობად და ნაწილობრივ სმენადაქვეითებულადაც კი მოიხსენიებდა. მაგრამ იქნებ იანგს რაღაც ისეთი ესმის, რაც დანარჩენებს გამორჩენიათ?
სხვა სიტყვებით რომ ვთქვათ — როცა მგრძნობიარე, მსოფლიო მასშტაბით აღიარებული ინოვატორი ამხელს საკუთარ ინდუსტრიას და მის ტექნოლოგიას იმაში, რომ ისინი ანგრევენ ადამიანურ ღირსებას და ტვინის ფუნქციას, ეს უკვე სერიოზული სიგნალია. ვინ შეიძლება იყოს უფრო კვალიფიციური იმისთვის, რომ გაგვაფრთხილოს ტექნოლოგიური ზიანის შესახებ, ვიდრე ექსპერტი, რომელსაც უზარმაზარი გამოცდილება აქვს და ტყუილის თქმის მიზეზი არ გააჩნია?
იანგი პირველი არ არის, ვინც ციფრულ ტექნოლოგიას აკრიტიკებს და ანალოგს აქებს. ათასობით თვითგამოცხადებული აუდიოფილი 1970-იანი წლებიდანვე ტიროდა ვინილის ფირფიტების დაკარგვას, როცა CD-ები პირველად გამოჩნდა. ასევე, უამრავ ადამიანს, ვინც საათობით ლაპარაკობდა ძველ ანალოგურ ტელეფონებზე, ახლა სძულს საუბარი ციფრულ მობილურებზე. ათწლეულების განმავლობაში გრძელდება დაპირისპირება მათ შორის, ვინც ამტკიცებს, რომ ანალოგურ ხმას გააჩნია რაღაც აუხსნელი „მიმწყვდეული ყოფნა“, რაც ციფრულს აკლია, და მათ შორის, ვინც ტექნიკურად ხსნის, როგორ მუშაობენ ანალოგი და ციფრული. არსებითად, ციფრული ტექნოლოგიის მწარმოებლები ამტკიცებენ, რომ ის იდეალურია, ხოლო ყველაზე მგრძნობიარე მომხმარებლები ამბობენ, რომ საშინელია. ორივე ვერ იქნება მართალი.
არსებობს ცნობილი ჭეშმარიტება: ტექნოლოგია ხშირად ვერ ამართლებს საკუთარ დაპირებებს. მაგრამ როცა ტექნოლოგია თავის მთავარ ამოცანას საერთოდ ვერ ასრულებს, ეს სხვა ამბავია. მყიდველები არ ამბობენ, რომ მანქანები ვერ მოძრაობენ, და არც ფეხსაცმლის მცმელები ამტკიცებენ, რომ ფეხს ჭრიან.
მაინც, მუსიკის მომხმარებლები — და განსაკუთრებით ისინი, ვინც თავად ქმნის ყველაზე სულიერ და ემოციურ ხელოვნებას — ამბობენ, რომ ციფრულიზაცია ანადგურებს ემოციას.
ვისთვისაც ემოცია მნიშვნელოვანია, ეს პრობლემა ბევრად უფრო სერიოზულია, ვიდრე მანქანები ან ფეხსაცმელი.
მეცნიერებამ უნდა შეძლოს ემოციის სწორად გაგება – და სწორედ ხმა დგას ამ გზაზე.
რას ამბობენ უბრალო ადამიანები
რადგან ემოციებზე ვსაუბრობთ – არა მხოლოდ ნილ იანგის, არამედ ყველას ემოციებზე — ღირს, დავუკვირდეთ საზოგადო რეაქციას მის ინტერვიუზე. კომენტარების დაახლოებით ნახევარი მას ეთანხმებოდა და ხშირად პოეტურად წერდა ისეთ რამეებს, როგორიცაა: „ანალოგურ მუსიკაში იგრძნობება წვრილი განსხვავებები, ამიტომ ხმები და ინსტრუმენტები უფრო ბუნებრივად ჟღერს – ხანდახან კი უბრალოდ დიდებულად – უფრო მეტი ფერით, სიღრმით და სილამაზით.“ სხვები ამბობდნენ: „ის ფაქტი, რომ ვერავინ ისმენს ან ვერ ამჩნევს დაკარგულ ინფორმაციას, არ ნიშნავს, რომ ის არ არსებობს,“ და რომ ცუდი „ხმის ხარისხი იწვევს მსმენელის დაღლილობას.“
ანტი-ნილ იანგის კომენტარები კი ნაკლებად ჰგავდა მუსიკის შეფასებას – უფრო ცივი, მენტორული ტონით დაწერილ ინჟინრულ შენიშვნებს ჰგავდა. მაგალითად: „ციფრული ჩანაწერები უკეთესია და უფრო მეტ ინფორმაციას შეიცავს,“ „მარტივი CD-ს ერთგულება მთლიანად სჯობს ნებისმიერ ვინილის ფირფიტას,“ ან „ნაიკვისტის თეორემა ამტკიცებს, რომ ანალოგური ინფორმაცია სრულად ინახება ციფრულ ფორმატში, ხოლო ვინც ამას არ ეთანხმება – მათემატიკასა და მეცნიერებას ეწინააღმდეგება.“
ასეთი კომენტარები შეიძლება გამაღიზიანებლად ჟღერდეს, მაგრამ ისინი მაინც ეხებიან ტექნოლოგებისთვის წმინდა ჭეშმარიტებას – გარკვეული ტიპის მათემატიკა და ფიზიკა ობიექტურად მართალია. უბრალოდ ვერ უგულებელყოფ ფიზიკას და ამავე დროს ინტელექტუალურად სერიოზული დარჩე.
რა თქმა უნდა, თუ ფიზიკის არასწორ კანონზე დაყრდნობით მსჯელობ, შენი იდეები შეიძლება უსარგებლო – ან უფრო უარესი – აღმოჩნდეს. ხმისა და მისი რეპროდუქციის შემთხვევაში საქმე გვაქვს ბუნების ორ კანონთან, რომელთაგან ერთია სწორედ ზემოხსენებული ნაიკვისტის თეორემა.
საერთო ჯამში, კომენტარები ორ ურთიერთშემავსებელ ფილოსოფიად იყოფა – „თეორია“ და „ექსპერიმენტი.“ ისინი ეხებიან ყველაზე ფუნდამენტურ კითხვას რეალობის გააზრების შესახებ: რამდენად უნდა ვენდოთ ბუნების კანონებს და რამდენად – საკუთარ შეგრძნებებს? ვინც ხმის ტექსტურაში განსხვავებებს ამჩნევს, ბუნებრივად ისაუბრებს „ფერებზე,“ „სიღრმეზე“ და მსგავს განცდებზე. ხოლო ისინი, ვინც დარწმუნებულია, რომ ფიზიკის კანონები ყოველთვის მუშაობს, მკაცრად ამტკიცებენ ბუნებრივი კანონის უპირატესობას — ისე, როგორც ადამიანი ამტკიცებს 2+2=4-ის დამკვიდრებულ ჭეშმარიტებას.
ასეთი დისკუსიების უსამართლო ასიმეტრია ისაა, რომ ინდივიდუალური სენსორული გამოცდილება სხვას არ აყენებს შეურაცხყოფას, მაშინ როცა ბუნების კანონის მოხმობა, რომელიც ამ გამოცდილებას გამორიცხავს, პირდაპირ შეურაცხყოფს ადამიანს, რომელსაც ეს განცდა აქვს. ამგვარად, ამ დებატებში „მეცნიერები“ ფაქტობრივად უწოდებენ „მუსიკოსებს“ სულელებს, უგრძნობებს ან ჰალუცინაციის მსხვერპლებს.
და არა მხოლოდ მუსიკოსებს არ სურთ, რომ მეცნიერებმა უთხრან, მათი განცდები ილუზიაა – ეს თავად სხვა მეცნიერებსაც ეხებათ. მაგალითად, ნეირომეცნიერები ხვდებიან, რომ მათი შედეგები უნდა შეესაბამებოდეს ფიზიკის კანონებს, მაგრამ ფიზიკას არ უწევს ნეირომეცნიერების წესების დაცვა – იმიტომ, რომ ნეირომეცნიერებას წესები საერთოდ არ გააჩნია.
ნეირომეცნიერება ექსპერიმენტული დისციპლინაა – 150 წლიანი გამოცდილების მქონე, უამრავი საინტერესო შედეგით, მაგრამ მცირე კონსენსუსით, გარდა მუდმივი მანტრისა: „აუცილებელია დამატებითი კვლევა.“ როცა აბსტრაქტული თეორია ემთხვევა კონკრეტულ ექსპერიმენტს, იქ არსებობს იერარქია: მათემატიკა დომინირებს ფიზიკაზე, ფიზიკა ქიმიაზე, ქიმია ბიოლოგიაზე, ხოლო ბიოლოგია ფსიქოლოგიაზე. ამიტომაც, თვით მეცნიერების შიგნითაც კი, ზოგადად მიღებულია, რომ მათემატიკისა და ბუნების კანონები უფრო მყარად დგანან, ვიდრე ექსპერიმენტული შედეგები.
ამ გაგებით, იანგსა და მის კრიტიკოსებს შორის განხილვა ნამდვილად მეცნიერულია. და ამავე გაგებით, მეცნიერებას შეუძლია ამ საკითხის გადაწყვეტა.
მაგრამ ჯერ ცოტაოდენი ისტორია.
ხმისა და მათემატიკის კანონები
თომას ედისონს მიაწერენ როგორც კინოს, ისე ფონოგრაფის გამოგონებას, თუმცა ეს ორი ტექნოლოგია ერთმანეთისგან სრულიად განსხვავებულია. კინოტექნოლოგია ანალოგურ უწყვეტ დროს „ყინავს“ ცალკეულ, ერთმანეთთან გაუთვალისწინებლად დაკავშირებულ კადრებად. ფილმში ანალოგური სამგანზომილებიანი ცხოვრება იკუმშება ცალკეულ ორგამზომილებიან ანალოგურ გამოსახულებებად. დრო კი იჭრება, ანუ „ციფრულდება“. ფილმი წარმოადგენს ინდივიდუალურ ფოტოგრაფიულ კადრებს (ორგამზომილებიან ნაცრისფერ ანალოგურ სურათებს), რომლებიც ერთმანეთისგან რამდენიმე ათეული მილიწამითაა დაშორებული.
ამ წყვეტილ გამოსახულებებს შეადარეთ ფონოგრაფები, სადაც დრო უწყვეტია. ფონოგრაფები, ვინილის ფირფიტების წინაპრები, თავდაპირველად იწერდნენ უწყვეტ, მექანიკურად წარმოქმნილ ხმის ვიბრაციებს პირდაპირ თუნუქის ცილინდრზე და შემდეგ უკუ მიმართულებით აჟღერებდნენ მათ კონუსისი ფორმის მქონე დინამიკით, ისეთით, როგორითაც ძაღლები უსმენდნენ ძველ „Victrola“-ს რეკლამებში (ქვემოთ წარწერით: His Master’s Voice, რადგან ძაღლებს რეალურად შეეძლოთ ამ ჩანაწერებში ადამიანების ამოცნობა). ცილინდრებს ჰქონდათ მხოლოდ ერთი ღარი (გრუვი), ამიტომ არც სტერეო ეფექტი იგრძნობოდა და არც სივრცის გადმოცემის შესაძლებლობა. მაგრამ ისინი მაინც იწერდნენ საკმარის უწყვეტ ანალოგურ დროს, რომ მყისიერად გამოეწვიათ ამოცნობის განცდა – იგივე ნეიროსისტემის ტკბილი ელექსირი, რაც ადამიანებსა და ცხოველებს გვაერთიანებს.
20-ე საუკუნის განმავლობაში ანალოგურმა ხმის ჩაწერამ თუნუქის ცილინდრებიდან გადაინაცვლა პლასტმასის დისკებზე, რომლებიც სულ უფრო დიდდებოდა და თანდათან უფრო ნელა ტრიალებდა ტექნოლოგიის გაუმჯობესებასთან ერთად – 78, 45 და საბოლოოდ 33⅓ ბრუნი წუთში (სწორედ ეს ნელი სიჩქარე გახდა ცნობილი, როგორც „ლონგ-პლეინგი“ ანუ LP). დაახლოებით იმავე პერიოდში ანალოგურმა ხმის გადაცემამაც მოიცვა მსოფლიო სხვა გზებითაც.
ანალოგურმა უწყვეტტალღოვანმა რადიომ (ჯერ AM, შემდეგ FM), რომელიც ნიკოლა ტესლამ გამოიგონა და გილიელმო მარკონიმ გაავრცელა, იმიტაცია გაუკეთა ანალოგური ჩანაწერის უნარებსა და თავისებურებებს ელექტრონული ლამფების, კრისტალების და რეზონატორების მეშვეობით. თუ აუდიოჩანაწერი ხმას დროსთან ერთად გადაადგილებდა, რადიო მას სივრცეში გადაადგილებდა და შეიძლებოდა მთელი ქვეყნის მასშტაბით უდიდესი გავლენა მოეხდინა. ორსონ უელსის ხმა და გენიალურობა – ერთ საათზე ნაკლებ დროში არწმუნებდა ამერიკას, რომ მარსიანელები დაესხნენ თავს. ფრანკლინ დ. რუზველტისა და უინსტონ ჩერჩილის ხმები, აგრეთვე რადიოს მეშვეობით შთააგონებდნენ ხალხს ომის პერიოდში. ასევე – ადოლფ ჰიტლერისა და ბენიტო მუსოლინის ხმებიც. ერთმა რადიოხმამაც კი შეიძლება მთელი ერი აამოძრაოს.
ანალოგური ემოციური რეზონანსი ტელეფონებშიც მუშაობდა. ძველი ტიპის „მიწის ხაზის“ ტელეფონები (ე.წ. plain old telephone service, ან POTS) რეალურ დროში აკავშირებდა ორ ადამიანს ორ სპეციალურ სპილენძის ანალოგურ მავთულზე. ვინც იმ თაობაში გაიზარდა, გახსოვთ შეგვეძლო საათობით გვესაუბრა ისე, რომ ხმა არასდროს წყდებოდა: არც ხმაურობდა, არც იბუნდებოდა, არც ჩერდებოდა. იმ ადამიანებს ჰკითხეთ საუბარი ასეთ ტელეფონზე ჰგავდა იმას, თითქოს მეორე ადამიანი პირდაპირ ყურში გელაპარაკებოდა.
საინტერესო ისტორიული ფაქტი: ჯერ კიდევ 1920-იან წლებში, როცა ტელეფონის ხაზები უკვე იმდენად უწყვეტად რეალური ჟღერადობის მქონე იყო, რომ მუსიკოსები, რომელთაც საერთო „Party Lines”-ებზე წვდომა ჰქონდათ, ხშირად ვარჯიშობდნენ ერთად ტელეფონით — სახლში მისვლის გარეშე. მაგრამ ეს ჩვეულება ხელს უშლიდა ფასიან სატელეფონო ზარებს. საბოლოოდ, ასეთი იმპროვიზაციები და დღეობრივი საუბრები იმდენად გავრცელდა, რომ სატელეფონო კომპანიამ Ma Bell-მა დაიწყო კამპანია მათი შესაზღუდად – მათ შორის 1940-იანი წლების სასაცილო ვიდეოც გამოუშვეს სახელწოდებით “Bobby Gets Hep.”
სტერეოს გამოგონებამდეც კი, მონო ხმის მრავალწლოვანმა დახვეწამ ტექნოლოგებს ბევრი რამ ასწავლა ადამიანის სმენის შესახებ. მათ აღმოაჩინეს, რომ ყური საერთოდ ვერ აღიქვამს 20,000 ჰერცზე მაღალ ბგერებს, ამიტომ ამ ზღვარს ზემოთ ენერგიის ხარჯვას აზრი არ ჰქონდა. აგრეთვე გაირკვა, რომ საუბრის გასაგებად საკმარისია დაახლოებით 3000 ჰერცზე დაბალი სიხშირეები; რომ თანხმოვნები გაცილებით მაღალ სიხშირეებშია, ვიდრე ხმოვნები; და რომ თანხმოვნების გარეშე მეტყველება შეუძლებელია (ხოლო ხმოვნების გარეშე — შესაძლებელია, როგორც ჩურჩულში).
შემდეგ მოვიდა სტერეო, რომელიც შესაძლებელი გახდა იმ გენიალური გამოგონების წყალობით, რომ იგივე ნემსი ერთდროულად მოძრაობდა ორ მიმართულებით — ერთმანეთის მიმართ 90 გრადუსით და ატარებდა ორ დამოუკიდებელ არხს. რადგან ერთი და იმავე ღარში ერთი და იმავე ნემსის მიკროვიბრაციები სრულ სინქრონულობაში რჩებოდა მიკროწამების დონეზე, მაღალი ერთგულების ფირფიტის მსმენელს შეეძლო არამხოლოდ გაეგო, რა ჟღერდა, არამედ ზუსტად საიდან მოდიოდა ხმა.
სტერეოს შემდეგ დაიწყო ციფრული ეპოქა: როგორ გადაიქცეს ხმა ციფრულად (ანალოგურ-ციფრულ გარდაქმნად, ADC), როგორ აღდგეს ციფრული ჩანაწერი (ციფრულ-ანალოგური გარდაქმნით, DAC) და როგორ შეკუმშულიყო ეფექტიანად შესანახად და გადასაცემად. ინჟინრებმა ისწავლეს სიგნალის დიდი ნაწილის მოცილება ისე, რომ ადამიანი ამას ვერ ამჩნევს. შედეგად გაჩნდა ახალი ცნებები – სიხშირის დიაპაზონი (bandwidth), ბიტრეიტი, სემპლინგის სიხშირე, კოდირების სიღრმე და მთავარი კითხვა: რა არის „სიგნალი“ და რა — „ხმაური“ (noise).
ამ ახალმა გადაწყვეტილებებმა მოითხოვა ახალი პრინციპები. მონო ხმის შესახებ დაგროვილ გამოცდილებაზე დაყრდნობით, შეკუმშვის ძირითადი პრინციპი გახდა ერთგულება (fidelity) – ხმის მაქსიმალურად სუფთა გადმოცემა ადამიანის სმენის ბუნებრივი ზღვარის ფარგლებში, რათა უკეთ შენარჩუნდეს ამოცნობა, იდენტიფიკაცია და გაგება: ვინ გამოსცემს ხმას? რას ამბობს ან მღერის? რას ნიშნავს ეს ხმა?
რა თქმა უნდა, სიხშირის დიაპაზონსა და ერთგულებას შორის ბალანსი მოითხოვდა ინჟინრულ კომპრომისებს – საჭიროებისა და ხარჯის მიხედვით. ისინი ეფუძნებოდნენ მათემატიკისა და ფიზიკის ძველ კანონებს და ინფორმაციის ახალ „კანონებს“. სწორედ მათემატიკოსმა კლოდ შენონმა აქცია ინფორმაცია რაოდენობრივ ტექნოლოგიურ ცნებად — განსაზღვრა ბიტები, სიხშირის დიაპაზონი, სიგნალი და ხმაური ანალოგურ სტატისტიკურ ალბათობებზე დაყრდნობით. უცნაურია, მაგრამ მიუხედავად იმისა, რომ შენონის განტოლებები ციფრული კომუნიკაციის საფუძველია, თვითონ ეს განტოლებები ანალოგურია – აერთებს უწყვეტ ბუნებასა და ადამიანთა ხელოვნურად ამოკვეთილ შეტყობინებებს.
კიდევ ერთი კანონი – ნაიკვისტის თეორემა – უფრო ადამიანზე იყო ორიენტირებული. უკვე ცნობილი იყო, რომ მაღალი სიხშირეები მეტ ინფორმაციას ატარებს, ვიდრე დაბალი — ამიტომ მეტყველებაში თანხმოვნები უფრო აუცილებელია, ვიდრე ხმოვნები, და სწორედ ამიტომ ჟღერს „ჰაი-ფაი“ უფრო რეალისტურად, ვიდრე დაბალგანსხვავებული „ლოუ-ფაი.“ შენონმა იცოდა, რომ ამ გამოცდილებას ღრმა მათემატიკური საფუძველი ჰქონდა და საბოლოოდ დაამტკიცა თეორემა:
თუ სიგნალს რეგულარული სიხშირით fff-ზე აღებ, ინფორმაციის გადაცემის მაქსიმალური სიჩქარე III (ბიტებში) განისაზღვრება ფორმულით: I ≤ f / 2
ეს არის ნაიკვისტის თეორემა, რომელიც მიუთითებს, რომ ციფრული სემპლინგი გარკვეულ პირობებში სრულყოფილი შეიძლება იყოს. შენონის მტკიცება ეყრდნობოდა ჰარი ნაიკვისტს, რომელმაც წლების წინ უკვე დაამტკიცა ამ პრინციპის ნაწილი. თეორემამ აჩვენა, რომ ადამიანის ყური, რომლის ზედა ზღვარი დაახლოებით 20,000 ჰერცია, ვერაფერს მიიღებს 40,000 ჰერცზე მაღალ სემპლინგზე. (სწორედ ამიტომ იწერება CD და WAV ფაილები 44 კჰც-ზე — ოდნავ ზემოთ ამ ზღვარზე). ის ფაქტი, რომ ადამიანი ამ დიაპაზონზე მაღალ ბგერებს ვერ ესმის – მაშინ როცა ღამურებს ესმის – არის არგუმენტი, რომ 88 კჰც-მდე სემპლინგი უაზროა… თუ ღამურა არ ხარ.
ტექნოლოგიის ტრიუმფი
1970-იან წლებში, როცა თინეიჯერი ვიყავი, საკუთარ თავს nerd აუდიოფილად მივიჩნევდი. ჩემი შემოსავლის ნახევარი იდეალურად ბალანსირებულ ყურსასმენებსა და მაღალი ხაზოვნების, დაბალი ხმაურის და ფართო დინამიკური დიაპაზონის მქონე გამაძლიერებლებში მიდიოდა. უკვე პირველი CD-ებიც კი ამ პარამეტრებში საოცარ გაუმჯობესებას იძლეოდა. ამიტომ ჩემი ვინილის კოლექცია გადავყარე. ვიცოდი, რომ ადამიანის მოსმენის მაქსიმალური ზღვარი 20,000 ჰერცია და ამიტომ ციფრული ჩაწერა ობიექტურად უკეთესი იყო – თუ არა სრულყოფილი.
სინამდვილეში, საქმე ასე მარტივად არ არის. ყურსასმენები და ეარბადები, რადგან უფრო მცირეა და მშვიდად მუშაობს, მართლაც უკეთეს ბგერას იძლევა ფასის შესაბამისად, მაგრამ ისინი მოძრაობენ თავისთან ერთად და ართმევენ ბასის ნოტებს იმას, რასაც კანი გრძნობდა. ციფრული CD-ები, რომლებიც მხოლოდ დიგიტალიზებულია, მაგრამ არა შეკუმშული მაინც თითქმის იდეალურად ჟღერდა ჩემთვის, მაგრამ არა MP3, AAC და მოგვიანებით სტრიმინგი. ეს ფორმატები აუდიოს უფრო პორტატულსა და მოსახერხებელს ხდიდა, მაგრამ გარკვეული ხარისხის ფასად. ჩემთვის როგორც ინტელექტუალურად, ისე სენსორულად სრულიად ნათელია, რომ გადაჭარბებული შეკუმშვა ნამდვილად აზიანებს ხმის ხარისხს – ამაზე არავინ დავობს.
მუსიკოსებისა და ინჟინრების პარადოქსი
ასე რომ, მე ორ ტექნოლოგიურ გარდატეხას მოვესწარი: ანალოგური ვინილების და ტელეფონების ეპოქიდან ციფრულ CD-ებსა და ინტერნეტ-ზარებზე (VoIP), რომლებიც ნორმალურად ჟღერდა და შემდეგ იქიდან ძლიერ შეკუმშულ MP3-ებსა და მობილურ ტელეფონებზე, რომლებიც აშკარად უარესი იყო.
მიუხედავად ამისა, ცუდად ჟღერადმა, მაგრამ მოსახერხებელმა ტექნოლოგიებმა მაინც გაიმარჯვეს ბაზარზე, იმდენად, რომ დღეს ჩვენი მუსიკისა და ხმის უმეტესი ნაწილი როგორც დიგიტალიზებულია, ასევე შეკუმშული. აშკარაა, რომ ჯიბეში 5,000 სიმღერის ქონა (როგორც პირველი iPod-ი გვპირდებოდა) ადამიანებს კოლექტიურად უფრო იზიდავს, ვიდრე რამდენიმე, მაგრამ მართლაც ხარისხიანი ჩანაწერი ფირსაკრავზე – სახლში. მეცნიერების ტრიუმფი სწორედ ის იყო, რომ შექმნა და დანერგა ეს ტექნოლოგიები, რათა ადამიანებს შეეძლოთ აერჩიათ სწრაფი/მოსახერხებელი/უხეში (iPod-ის მსგავსი) ან ნელი/მოუხერხებელი/დახვეწილი (CD-ის მსგავსი) გამოცდილება.
დაბალი ხარისხის ხმის უდიდესი ნაწილი — იქნება ეს iPod-ზე თუ მობილურზე — ზედმეტი შეკუმშვის შედეგია. მაგრამ ნეილ იანგის მიერ განახლებული ძველი დებატი არ ეხება ზედმეტად შეკუმშულ ფორმატებს, როგორიცაა სტრიმინგი, არამედ შეუკუმშავ ციფრულ მუსიკას — CD-ებს. აი, სწორედ აქ იმალება საიდუმლო: რატომ მიაჩნიათ ინჟინრებს ეს სრულყოფილად, ხოლო მუსიკოსებს — საშინლად?
ეს ნამდვილი სამეცნიერო პარადოქსია, რომელიც თავად მეცნიერებსაც ეხებათ. რატომ ამტკიცებენ იანგი და უამრავი მუსიკოსი თუ ხმის არტისტი პროფესიული სერიოზულობით, რომ თუნდაც საუკეთესო ციფრული ჩანაწერები აზიანებს „წარმატების“, „არსის“ ან „ემოციური ენერგიის“ შეგრძნებას? ეს არის დაპირისპირება მგრძნობიარე მსმენელებსა და იმ მეცნიერულ აზროვნებას შორის, რომელიც ფიზიკასა და მათემატიკაზე დაყრდნობით აცხადებს, რომ ასეთი განსხვავებები უბრალოდ შეუძლებელია.
მაგრამ რა მოხდება, თუ მეცნიერებს რაღაც გამორჩათ?
დაკარგული მიკროდროების საიდუმლო
ჩემი საკუთარი სამეცნიერო კარიერა გარკვეულ სინათლეს ჰფენს ამ საკითხს. ბავშვობაში მე მართლაც სიამოვნებას ვიღებდი ფიზიკის “სიტყვიერ ამოცანებით”, რომლებიც ჩემს თანატოლებს აშინებდათ. დაუსრულებლად ვმუშაობდი არა მხოლოდ სკოლაში გამოქვეყნებულ „ყოველთვიურ ამოცანებზე“, არამედ ანალოგურ ელექტრონულ სქემებზე და სხვადასვა ელექტრონულ პროექტებზე. (ჩემი ერთადერთი ციფრული პროექტი იყო საათიანი რადიო: თავად დავჭერი სპილენძის დაფა, დავჩრჩილე ტრანზისტორები და ინტეგრალური მიკროსქემა და ყველაფერი სიგარის ხის ყუთში მოვათავსე.)
ეს თვითნაკეთი მიდგომა გამყვა სამაგისტრო სწავლებაშიც, სადაც ერთ უცნაურ საიდუმლოს წავაწყდი – ტვინის ნეირონებს გაცილებით უფრო მცირე და სწრაფი დროის სხვაობები ადარდებთ, ვიდრე ნეირომეცნიერები ფიქრობდნენ.
მიზეზი მარტივია: ინფორმაციის რაოდენობა იზრდება, რაც უფრო ზუსტია დროის აღქმა. თუ ტვინს სურს ინფორმაცია ეფექტურად დაამუშაოს, ის უნდა იყოს მგრძნობიარე სულ მცირე მილიწამებზე, თუ არა მიკროწამებზე. როდესაც საკუთარი ძალებით აღმოვაჩინე, რომ ნეირომეცნიერებას ეს „მიკროდრო“ გამორჩენოდა, ბუნების ნაზ სიზუსტესა და სამეცნიერო სისტემის შაბლონურ ჩაკეტილობას ერთდროულად დავხედე. მივხვდი, რომ ჩემი საკუთარი მეცნიერების სფეროს რაღაც დიდი გამოეპარა.
სამაგისტრო და პოსტდოქტორანტურის შემდეგ, აკადემიიდან დავბრუნდი ბავშვობის მიწაზე – სილიკონის ველზე. იქ 15 წელი ვიმუშავე როგორც „ტექნოლოგიური კრიზისების გადამრჩენი“, რაც ნიშნავდა, რომ ან გადამერჩინა, ან მაინც გამესვა ზუსტი მიზეზი, თუ რატომ ვერ იშველებოდა ერთი შეხედვით განწირული პროექტი. რთულ ტექნოლოგიურ ამოცანებთან მუშაობამ გამახსენა ის ფუნდამენტური პრინციპები, რაც ჯერ კიდევ სკოლის ფიზიკის ამოცანებიდან მქონდა ნასწავლი: ყველაზე მარტივი და ხშირად გადამწყვეტი კითხვა ყოველთვის ასეთია – „რა მინიშნებები ჯერ არ გვინახავს?“ ან „არის რაიმე ბუნების სხვა კანონი, რომელიც შეგვიძლია აქაც გამოვიყენოთ?“
„სად“ სჯობს „რას“ — სმენაში
სტატიის დასაწყისში ვთქვი, რომ ხმის ჩაწერისას ორი ბუნების კანონი მოქმედებს. ერთი იყო ნიკვისტის თეორემა; მეორე კი ჰაერში ხმის სიჩქარეა: 330 მეტრი წამში = 1 მილიმეტრი 3 მიკროწამში.
რატომ შეიძლება ამას ჰქონდეს მნიშვნელობა? ხმის მეცნიერება დღევანდელ ჩიხში სწორედ იმით აღმოჩნდა, რომ დარჩა იმაში, რაც კარგად ესმოდა, ნაცვლად იმისა, რაც უნდა გაეგო. მეცნიერება ტრადიციულად ერთი ცვლადით მუშაობდა – ერთი მონოურალური ხმის არხით, ნემსებით, მავთულებით, დინამიკებით და ბოლოს – შანონისა და ნიკვისტის მოდელებით. იმ დროს მეცნიერებას არ ესმოდა, რას აკეთებდა ტვინი, ამიტომ ეს ნაწილი გამოტოვა.
ადამიანზე და ტვინზე ორიენტირებული მიდგომა კი ხმის მიმართ სხვანაირია: ტვინის მთავარი ამოცანაა სამგანზომილებიანი სხეულის ვიბრაციების მართვა. ამ ამოცანის ნაწილი ის არის, რომ ტვინმა უნდა გაარკვიოს, რა გამოიწვია ბგერამ და რაც უფრო მნიშვნელოვანია – საიდან მოვიდა იგი.
წარმოიდგინე, მარტო ხარ ბნელ ტყეში, შიშით გარშემომყოფ საფრთხეებს უსმენ. უცებ – კრაკ! – ტოტი გატყდა ახლოს. იმ წამს რომ გკითხონ, უფრო მეტად გაინტერესებს საიდან იყო ხმა, თუ რა ხისგან იყო ტოტი გაკეთებული?
ხმის ლოკალიზაციის საუკეთესო გზა მთელი სხეულის გამოყენებაა. ყურები, თავის ქალა, კანი, შინაგანი ორგანოები, ყველაფერი ვიბრაციის სენსორებითაა აღჭურვილი. ტვინი ამ ვიბრაციებს მთლიანად აერთიანებს: კანისა და ყურებისგან ერთიან ვიბრაციულ „სურათს“ ქმნის.
ყურსასმენები და ეარბადები ამ მთლიან გამოცდილებას ანაწევრებს. ჩვეულებრივ, კანი მაინც შთანთქავს გარე ვიბრაციებს, რაც ხედვასთან თავსებადია, მაგრამ ყურსასმენების ქვეშ ყურები სრულიად სხვა სიგნალებს იღებენ, პირდაპირ ტვინის შიგნით. ამ ახალ ხმოვან „სურათს“ აღარ შეესაბამება კანისა და თვალის ინფორმაცია. ასეთი წინააღმდეგობა ტვინისთვის ერთგვარი ძლიერი “ჰაკია” თითქმის ისეთი, როგორსაც ნარკოტიკი ახდენს. სხვადასხვა სენსორული ნაკადების მიღება, რომლებიც ერთმანეთს სივრცეში ეჯიბრებიან, არღვევს ტვინის ბუნებრივ დიზაინს.
სმენისთვის კი კანი მხოლოდ დამხმარეა, რადგან ყურები თვითონაც საკმაოდ კარგად ახერხებენ ხმოვანი წყაროს პოვნას. ყურები (და ტვინი) ადგენენ ხმის მდებარეობას ორი ყურის მიერ მიღებული ტალღების ჩამოსვლის დროის მიკროწამიანი სხვაობით. აკუსტიკოსები ამას inter-aural timing difference-ს უწოდებენ და თუ მათ მოსწონთ “სიტყვიერი ამოცანები”, შეუძლიათ გამოთვალონ, როგორ გარდაიქმნება ეს სანტიმეტრიანი დაშორება იმ მიკროწამიან სხვაობად, რომელსაც ტვინი იყენებს.
ჩემი სადოქტორო ნაშრომი ნეირონულ იმპულსებზე იყო, ამიტომ ვიცი – თითოეული იმპულსი დაახლოებით ერთი მილიწამი გრძელდება. ეს კი ათასი მიკროწამია, ასობითჯერ უფრო გრძელი, ვიდრე ის რამდენიმე მიკროწამი, რაც საჭიროა ხმის მდებარეობის გასარკვევად. ზედაპირულად, ნეირონული იმპულსები თითქოს ძალიან მოუხერხებელია ასეთი წვრილი სიგნალების გადასატანად.
საბედნიეროდ, ნეირონები ხმას არ იმახსოვრებენ ისე, როგორც CD-ები. ციფრული ჩაწერა ყოველ 23 მიკროწამში ერთხელ „იღებს ნიმუშს“, იქნება ხმა თუ არა. ნეირონი კი ელოდება ტალღას და მხოლოდ მაშინ ისვრის იმპულსს. და ყველა ნეირონი ამას ერთდროულად აკეთებს. ასე რომ, როცა ბგერითი ტალღა ერთდროულად ბევრ ნეირონს ეჯახება, ისინი სინქრონულად ისვრიან იმპულსებს და ტვინი ამ ერთობლივი სიგნალიდან განსაზღვრავს, ზუსტად როდის მოვიდა ტალღა, საჭიროების შემთხვევაში მიკროწამების სიზუსტით.
ტექნოლოგიურ ენაზე ნათარგმნი პრინციპი ასეთია: ნერვული სისტემა იმახსოვრებს მხოლოდ ერთი ბიტის ამპლიტუდას, მაგრამ ზუსტად მის მოსვლის დროს. ამპლიტუდა ფიქსირებულია – მთელი ინფორმაცია დროშია.
ციფრული ჩაწერის პრინციპი კი საპირისპიროა: ის იმახსოვრებს ცვლად ამპლიტუდებს ფიქსირებულ დროზე. მაგალითად, 24-ბიტიანი ამპლიტუდით ყოველ 23 მიკროწამში (44 კჰც). ამ შემთხვევაში მთელი ინფორმაცია ამპლიტუდაშია.
ამიტომ, განსხვავებით ციფრული ჩამწერებისგან, ნერვულ სისტემას მიკროდროებზე საოცრად დიდი ყურადღება აქვს გამახვილებული, როგორც სიგნალის ამოცნობაში, ისე მის ინტერპრეტაციაში. და რიცხვები მართლაც მნიშვნელოვანია: საუკეთესო CD-ც კი მხოლოდ 23 მიკროწამამდე წყვეტს დროს, მაშინ როცა ჩვენს ნერვულ სისტემას სჭირდება სულ მცირე 10-ჯერ უკეთესი სიზუსტე – დაახლოებით 2–3 მიკროწამამდე.
ამ მცირე განსხვავებას ამპლიტუდის დონეზე თითქოს უმნიშვნელო პროცენტული სხვაობა ჰგონია, მაგრამ სინამდვილეში ის შეიცავს იმ ინფორმაციის დაახლოებით 90%-ს, რომელსაც ტვინი ხმის აღქმისას იყენებს. სწორედ ამ მიკროდროს წყალობით ვგრძნობთ ხმის არსებასა და სიღრმეს ჩვენ გარშემო – და ამავე მექანიზმით აღვიქვამთ ემოციებს სხვის ხმაში.
ძველი ანალოგური ტექნოლოგიები, ვინილები და ტრადიციული ტელეფონები ამ აუცილებელ 90%-ს ინარჩუნებენ, ციფრული ჩაწერა კი მას ანადგურებს.
ნეილ იანგი მართალი იყო!
მარტივი ტესტები
რადგან ეს მეცნიერებაა – ყველაფერი შემოწმებადია. მიკროდროების სიზუსტის ყველაზე შთამბეჭდავი გაზომვები ალბათ იმ ადამიანებში აღმოჩნდება, რომლებიც ხმას იყენებენ სივრცეში ორიენტაციისთვის, ანუ დაბადებიდან ბრმებში, განსაკუთრებით მათ შორის, ვინც ცხოვრობს მშვიდ, ბუნებრივ გარემოში, სადაც უმცირესი ბგერითი განსხვავებებიც ადვილად ისმის. საერთო ჯამში, მათი სმენა, დიდი ალბათობით, წარმოადგენს ადამიანის სმენითი აღქმის ყველაზე ზუსტ ფორმას.
შესაბამისად, უნდა შევამოწმოთ, რამდენად ზუსტად ესმით მათ სივრცული მდებარეობები იდეალურ პირობებში. მაგალითად, როგორ ადევნებენ თვალს ზემოთ მფრენ თვითმფრინავებს ღია ველზე (შიშველი კანით), ან როგორ არჩევენ ერთმანეთისგან რამდენიმე სანტიმეტრით დაშორებულ ბგერით „კლიკებს“ სხვადასხვა მანძილზე. მათვე უნდა შევადაროთ ვინილები CD-ებსა და სტრიმინგ პლატფორმებთან; ან ტრადიციული ტელეფონის ხაზები (POTS) – VoIP-სა და მობილურ ზარებთან. უბრალოდ ჰკითხეთ მათ თავად. (და ნუ ენდობით ამაში Apple-ს ან Google-ს).
მიკროდროის კომუნიკაციის მომავალი
როცა ნეილ იანგი ციფრულ მუსიკას აკრიტიკებდა, მან უნებლიეთ გამოკვეთა გაცილებით დიდი, გლობალური ჯანდაცვის კრიზისი, რომელიც ხელოვნურ ხმებს უკავშირდება. (ეკრანებსაც, სხვათა შორის.) რა თქმა უნდა, ადამიანებს ხელოვნური ან „გადატანილი“ ბგერები მოსწონთ. მაგრამ, როგორც ნარკოტიკების შემთხვევაში, ნერვულ სისტემას ზოგჯერ ის უყვარს, რაც საზიანოა მისთვის. გამოკვეთილი, საინტერესო და ყურადღების მომჭერი ხმებიც გამონაკლისი არ არის. და როგორც შაქრის შემთხვევაში, ბაზარი ფულს აკეთებს იმაზე, რაც ადამიანს „ახლავე უნდა“.
იგივე ლოგიკით, ადამიანები, როგორც სახეობა, ადრე საუბარს განსაკუთრებულად აფასებდნენ, მაშინ, როცა პირისპირ ყოფნა ან POTS ტელეფონი გვაძლევდა ამის საშუალებას. დღეს კი, მარტივი მაგრამ მახინჯი ფინანსური სტიმულების გამო, ქსელები ფულს შოულობენ ბენდვისის შეზღუდვითა და ხმების გადაჭარბებული შეკუმშვით. შედეგად, მობილური ზარები თითქმის ყოველთვის დაბალი ხარისხისაა და დაკარგული აქვთ ემოციური რეზონანსი. ადამიანები მობილურით მხოლოდ მაშინ ურთიერთობენ კარგად, როცა უკვე ძალიან ახლოს იცნობენ ერთმანეთს.
მომავალი მიკროდროის ტექნოლოგიები
ვიწინასწარმეტყველებ, რომ სამი ახალი ტექნოლოგია შეცვლის სამყაროს, ადამიანებს კვლავ დაუბრუნებს ნამდვილ კავშირს.
1) მოწყობილობები, რომლებიც ხმას სწორად გაზომავენ.
საკმაოდ მარტივი იქნება მრავალფუნქციური „ტრიკორდერის“ შექმნა – მოწყობილობისა, რომელიც ადამიანის ხმოვან გარემოს სხვადასხვა თვალსაზრისით გაზომავს: ხმაურის დონე (მინიმალური, მაქსიმალური, საშუალო), სიხშირის განაწილება, მოულოდნელობა, განმეორებადობა და სხვა სიგნალის მახასიათებლები, რომლებიც ტვინსა და ყურებს აინტერესებთ. მით უმეტეს, თუ ეს მოწყობილობა მონაცემთა არხით დაუკავშირდება ანალოგურ ტრიკორდერს მეორე მხარეს, შესაძლებელი იქნება თავად ზარის ან საუბრის სენსორული პარამეტრების მონიტორინგი – მაგალითად, დაგვიანება (latency), მისი ცვალებადობა (jitter), „ცხელი“ და „მკვდარი“ ზონები ბგერით სივრცეში და (სტერეოში) 3D რეკონსტრუქციის ხარისხი. ასეთი მოწყობილობა ბგერითი „კვების ეტიკეტივით“ იმუშავებდა – მოგვცემდა ინფორმაციას ჩვენი სმენითი ჯანმრთელობის შესახებ, რათა შეგვეძლოს უფრო ჯანმრთელი არჩევანის გაკეთება.
2) მიკროდროების ჩაწერა და სტერეო.
უკვე არსებობს ვიდეოტექნოლოგია, რომელსაც „event camera“ ჰქვია – ის ნერვული სისტემის მსგავსად იმპულსებზე მუშაობს. ხმის იმპულსების დაფიქსირებამ შეიძლება სრულიად ახალი ტიპის ანალოგური ჩაწერის გზა შექმნას – ამპლიტუდის ნაცვლად მიკროდროების შენარჩუნებით.
თუ ასეთი მეთოდით ჩაწერილი სტერეო ჩაირთვება სწორად განლაგებულ დინამიკებზე, მსმენელი მიიღებს იმდენად მკვეთრ და სიღრმისეულ 3D ბგერით ველს, რაც რეალურ ცოცხალ ხმას უახლოვდება.
3) მიკროპრეზენცია = მიკროდრო ტელეპრეზენცია.
წარმოიდგინე, რომ მიკროდრო სტერეო შეერწყა ვიდეოს საშუალებით დისტანციურ ურთიერთობას. ერთ-ერთი საუკეთესო ფორმა იქნებოდა გაფართოებული რეალობის სისტემა, რომელიც ერთმანეთთან აკავშირებს ორ ოთახს და მეორე ადამიანის სახეს თანმიმდევრულად აჩენს შენს ხედვაში. მიკრო-გამოხატვები, ანუ სახის უმცირესი ცვლილებები, მაინც ნაწილობრივ გამოჩნდება ვიდეოს საშუალებით. თუ ამას დავუმატებთ სწორად სინქრონიზებულ მიკროდრო ხმას, რომელიც ზუსტად ემთხვევა თანამოსაუბრის ბაგეებსა და ყელს, მივიღებთ ყველაზე თანმიმდევრულ და ბუნებრივ გრძნობას დისტანციური ურთიერთობისას.
რაც უფრო მალე აღადგენს ტექნოლოგია იმ მიკროდრო კავშირებს, რომლებიც ადამიანს სჭირდება განვითარებისთვის, მით უფრო მალე გავყვავდებით ჩვენც — და მარტოობა წარსულში დარჩება.
ყველაზე ძლიერი კავშირი ყოველთვის ფიზიკური სიახლოვეა.
მე ველი, რომ მომავალი მოიტანს უფრო მეტ „აკუსტიკურ“ კონცერტს — ცოცხალ მუსიკოსებს, მიკროფონებისა და მბრწყინავი LED განათების გარეშე.
აკუსტიკურ ცეკვებს. აკუსტიკურ კონფერენციებს.
საბოლოოდ გაირკვა, რომ „ემოციური რეზონანსი“, რომელსაც ადამიანები ერთად განიცდიან, სინამდვილეში ნეირო-მექანიკური რეზონანსია – რომელსაც აუდიოფიზიკა აძლიერებს და რეპროდუქცია ამცირებს. (ეს საუკეთესოა ისეთი ადგილებში, როგორიცაა ტაძრები, ეკლესიები ან აუროვილის მატრიმანდირი.) ცოცხალი სიჩუმე, ისევე როგორც ცოცხალი მუსიკა, ყოველთვის დააკავშირებს ადამიანებს ისე, როგორც ნეილ იანგს სურს.
დიდი ტექნოლოგიური კომპანიები შესანიშნავად საუბრობენ საკუთარ თავზე. ეს სერია — Tech Turncoat Truths (3T) – სცილდება ამ ბზინვარე სურათს და აჩვენებს, როგორ მოქმედებს ციფრული ტექნოლოგია ადამიანურ გონებასა და სხეულზე. სურათი ლამაზი არ არის, მაგრამ ჩვენ არ გვჭირდება სილამაზე, გვჭირდება სიმართლე, რომ გავიგოთ, რას ვაკეთებთ საკუთარ თავთან.
ამ სტატიაში გამოთქმული მოსაზრებები ეკუთვნის ავტორს და არ ასახავს Fair Observer-ის რედაქციის პოზიციას.
