صداهای ساختگی، منحصر به فرد به اندازه اثرات انگشت

متن سخنرانی :
من امروز می خواهم درباره این جنبه قدرتمند و اساسی از اینکه کی هستیم، صحبت کنم: صدای ما. هر یک از ما صدای منحصر به فرد خود را داریم که منعکس کننده سن، اندازه حتی شیوه زندگی و شخصیت ما است. به گفته لانگ فلو شاعر "صدای انسان عضو روح است". به عنوان یک محقق گفتار؛ من شیفته چگونگی تولید صدا هستم، و من ایده ای در مورد چگونگی مهندسی صدا دارم. این چیزی است که دوست دارم با شما به اشتراک بگذارم.
من می خواهم با اجرای یک نمونه صدا برای شما شروع کنم،  صدایی شما ممکن است بشناسید.
(صدای ضبط) استفان هاوکینگ: "من فکر می کردم منظورم کاملا واضح باشد."
روپال پاتل: صدای پروفسور استفان هاوکینگ بود. چیزی که ممکن است شما ندانیداین است که شاید همین صدای توسط این دختر کوچک نیز استفاده شود که به علت شرایط عصبی قادر به صحبت نیست. در حقیقت، تمام این افراد ممکن است از صدای مشابهی استفاده کنند، و این مسئله به این علت است که تنها موارد انتخاب کمی در دسترس است. فقط در آمریکا، ۲/۵ میلیون آمریکایی وجود دارد که قادر به صحبت نیستند، و بسیاری از آنها از وسایل کامپیوتری برای ارتباط برقرار کردن استفاده می کنند. هم اکنون میلیون ها فرد در سراسر جهان هستند که از صداهای عمومی استفاده می کنند، از جمله صدای پروفسور هاوکینگ که از صدایی با لهجه آمریکایی استفاده می کند. این کمبود ساخت صداهای مصنوعی برای هر فرد زمانی واقعا اهمیتش برای من مشخص شد که در کنفرانس تکنولوژی کمک رسان بودم چند سال قبل و به یاد می آورم که در تالار نمایش راه می رفتم و یک دختر کوچک و یک مرد بالغ را دیدم که با استفاده از دستگاهایشان با هم گفتگو می کردند، دستگاه های مختلف، اما صدای یکسان. و من به اطراف نگاه کردم و دیدم این مسئله در تمام اطراف من رخ می دهد، به معنی واقعی کلمه صدها نفر از تعداد کمی صدا استفاده می کردند، صداهایی که مناسب بدن و شخصیت آنها نبود. ما نمی توانیم تصور کنیم که اعضای مصنوعی یک مرد بالغ برای یک دختر کوچک متناسب باشد. بنابراین چرا صدای مصنوعی یکسانی را برای آنها تصور می کنیم؟ این مسئله واقعا من را به فکر واداشت و تصمیم گرفتم کاری در آن باره انجام دهم.
من حالا می خواهم یک نمونه از صدای فردی که، در واقع دو نفر، که ناهنجاری گفتاری شدید دارند را برای شما پخش کنم. از شما می خواهم گوش کنید که صدای آنها چطور به نظر می رسد. آنها دارند سخن یکسانی را می گویند.
(صدای اول)
(صدای دوم) شما احتمالا نفهمیدید که آنها چه گفتند، اما امیدوارم که شما هویت صوتی منحصربه فرد آنها را شنیده باشید.
بنابراین چیزی که در مرحله بعد خواستم انجام دهم این است که خواستم بفهمم که چطور ما می توانیم این توانایی های صوتی باقی مانده را کنترل کنیم و تکنولوژی را بسازیم که قابل انطباق برای نیاز آنها باشد، صداهایی که بتواند برای نیاز آنها قابل تغییر باشد. بنابراین من علاقه‌ام را به همکارم، تیم بانل نشان دادم. دکتر بانل یک متخصص در ساخت گفتار است و کاری که انجام می دهد ساخت صداهای شخصی سازی شده برای افراد است که این کار را با جمع آوری نمونه های از پیش ضبط شده صدای افراد و بازسازی صدایی برای آنها انجام می دهد. اینها افرادی هستند که بعدها در زندگی صدایشان را از دست داده بودند. ما نعمت نمونه های صداهای از پیش ضبط شده گفتار را نداشتیم برای افرادی که با ناهنجاری های گفتاری به دنیا آمده اند اما فکر کردم باید راهی باشد برای مهندسی معکوس یک صدا از هر چند مقداری اندکیکه باقی مانده است.
بنابراین تصمیم گرفتیم دقیقا همین کار را بکنیم. ما کار خود را با یافته های کمی از بنیاد ملی علوم آغاز کردیم تا صداهای دستساز مخصوص این افراد را بسازیم که از هویت صوتی منحصر به فرد آنها گرفته شده باشد. ما این پروژه را وکالید یا وکال آی. دی نامیدیم برای هویت صوتی.
حالا قبل از اینکه من وارد جزئیاتی شوم که چطور این صدا ساخته شده است و بگذارم این صدا را گوش دهید، لازم است یک درس واقعا سریع از علم گفتار به شما بدهم. خب،ابتدا، ما می دانیم که صدا در طی مسیر رشد به طور چشمگیری تغییر می کند. صدای بچه ها از نوجوانان متفاوت است و صدای نوجوانان از افراد مسن متفاوت می باشد. همه ما این مسئله را تجربه کرده ایم. حقیقت شماره دو این است که گفتار ترکیبی از منبع است که منبع ارتعاشات تولید شده از جعبه صدا است، که سپس این ارتعاشات به بقیه سیستم صوتی رانده می شوند. محفظه هایی در سر و گردن شما وجود دارد که ارتعاش می کنند و آنها در واقع صدای منبع را فیلتر می کنند تا حروف بی صدا و صدا دار تولید شوند. بنابراین ترکیب منبع و فیلتر، روشی است که ما گفتار را تولید می کنیم. و این مسئله در هر فرد رخ می دهد.
حالا، من قبلا به شما گفتم که یک قسمت خوب از کارم را صرف فهمیدن و مطالعه کردن مشخصه های منبع افرادی با ناهنجاری های گفتاری شدید کردم، و چیزی که فهمیدم این است که با وجود اینکه فیلتر این افراد آسیب دیده بود، آنها قادر بودند منبع خود را تنظیم کنند: زیر و بمی صدا، بلندی، سرعت صدایشان. به این مسئله الگو و ریتم صدا می گویند، و من سالها مستندسازی کرده‌ام که توانایی الگو و ریتم صدای این افراد حفظ می شود. بنابراین وقتی فهمیدم که آن نشانه نیز برای هویت صحبت کننده مهم هستند، این ایده را داشتم چرا ما منبع را از فردی که می خواهیم صدا، شبیه به صدای او باشد نگیریم زیرا منبع آنها حفظ شده است چرا فیلتر را از فردی که حدودا سن و اندازه مشابهی دارد، قرض نگیریم زیرا آنها می توانند گفتار را واضح و شمرده سازند و سپس آنها را ترکیب کنیم؟ زیرا وقتی ما آنها را مخلوط کنیم می توانیم به صدایی به واضحی سخن گویان جایگزین مان برسیم -فردی که ما فیلتر را از او قرض گرفتیم- و ماهیت آن به سخن گوی هدفمان شبیه است. مسئله به همین سادگی است. این مسئله علمی پشت چیزی است که ما انجام دادیم.
بنابراین وقتی شما این مسئله را در نظر داشته باشید شما چطور ساخت این صدا را شروع می کنید؟ خب شما باید فردی را پیدا کنید که تمایل داشته باشد فرد جانشین باشد. این مسئله چیز ناخوشایندی نیست. یک دهنده جانشین بودن تنها نیازمند این است که شما چند صد تا چند هزار سخن را بگویید. این فرآیند همانند چیزی شبیه به این پیش می رود
چیزها بصورت جفت اتفاق می افتند
من دوست دارم بخوابم
آسمان آبی بدون ابر است.
حالا او به همین صورت برای سه تا چهار ساعت ادامه می دهد و تصور این نیست که او هر چیزی را بگوید که فرد هدف می خواهد بگوید. بلکه تصور این است که تمام ترکیب های مختلف صداها که در یک زبان اتفاق می افتد، پوشش داده شود. هر چه شما گفتار بیشتری داشته باشید صدای بهتری را خواهید داشت. وقتی که شما این صداهای ضبط شده را داشته باشید چیزی که ما باید انجام دهیم این است که باید این صداهای ضبط شده را به قطعات کوچک گفتار تجزیه کنیم ترکیب یک-یا دو صدا گاهی حتی تمام کلمات که شروع به جمع کردن یک مجموعه داده ها یا یک پایگاه داده می‌کند. ما قصد داریم این پایگاه داده را بانک صدا بنامیم. حالا توانایی بانک صدا این است که از این بانک صدا حالا می توانیم هر سخن جدیدی را بگوییم مثل " من شکلات دوست دارم." هر کس نیاز دارد بتواند این جمله را بگوید. جستجو در آن پایگاه داده و پیدا کردن تمام بخش های لازم برای گفتن آن سخن.
(ویدیو) صدا: من شکلات دوست دارم
بنابراین این ساخت گفتار است. این مسئله ساخت الحاقی نام دارد و این چیزی است که ما از آن استفاده می کنیم. این مسئله قسمت جدیدی نیست. چیزی که جدید است، روشی است که ما آ نرا شبیه صدای این دختر جوان کردیم.
این سامانتا است. من او را وقتی 9 ساله بود ملاقات کردم و از آن به بعد تیم من و من تلاش کردیم برای او یک صدای شخصی سازی شده بسازیم. ما اول مجبور بودیم یک دهنده جانشین پیدا کنیم و سپس ما مجبور بودیم از سامانتا بخواهیم چند نطق تولید کند. چیزی که او می تواند تولید کند اکثرا صداهایی شبیه به حروف صدا دار است اما همان برای ما کافی بود تا مشخصه های منبع او را استخراج کنیم چیزی که بعدا رخ می دهد به بهترین صورت با قیاس دختر من توصیف می شود. او شش سال دارد. او این مسئله را مخلوط رنگ ها برای رنگ آمیزی صداها می خواند. آن زیبا است. این مسئله واقعا همین است. صدای سامانتا شبیه یک نمونه غلیظ از رنگ خوراک قرمزی است که می توانیم آن را داخل صدای ضبط شده جانشین او بریزیم تا یک صدای صورتی دقیقا شبیه این بدست آوریم.
(ویدیو) سامانتا: آآآآآ
RP: بنابراین حالا، سامانتا می تواند این را بگوید
(ویدیو) سامانتا: این صدا فقط برای من است. من نمی توانم صبر کنم تا از صدای جدیدم با دوستانم استفاده کنم.
متشکرم (تشویق)
من هرگز آن لبخند ملایمی را که در سراسر صورت او گسترده شدفراموش نمی کنم وقتی او برای اولین بار آن صدا را شنید. حالا میلیون ها نفر در سراسر دنیا شبیه ساماتا وجود دارد، میلیونها نفر و ما تنها در ابتدای راه هستیم. چیزی که ما تا کنون انجام داده ایم این است که ما تعداد کمی سخن گوی جانشین از سراسر آمریکا داریم که صدایشان را اهدا کرده اند و ما از آنها استفاده کرده ایم تا تعداد کمی از صداهای شخصی سازی شده اولیه مان را بسازیم. اما کارهای بسیار بیشتری برای انجام دادن وجود دارد. برای سامانتا، جانشین او از جایی در ناحیه مرکزی آمریکا بود، یک غریبه که هدیه صدا را به او داد. و به عنوان یک محقق،بسیار هیجان زده هستم که این کار را به خارج از آزمایشگاه ببرم و نهایتا آن را به دنیای واقعی وارد کنم در نتیجه این کار می تواند تاثیری در دنیای واقعی داشته باشد. چیزی که پس از آن من می خواهم با شما به اشتراک بگذارم این است که من چه رویایی برای بردن این کار به این سطح بعدی دارم. من کل دنیایی را از دهنده های جانشین تصور می کنم از تمام موقعیت های اجتماعی، اندازه های مختلف، سن های متفاوت، که در این مسیر صدا با هم جمع شوند تا به افراد صدایی دهند که به اندازه شخصیت های آنها رنگارنگ باشد. برای انجام این کار به عنوان قدم اول، ما این سایت اینترنتی را راه اندازی کرده ایم VocaliD.org به عنوان مسیری برای جمع کردن آنهایی که می خواهند به ما بپیوندند به عنوان دهنده صدا، به عنوان اهدا کننده مهارتشان، یا هر راهی که این تصور را به واقعیت تبدیل کند.
گفته می شود که دادن خون می تواند زندگی ها را نجات دهد. خب، دادن صدایتان می تواند زندگی ها را تغییر دهد. تمام چیزی که ما نیاز داریم چند ساعت گفتار از سخن گوی جانشین ما است، و به مقدار کمی به اندازه یک حرف باصدا از سخن گوی هدفمان تا یک هویت صدای منحصربه فرد بسازیم.
بنابراین این دانش پشت چیزی است که ما انجام می دهیم. من می خواهم سخنم را پایان دهم با برگشتن به جنبه انسانی که واقعا الهام بخش این کار بود. حدود پنج سال قبل، ما صدای بسیار اولیه ای خود را برای یک پسر کوچک به نام ویلیام ساختیم. وقتی که مادرش اولین بار این صدا را شنید گفت، " این چیزی است که شبیه صدای ویلیام می بود اگر او قادر بود حرف بزند." و سپس من دیدم که ویلیام دارد پیامی را روی دستگاهش تایپ می کند. من شگفت زده شدم، او داشت به چه فکر می کرد؟ تصور کنید صدای فرد دیگری را به دوش بکشید برای نه سال و نهایتا صدای خودتان را پیدا کنید. این را تصور کنید.
این چیزی است که ویلیام گفت: "قبلا هرگز صدای من را نشنیده بودید."
متشکرم
(تشویق)

دیدگاه شما چیست؟

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *