از 5 میلیون کتاب چه چیزی یادگرفتیم
متن سخنرانی :
اریز لیبرمن آیدن: همه می دانند که یک تصویر به اندازه هزاران کلمه ارزش دارد. اما ما در هاروارد می خواستیم به درستی آن پی ببریم. (خنده حضار) برای همین تیمی از متخصصان تشکیل دادیم، از هاروارد و ام آی تی گرفته تا دیکشنری امریکن هریتیج، دایره المعارف بریتانیکا و حتی حامی مالی عظیممان، گوگل. و در حدود 4 سال در مورد آن فکر کردیم. و به نتیجه تکان دهنده ایی رسیدیم. خانمها و آقایان تصویر به اندازه هزاران کلمه ارزش ندارد. در حقیقت تصاویری پیدا کردیم که 500 میلیون کلمه ارزش داشتند.ژان باپتیست میشل: چگونه به این نتیجه رسیدیم؟ من و اروز به روشهایی فکر می کردیم تا به تصویر بزرگی از فرهنگ و تاریخ انسان دست یابیم: تغییر در طول زمان. کتابهایی زیادی در طول تاریخ نوشته شده است. فکر کردیم بهترین راه آموختن از آنها خواندن تمام این چند میلیون کتاب است. البته اگه مقیاسی باشد که بتوان بزرگی آنرا اندازه گرفت، بی نهایت، بی نهایت زیاد است. مشکل این بود که یک محور ایکس وجود دارد، و آن محور کاربردی است. که بسیار، بسیار پایین است.
(تشویق)
امروزه مردم از یک روش جایگزین استفاده میکنند، چند منبع تهیه می کنند وآنرا با دقت می خوانند. کاملا عملی است اما چندان عالی نیست. کاری که می خواهید کنید این است که بهترین و در عین حال عملی ترین نتیجه را از این فضا بدست بیاورید. معلوم شد شرکتی آنطرف رودخانه وجود دارد بنام گوگل که از سالها پیش یک پروژه دیجیتالی کردن را شروع کرده که ممکن است این رویکرد را ممکن سازد. میلیونها کتاب را دیجیتالی کرده اند. یعنی اینکه یکنفر می تواند با روشهای محاسباتی همه کتابها را به یک کلیک بخواند. بسیار عملی و عالی است.
الا: اجازه دهید توضیح دهم این کتابها از کجا می آیند. از زمانهای قدیم کسانی بودن که نویسنده بودند. این نویسندگان شیفته نوشتن کتاب بودند. و این کار با توسعه فرایند چاپ از قرنها پیش آسانتر شد. از آن به بعد نویسندگان 129 میلیون کتاب در موضوعات مختلف را منتشر کردند. اگر این کتابها در تاریخ گم نمی شدند، جایی در کتابخانه بودند، و بسیاری از این کتابها از کتابخانه ها جمع آوری شدند و توسط گوگل دیجیتالی شدند، که تا کنون 15 میلیون کتاب را اسکن کرده است.
وقتی گوگل کتاب را اسکن می کند آنرا به فرمت جالبی در می آورد. علاوه بر اطلاعات اصلی، اطلاعات جنبی را هم داریم. ما اطلاعاتی راجع به اینکه مثلا کجا این کتاب منتشر شده است، نویسنده کتاب کی بوده و چه وقت نوشته شده داریم. و کاری که ما باید بکنیم این است که همه این رکوردها را مرور کنیم و هر چیزی که ارزش مناسب اطلاعاتی ندارد نادیده بگیریم. چیزی که برای ما باقی ماند مجموعه ای از پنج میلیون کتاب است، 500 میلیارد کلمه، رشته کاراکترهایی هزاران برابر بزرگتر از ژنوم انسان-- متنی که اگر نوشته بشود، 10 برابر فاصله رفت و برگشت از اینجا تا ماه کشیده خواهد شد. 10 برابر فاصله رفت و برگشت از اینجا تا ماه کشیده خواهد شد. پاره حقیقتی از ژنوم فرهنگی ما. البته ما وقتی با چنین حجم بی نهایت بزرگی مواجه شدیم... (خنده حضار) کاری کردیم که هر محقق قابل احترامی انجام می داد. صفحه ای از XKCD خارج کردیم و گفتیم، "کنار باستید. ما روش میخواهیم روش علمی رو امتحان کنیم." گفتیم، "کنار باستید. ما روش میخواهیم روش علمی رو امتحان کنیم."
(خنده حضار)
جی ام: در آن زمان فکر می کردیم، بسیار خوب، بیایید اطلاعات را در دسترس افرادی قرار دهیم که با آن کار علمی می کنند. و فکر کردیم چه نوع اطلاعاتی میتوانیم ارائه کنیم؟ البته می خواهید که تمام متن این پنج میلیون کتاب را استخراج کنید. اکنون گوگل و به ویژه اورانت، به ما معادله کوچکی گفتند که باید یاد بگیریم. ازآنجایی که 5 میلیون کتاب داریم پس 5 میلیون نویسنده داریم و 5 میلیون شاکی که دعوای دادگاهی عظیمی است. اگرچه بسیار بسیار عجیب است، خیلی خیلی غیرممکن است. (خنده حضار)
ما کاوش کردیم، و ما روش خیلی کاربردی ای را انجام دادیم، که کمتر جالب بود. گفتیم بجای انتشار متن کلی کتاب، ما میخواهیم اطلاعات آماری راجع به کتابها منتشر کنیم. مثلا کتاب "بارقه ای از امید" را برای مثال در نظر بگیرید که چهار کلمه است، آنرا 4 تایی نامیدیم. به شما خواهیم گفت چندبار یک چهارتایی خاص در سالهای1801، 1802، 1803 تا 2008 در کتابها بکار رفته. این روش به ما یک سری زمانی از اینکه این جمله در طول زمان چقدر تکرار شده به ما می دهد. این کار را برای تمام کلمات و عباراتی که در کتابها بکار رفته بود انجام دادیم، و جدولی به بزرگی 2 میلیارد خط داد که به ما نحوه تغییر فرهنگ را می گوید.
الا: از اینرو آن دو میلیارد خط، را دومیلیارد ان-گرم می نامیم. به ما چه می گویند؟ هر کدام از این ان-گرمها روند فرهنگی ما را می سنجند. اجازه دهید مثالی بزنم. فرض کنید من در حال پیشرفت هستم، و فردا به شما خواهم گفت چقدر خوب کار کردم. و ممکن است بگویم "دیروز من پیشرفتم" همچنین، می توانیم بگویم، دیروز پیشرفت کردم" کدام را باید بکار ببرم؟ چطوری بفهمم؟
حدود شش ماه پیش، بهترین کار در این زمینه اینطور بود که مثلا با موهای عجیب پیش روانشناس بروید و بگویید، استیو، تو متخصص افعال بی قاعده ایی. چکار کنم؟ و او به شما می گفت، خوب اغلب مردم می گویند پیشرفت کردم، اما بعضی ها می گویند پیشرفتم. و کم و بیش می دانید، که اگر به 200 سال پیش برگردید و این جمله را با موهای عجیب بپرسید، (خنده حضار) "تام، چی باید بگم؟" می گفت ، "خوب در روزگار من مردم پیش میرفتند، اما بعضی ها پیشرفت میکردند" چیزی که به شما نشان خواهم داد اطلاعات خام هستند. دو ردیف از این جدول دومیلیارد ردیفی. چیزی که می بینید تکرار سال به سال "پیشرفت کردن" و "پیشرفتن" در طول زمان است. و این تاره دو ردیف از دو میلیارد ردیف است. بنابراین مجموعه کل اطلاعات یک میلیارد بار شگفت انگیز تر از این اسلاید است.
(خنده حضار)
(تشویق)
جی ام: تصاویر دیگری هم وجود دارد که 500 میلیارد کلمه می ارزند. برای نمونه، این یکی. اگر آنفولانزا را در نظر بگیرید، شما میتوانید در زمان هایی که میدانید آنفولانزا جان مردم زیادی را در سراسر جهان گرفته، اوج هایی مشاهده کنید.
الا: اگر هنور متقاعد نشدید، سطح دریاها در حال افزایش هستند، همینطور دی اسید کربن و گرمای زمین.
جی ام: شاید بخواهید به این ان-گرم خاص نگاهی بیاندازید، که به نیچه می گوید خدا نمرده، اگرچه شاید موافق باشید که به تبلیغ کننده بهتری نیاز دارد.
(خنده حضار)
الا: می توانید مفاهیم انتزاعی زیبایی با اینگونه چیزها بدست آورید. برای نمونه بذارید براتون تاریخ سال 1950 را بگم. اکثر عمده تاریخ، کسی به 1950 توجهی نمی کند. در سال 1700، در 1800 در 1900، هیچکس اهمیت نداد. از دهه 30 و 40، هیچکس اهمیت نداد. ناگهان در اواسط دهه 40، یه صدایی شروع شد. مردم متوجه شدند که سال 1950 داره میرسه، و این می تونه اتفاق خیلی بزرگی باشه. (خنده حضار) اما هیچی چیز 1950 برای مردم جذاب نبود همانند سال 1950. (خنده حضار) مردم با وسواس به این طرف و آنطرف می رفتند. نمی تونستند جلوی صحبت کردنشان را بگیرند درباره کارهایی که در سال 1950 انجام داده بودند، و چیزهایی که قصد داشتند در سال 1950 انجام دهند، تمام ارزوهایی که می خواستند در سال 1950 برآورده کنند. در حقیقت، سال 1950 چنان جذاب بود که سالها بعد از آن، مردم فقط به صحبت در مورد تمام اتفاقاتی که افتاده بود صحبت کردند، در 51، 52، 53. و در سرانجام در 1954، یکی فهمید که سال 1950 تمام شده. (خنده حضار) و اینگونه، حباب ترکید.
(خنده حضار)
و داستان 1950 داستان هرسالی است که ثبت می کنیم، با کمی تغییر چون ما این جدول های زیبا را داریم. و چون این جدولهای زیبا را داریم، می توانیم اتفاقات را اندازه گیری کنیم. می توانم بگویم، "با چه سرعتی حباب ترکید؟" و مشخص شد که می توانیم آنرا با دقت اندازه گیری کنیم. معادلات بدست آمد و گراف ها رسم شد، و نتیجه نهایی چیزی شد که فهمیدیم حباب سریعتر و سریعتر می ترکد هر سالی که می گذرد. علاقه خود را به گذشته با سرعت بیشتری از دست می دهیم.
جی ام: اکنون کمی نصیحت شغلی. آنهایی که به دنبال شهرت هستند، می توانیم از 25 شخصیت مشهور سیاسی یادبگیریم، نویسندگان، هنرپیشه ها و غیره. اگر می خواهید خیلی زود مشهور بشید باید هنرپیشه شوید، چون شهرت از پایان دهه 20 شما شروع می شود-- هنوز جوان هستید و این خیلی عالیه. اگر کمی صبر داشته باشید باید نویسنده شوید، چون به جاهای بالایی خواهید رسید، مانند مارک تواین بسیار مشهور. اما اگر می خواهید به جای بالا برسید، باید لذت را به تاخیر بیاندازید و البته سیاستمدار شوید. و اینجاست که تا پایان دهه 50 زندگی خود مشهور می شوید، و بعد از آن بسیار بسیار مشهور خواهید شد. دانشمندان هم وقتی مسن تر شدن مشهور می شوند. مانند بیولوژیست ها و فیزیکدانها تقریبا به اندازه هنرپیشه ها مشهورند. نباید اشتباه کنید و ریاضی دان شوید. (خنده حضار) اگر اینکار را کنید، ممکن است فکر کنید "عالیه، من وقتی 20 سالم شد بهترین کارم را ارائه می کنم" اما می توانید حدس بزنید، هیچکسی توجهی نخواهد کرد.
(خده حضار)
بیشتر نوشته های ان-گرم جدی هستند. مثلا این خط سیر مارک شاگال است، هنرمندی که در سال 1887 بدنیا آمد. همانند مسیر رایج یک شخص مشهور به نظر می رسد. او مشهورتر، مشهورتر و مشهورتر می شود، بجز وقتی به آلمان نگاه کنید. اگر به آلمان نگاه کنید چیز کاملا عجیبی می بینید، چیزی که تا حالا هرگز ندیدید، اینکه بسیار مشهور می شود و ناگهان سقوط می کند، و بین سالهای 1933 و 1945 می بینیم که در پایین ترین سطح قرار دارد، قبل از اینکه دوباره شروع به بدست آوردن محبوبیت کند. البته چیزی که می بینیم این است که مارک شاگال یک هنرمند یهودی بود در آلمان نازی.
اکنون این علائم چنان قوی هستند که که لازم نیست بدانیم کسی سانسور شده است. می توانیم به آن پی ببریم معمولا با استفاده از فرآیند سیگنال ساده. یک راه ساده آن اینجاست. خوب، یک انتظار معقول اینکه شهرت فردی در یک دوره زمانی باید تقریبا به اندازه میانگین شهرتش در گذشته و بعد از آن مدت باشد. و این چیزی است که انتظار داریم. و آنرا با شهرتی که می بینیم مقایسه می کنیم. و فقط یکی را بر دیگری تقسیم می کنیم تا چیزی ایجاد کنیم که آنرا شاخص سرکوب می نامیم. اگر شاخص سرکوب خیلی، خیلی، خیلی کوچک باشد، ممکن است به راحتی سرکوب شده باشید. اگر بزرگ باشد، شاید از پروپاگاندا ذی نفع هستید.
جی ام: اکنون می توانید شاخص های توزیع سرکوب در کل جمعیت را ببینید. برای نمونه، اینجا -- این شاخص سرکوب برای 5000 نفر است از کتابهای انگلیسی انتخاب شده اند جایی که سرکوب مشهودی وجود ندارد-- شبیه این خواهد بود، اساسا محکم روی کسی متمرکز است. چیزی که انتظار دارید چیزی است که می بینید. این توزیعی است که در آلمان دیده می شود-- خیلی متفاوت، به سمت چپ متمایل است. مردم دوبرابر از آنچه که باید کمتر صحبت می کنند. اما چیزی که مهمتر است، توزیع وسیع تر است. مردم بسیاری هستند که در انتهای سمت چپ این توزیع هستند مردمی که 10 بار کمتر از آنچه باید باشد کمتر صحبت می کنند. اما از طرف دیگر مردمی هستند از این پروپاگاندا ذی نفع هستند. این تصویر نمایانگر سانسور در کتاب است.
الا: کالترومیکس اسمی است که ما روی این متد گذاشته ایم. نوعی ژن شناسی است. فرقشان این است که لنز ژنومیکس روی بیولوژی است از پنجره ترتیب ژنوم انسانی. کالترومیکس شبیه آن است. برنامه تحلیل اطلاعات در مقیاس عظیم است برای مطالعه فرهنگ انسان. اینجا، بجای نگاه از عدسی ژنوم، از لنزهای قطعات دیجیتالی شده ثبت تاریخی دیده می شود. نکته بزرگ در مورد کالترومیکس این است که هر کسی می تواند آنرا انجام دهد. چرا هر کسی می تواند انجام دهد؟ هر کسی می تواند انجام دهد چون سه نفر جان اوروانت، مت گری و بیل بروکمن در گوگل، نمونه ای از بیینده انگرم را دیدند، و گفتند، " بسیار جالب است. باید این را در دسترس مردم قرار دهیم." در عرض دو هفته - دو هفته قبل از اینکه مقاله ما منتشر شود -- نسخه ای از بیننده انگرم را برای استفاده عمومی کدگذاری کردند. و شما می توانید هر کلمه یا عبارتی که دوست دارید را تایپ کنید و ان-گرم آن را سریع پیدا کنید-- همچنین نمونه هایی از کتاب های مختلف را مرور کنید در ان-گرم شما که ظاهر می شود.
جی ام: در روز اول میلیون ها بار استفاده شد، و واقعا بهترین تمام جستجوهاست. مردم می خواهند بهترین باشند، با بهترین قدم شروع کنند. اما در قرن 18 معلوم شد، مردم اصلا به آن توجهی نمی کردند. نمی خواستند بهترین باشند، می خواستند به نفعشان باشد. چه اتفاقی افتاد، البته، این کاملا اشتباه است. تلاش برای حد متوسط هم نبود، فقط مانند متفاوت نوشتن S بود، یا چیزی شبیه F. حالا البته که گوگل آنرا در آن زمان انتخاب نکرد، برای همین در مقاله علمی که نوشتیم آنرا گزارش کردیم. معلوم شد فقط یادآوری است اگرچه بسیار جالب است، وقتی این گرافها را تفسیر می کنید باید بسیار دقت کنید، و باید استانداردهای پایه را در علوم رعایت کنید.
الا: مردم از این برای انواع مقاصد تفریحی استفاده کردند. (خنده حضار) در واقع، دیگر صحبت نخواهیم کرد، به شما اسلایدها را نشان می دهیم و ساکت خواهیم ماند. این شخص یه تاریخ افسردگی علاقمند است. انواع نا امیدی وجود دارد. اگر انگشت شصت تون به جایی بخوره ، یک آ "آخ" است. اگر سیاره زمین توسط وگونها نابود بشه تا جایی برای عبور از ستاره ها باز بشه، 8 تا آ"آآآآآآآآخ" است. این شخص همه"آخ ها" را مطالعه کرده است. از یک تا هشت آ. و متوجه شد "آخ" های کمتر رایجتر آنهایی هستند که مربوط به چیزهای افسرده کننده است-- بجز، بطور عجیبی، در اوائل قرن 80. ما فکر کردیم احتمال داره که این ربطی به ریگان داشته باشه.
(خنده حضار)
جی ام: کاربردهای متعددی برای این اطلاعات وجود دارد، اما دلیل اصلی دیجیتالی کردن برای ثبت تاریخی است. گوگل دیجیتالی کردن 15 میلیون کتاب را شروع کرده است. 12 درصد کتابهایی که منتشر شده است. بخش عظیمی از فرهنگ بشری است. چیزهای فرهنگی بیشتری وجود دارد: دست نوشته ها، روزنامه ها، چیزهایی که نوشتنی نیستند، مانند هنر و نقاشی. همه اینها در کامپیوتر ما قرار دارند، در تمام کامپیوترهای سراسر دنیا. و وقتی اتفاق بیافتد، مسیری که داریم را تغییر خواهد داد تا گذشته و حال و فرهنگ بشری را بفهمیم.
بسیار سپاسگذارم.
(تشویق)