گوگل موتور جستجوی جدیدی برای پیدا کردن دیتاست طراحی کرده که به دانشمندان کمک میکند دادهی مورد نیاز خود را راحتتر پیدا کنند.
گوگل همیشه در تلاش بوده تا اطلاعات کل دنیا را سازماندهی کند. او برای رسیدن به این هدف و در مرحلهی اولوبسایتهای تجاری را هدف قرار داد. حال این شرکت قصد دارد با ارائهی موتور جستجوی جدیدی برای پیدا کردن دیتاست یا مجموعه دادهها، همین کار را برای جامعهی دانشمندان انجام دهد. این سرویس Dataset Search یا جستجوی دیتاست نام دارد و در پنجم سپتامبر پیادهسازی شده است. این سرویس جدید همگام با Google Scholar، موتور جستجوی محبوب این شرکت برای تحقیقات و مطالعات دانشگاهی کار میکند.
موتور جستجوی دیتاست از اطلاعات درج شده در تگ متادیتای وبسایت استفاده میکند. موسساتی که دادهی خود را به صورت آنلاین منتشر میکنند یعنی دانشگاهها یا سازمانهای دولتی باید اطلاعاتی مانند سازندهی داده، تاریخ انتشار، روش جمعآوری و… را در تگ متادیتای وبسایت ذکر کنند. این اطلاعات سپس توسط موتور جستجوی گوگل ایندکس شده و با گراف دانش یا Knowledge Graph ترکیب میشود. بنابراین اگر دیتاست X توسط مرکز تحقیقاتی به نام CERN منتشر شود، اطلاعات کمی در مورد سازمان نیز در جستجو لحاظ خواهد شد.
ناتاشا نوی، یکی از دانشمندان تحقیقاتی هوش مصنوعی گوگل که به ساخت موتور جستجوی دیتاست کمک کرده میگوید هدف از ساخت چنین موتور جستجویی این است که هزاران منبع مختلف داده با یکدیگر یکی شوند. او میگوید:
ما میخواهیم این دادهها قابل کشف باشند اما آنها را در جای فعلی خود نگهداری میکنیم.
در حال حاضر دادههای منتشر شده پراکنده هستند؛ مباحث مختلف علوم، دولتها و مقامات محلی منبع خاص خودشان را برای ذخیرهی دیتاست در اختیار دارند. نوی میگوید دانشمندان میدانند دیتاست مورد نظر خود را باید از کجا پیدا کنند اما زمانی که از موضوع تخصصی خود فاصله میگیرند انجام این کار برایشان سخت میشود. نوی در ادامهی صحبتهای خود و در راستای تأکید بر ضرورت چنین موتور جستجویی تجربهی شخصی یک دانشمند آبوهوا را مثال زد. این دانشمند برای یکی از تحقیقات خود دنبال دیتاست خاصی در مورد دمای اقیانوس بوده است و موفق نمیشود دادهی مورد نظر خود را پیدا کند. تا اینکه در یکی از کنفرانسها به یکی از همکاران برخورد میکند و در جریان صحبت و راهنمایی از سوی او دیتاست مورد نظر خود را پیدا میکند. دادههای مورد نظر او به خوبی جمعآوری شده و در منبع مناسبی ذخیره شده بودند اما پیدا کردنشان بسیار سخت بود.
نسخهی اولیهی موتور جستجوی دیتاست، دادههای مرتبط با علوم زیست محیطی و علوم اجتماعی، دادههای دولتی و دیتاست سازمانهای خبری مانند ProPublica را تحت پوشش قرار خواهد داد. هرقدر استقبال از خدمات جدید بیشتر باشد حجم دادههای ایندکس شده نیز به سرعت بالا میرود زیرا دانشمندان و سازمانها تشویق میشوند دسترسی به اطلاعات خود را افزایش دهند.
نوی معتقد است تعداد مخازن داده در چند سال اخیر رشد چشمگیری داشته است. درخواست مجلات از نویسندگان برای انتشار مجموعه دادهها، تغییر مقررات دولتی آمریکا و اروپا و جنبش عمومی دسترسی مردم به دادهها اقداماتی هستند که در راستای افزایش اهمیت نقش داده شکل گرفتهاند و نوی آنها را تأیید میکند.
جنی تنیسون، مدیرعامل موسسهی دادههای باز (ODI) میگوید همکاری گوگل در این پروژه باعث موفقیت آن خواهد شد. او معتقد است ساختن موتور جستجو برای دیتاست کار بسیار سختی است اما حضور گوگل محقق شدن این موضوع را راحتتر کرده است. به عقیدهی تنیسون ساختن موتور جستجو برای پیدا کردن دیتاست نیازمند ساخت سیستمهای کاربر پسند و درک مردم از عباراتی است که تایپ میکنند. همانطور که میدانید گوگل مهارت زیادی در هر دو زمینه دارد.
تنیسون همچنین انتشار دیتاستی از نحوهی کار موتور جستجوی دیتاست توسط گوگل را بسیار کاربردی میداند. اگرچه تگهای متادیتایی که استفاده میشود برای همه در دسترس است و رقبایی مانند Bing و Yandex میتوانند از آنها برای رقابت استفاده کنند اما موتورهای جستجو زمانی به سرعت بهبود پیدا میکنند که کاربران دادهی بیشتری در مورد نحوهی عملکرد خود تولید کنند. به زبان سادهتر، درک این موضوع که مردم چگونه کلمات مورد نظر خود را انتخاب و با چه عباراتی جستجو میکنند برای پیشرفت موتور جستجو بسیار مهم است.
منبع : زومیت