Репродуктивтілікті арттыру және басқаларға жарияланған жұмысты оңай құруға мүмкіндік беру мақсатында біз ML кодының толықтығын тексеру тізімін ұсынамыз. ML кодының толықтығын тексеру тізімі кодтар дүкенін онда берілген сценарийлер мен артефактілер негізінде бағалайды.
Кіріспе
Өткен жылы Джоэль Пино OA конференцияларында (NeurIPS, ICML,…) ұсынылған репродуктивті зерттеулерді жеңілдету үшін репродуктивтіліктің бақылау тізімін шығарды. Бақылау тізіміндегі элементтердің көпшілігі қағаздың компоненттеріне бағытталған. Бұл бақылау тізіміндегі бір элемент «бастапқы кодқа сілтеме беру» болып табылады, бірақ одан басқа аз ұсыныстар жасалған.
Үздік тәжірибелер ML кодының толықтығын тексеру тізімінде қорытылған, ол қазір NeurIPS 2020 кодтарын жіберудің ресми процесінің бөлігі болып табылады және оларды рецензенттер өз қалауынша қолдана алады.
ML толықтығын тексеру тізімі
M кодының толықтығын тексеру тізімі кодтар қоймасын тексереді:
- Тәуелділіктер - репозитарийде тәуелділік туралы ақпарат бар ма немесе қоршаған ортаны қалай орнатуға болады?
- Оқыту сценарийлері - Репозиторийде құжатта сипатталған модельдерді оқыту / сәйкестендіру әдісі бар ма?
- Бағалау сценарийлері - Репозиторийде оқытылған модель (дер) дің өнімділігін есептеуге немесе модельдер бойынша эксперименттер жүргізуге арналған сценарий бар ма?
- Алдын ала дайындалған модельдер - репозиторий алдын-ала дайындалған модель салмағына еркін қол жеткізе ала ма?
- Репозиторийде кестенің / негізгі нәтижелердің графигі және сол нәтижелерді шығаруға арналған сценарий бар ма?
Әр репозиторий 0-ден (жоқ) 5-ке дейін (барлығы бар) кене ала алады. Әр элементтің критерийлері туралы көбірек ақпаратты Github репозиторийінен табуға болады.
Бақылау тізіміндегі заттар пайдалы репозитарийлерге ықпал ететінінің дәлелі қандай?
Қауымдастық GitHub жұлдыздарын репозиторийдің пайдалылығы үшін прокси ретінде қолданады. Сондықтан ML толықтығын тексеру тізімінде жоғары ұпай жинаған репостарда GitHub жұлдыздары көп болады деп күтілуде. Бұл гипотезаны тексеру үшін NeurIPS 2019 құжаттарында 884 GitHub репо ресми іске асыру ретінде ұсынылды, бұл 884 репоның 25% жиынтығы кездейсоқ таңдалды және ML толықтығын бақылау тізімінде қолмен тексерілді. Олар бұл үлгідегі NeurIPS 2019 GitHub репостарын ML кодының толықтығын тексеру тізіміндегі кенелердің саны бойынша топтастырды және әр топтағы GitHub медиан жұлдыздарын картаға түсірді. Нәтиже төменде:
0 құсбелгісі бар NeurIPS 2019 репостарында GitHub-та 1,5 жұлдыздың медианасы болды. Керісінше, 5 құсбелгісі бар репостарда 196,5 GitHub жұлдыздарының медианасы болды. Репостардың тек 9% -ында 5 кене, ал репостардың көпшілігінде (70%) 3 немесе одан аз кене болған. Уилкоксонның жиынтық сынағы жүргізіліп, 5 кене класындағы жұлдыздар саны 5-тен 4-тен басқа барлық сыныптарға қарағанда едәуір (p.value <1e-4) көп екендігі анықталды (мұндағы p.value - шекара). 0,015). Бұл суреттің деректері мен кодын Github репозиторийінен көре аласыз.
Бұл қарым-қатынастың неғұрлым кең ауқымды екенін тексеру үшін README репозиторийінен және байланысты кодтан бақылау тізімін есептеуді автоматтандыратын сценарий құрылды. Содан кейін біз 884 NeurIPS 2019 репозитарийлерінің барлық жиынтығын, сондай-ақ 2019 жылы жарияланған барлық ML мақалалары үшін 8926 код репозитарийлерінің кең жиынтығын қайта талдадық. Екі жағдайда да, мамандар статистикалық тұрғыдан кенелерден монотонды түрде өсетін медианалық жұлдыздармен сапалы түрде бірдей нәтиже алды (p.value <1e-4). Соңында, сенімді сызықтық регрессияны қолданып, біз GitHub жұлдыздарына ең жақсы әсер ететін алдын-ала дайындалған модельдер мен нәтижелерді таптық.
Бұл зерттеушілерді ML толықтығын тексеру тізіміне қажет барлық компоненттерді қосуға талпындыратын пайдалы репозиторийлердің пайда болуына әкелетін және бақылау тізіміндегі ұпай материалдардың сапалы болуын көрсететін пайдалы дәлелдер деп санайды.
Қазіргі уақытта сарапшылар ұсынылған бақылау тізімінің 5 элементі репозитарийдің танымал болуының жалғыз немесе тіпті ең маңызды факторы деп мәлімдемейді. Танымалдыққа басқа факторлар әсер етуі мүмкін, мысалы: ғылыми үлес мөлшері, маркетинг (мысалы, блог жазбалары және Twitter хабарламалары), құжаттама (толық README, оқулықтар және API құжаттамасы), код сапасы және алдыңғы жұмыс.
5 құсбелгісі бар NeurIPS 2019 репозитарийінің кейбір мысалдары:
Сарапшылар бақылау тізімін мүмкіндігінше жалпы етіп жасауға тырысқанымен, бұл құжаттардың барлық түрлеріне, мысалы, теориялық немесе құжаттар жиынтығына толық сәйкес келмеуі мүмкін екенін мойындайды. Алайда, егер мақаланың негізгі мақсаты деректер жиынтығын ұсыну болса да, ол оқыту сценарийлерін, бағалау сценарийлерін және нәтижелерін қоса, базалық модельдерді шығарудан пайда көруі мүмкін.
Пайдалануды бастаңыз
Рецепторлар мен пайдаланушыларға репозитарийде не бар екенін түсіну және мамандар оны дұрыс бағалауды жеңілдету үшін README.md файлдарын жазуға, тәуелділіктерді анықтауға және алдын-ала дайындалған модельдерді, мәліметтер жиынтығын және нәтижелерді шығаруға арналған ең жақсы тәжірибелер жиынтығы ұсынылған. Сіздің репозиторийіңізде осы 5 элементті нақты анықтап, оларды пайдаланушылар үшін контекст пен айқындықты қамтамасыз ету үшін оларды құжаттар мен лидер тақталары сияқты кез-келген сыртқы ресурстармен байланыстыру ұсынылады. Бұл NeurIPS 2020-ға код жіберуге арналған ресми нұсқаулар.