Интервю за Dell Technologies: Univ. от хибридната HPC стратегия на Ливърпул засилва научните изчисления с бърза атака


[SPONSORED CONTENT] В скорошно интервю за Dell Technologies на този сайт говорихме за HPC-as-a-Service с R Systems, ресурсите на доставчика HPC при поискване и техническата експертиза в партньорство с Dell HPC Cloud Services. Сега, в това интервю, имаме вариант в този сегмент на HPC: избухване в облака, когато локален клъстер се нуждае от увеличаване на ресурсите.

Изправен пред тази ситуация беше Университетът на Ливърпул Усъвършенствани изследователски изчисления в отдел „Компютърни услуги“. Групата, ръководена от Клиф Адисън, използва базирания на Dell Linux клъстер „Barkla“ за своите научни изчислителни нужди. За времена, когато нуждите на групата натоварват с данъци Barkla, университетът работи с Dell Technologies и базирани в Обединеното кралство Полет на Алцес, който проектира и изгражда HPC среди за учени, инженери и изследователи. Базираните в Обединеното кралство Alces и Dell разработиха способност за разпръскване на уеб услугите на Amazon, като поставиха приоритет на създаването на безпроблемна среда, лесно възприемана и достъпна от учени от Advanced Research Computing.

В това интервю Адисън обяснява – наред с други неща – как е бил използван капацитетът на AWS, когато удари пандемията от COVID 19.

Дъг Блек: Здравейте всички, аз съм Дъг Блек, главен редактор в HPC, и днес, като част от нашата поредица от интервюта от името на Dell Technologies, говорим с Клиф Адисън, той е ръководител на отдела за напреднали изследователски изчисления в Университета на Ливърпул. Клиф, добре дошъл.

Клиф Адисън: Добър ден или добро утро, в зависимост от времето на деня. Но да, добре.

черно: Затова, моля, дайте ни общ преглед на системата HPC, която университетът създаде с партньора за интеграция на Dell, Alces Flight. Сега ключов аспект на системата, доколкото го разбирам, е, че тя преминава към Amazon Web Services за допълнителни ресурси за изчисление и съхранение. Вярно ли е?

Университет на Ливърпул (уикипедия)

Адисън: Това до голяма степен е правилно. Това, което направихме – ще се отдръпна малко. През 2017 г., когато отидохме на търг, имахме редица изследователи, които имаха безвъзмездни средства, които искаха да използват за закупуване на оборудване. Трябваше да можем да имаме неща, които имат очевидно силно въздействие, а също така трябваше да имаме среда, която може да бъде разширена, за да се адаптира към промените, тъй като компютърните изисквания на нашето изследване се промениха. И ние също търсехме нещо, което по същество осигурява добра изчислителна мощност още от самото начало.

И Dell отговориха на това с партньорство с Alces Flight и също така работейки с Amazon Web Services, за да ни предостави система, която беше много силна на място, с много конкурентен хардуер и много добра настройка, която нашите изследователи предприеха незабавно.

В допълнение, ние започнахме с голям брой кредити от AWS, за да можем да започнем да работим с облака, а Alces Flight използваха опита си, за да настроят доста безпроблемна облачна среда Barkla, където можехме доста лесно да прескачаме от локалните. система в облачната система със същите потребители, същото съхранение и много позната среда за изследователите. Така че изследователите всъщност не трябваше да се тревожат за различна среда в облака, това беше много подобна среда на това, което вече имаха. И тези функции заедно наистина бяха много силно предимство. И ще говоря малко по-късно за някои от начините, които ни се получиха.

черно: Добре, нека да преминем към работата, която върши вашата организация. Какво е новото в Компютърната група за напреднали изследвания на университета в Ливърпул?

Адисън: Изчислителната химия в Ливърпул винаги е била един от основните потребители на нашите съоръжения. А преди 10-15 години това беше мащабна, паралелна, молекулярна динамика и… изчисления. Но това, което се случи през годините, и това е в съответствие с няколко други групи, е, че те са се преместили в много усъвършенствана среда на работния процес, където правят подробни проучвания от време на време, но са водени от много голям брой бързи разследвания тестове заедно с малко машинно обучение, за да помогнат за насочване на нещата.

И така, вместо просто да правят много изчислителни тестове, ние ги виждаме да правят много висока комбинация от много бързи проучвания, машинно обучение и след това някои подробни изчисления на определени аспекти на молекулите, които смятахме, че изглеждат обещаващи. И това е една от общите тенденции, които наблюдаваме.

Сега в допълнение, с избухването на COVID 19, което имахме, имахме няколко специфични изисквания, които се появиха. И отново облакът Баркла среда с облака AWS, разрушаването беше основно за възможността да стартирате. Имаше една от нашите групи, която правеше дълбоко обучение, за да се опита да търси откриване на COVID в изображения на компютърна томография и рентгеново сканиране. И те просто нямаха наличните ресурси. Кандидатствахме за AWS и получихме изследователски кредити, а след това отново, със средата на Alces Flight, тези изследователи успяха безпроблемно да влязат в AWS, да направят част от своя анализ на данни/почистване на данни в локалния клъстер и след това много безпроблемно преминете към GPU възлите на AWS, за да извършите подробните изчисления. И това работи изключително добре, успяхме да представим резултати на Supercomputing 2020 (конференция). И те съвсем наскоро изпратиха онлайн дневник с резултатите си, който е в процес на приемане.

черно: И така, Клиф, всички вие започнахте с клъстера Barkla през 2017 г. – разкажете ни за развитието на възможностите на системата по отношение на възлите и текущите актуализации, върху които работите в момента.

Адисън: Е, купихме системата, като имаме предвид доста възможности за разширяване. Започнахме с 96 възела на Skylake, всеки с по 40 ядра. И ние успяхме да разширим това с течение на времето, за да имаме 140 възела сега. Доволен съм, че много от изследователските групи, които са работили върху него, са много доволни от този резултат.

Но наскоро друга изследователска група дойде при нас и каза, че бихме искали да имаме някои подобрени възможности на GPU за нашите докторанти. Смятаме, че вероятно се нуждаем и от бързо съхранение, за да седим зад това. И успях да се свържа с Dell и Alces Flight и те успяха да се върнат с някои идеи по отношение на (NVIDIA) A100 възли и малко бързо съхранение на NVMe. И когато нашите изследователи разгледаха вариантите, бяха много доволни. И ние току-що решихме за комбинация от конфигурации и Dell и Alces сега ще го съберат заедно. И да се надяваме, че ще получим това по-късно през годината.

черно: Хубаво. Наистина интересно. И така, сега с пандемията и повече работа и учене от вкъщи, как това се отрази на вашия екип?

Адисън: Е, интересно е, екипът ни се справи добре. Ние можем да получим добър отдалечен достъп до нашите услуги на място. И отново, куките в облака са основно чрез тази локална система, така че можем да влезем в облака, когато трябва. Това беше изследването – това е борба, защото, разбира се, един от основните научени уроци е, че домашният широколентов достъп не е почти толкова бърз, колкото добрата университетска мрежа. И така имахме изследователи, които се опитваха да изтеглят големи пакети от приложения с размер от 10 гигабайта, за да работят на техните домашни системи. И ние непрекъснато повтаряхме, че е най-добре да не правим това, най-добре е да използваме нашите съоръжения в кампуса. И не извършвайте тежките изчисления на домашните си системи. И в крайна сметка мисля, че успяхме да преодолеем това. Така че, след като хората приеха как да използват по-добре локалните системи, това се получи добре, но на нашите изследователи отне известно време, за да свикнат с него, особено когато си имат работа с големи масиви от данни.

черно: Така че най-общо казано, колко важна е AWS бързата връзка за вас? И имате ли някакви съвети за други мениджъри на HPC сайтове?

Адисън: Едно от нещата, които открихме, беше, че харесвахме AWS, харесвахме хората от AWS. Средата има сравнително стръмна крива на обучение и трябва да я използвате доста, за да се запознаете с нейното управление. Но Alces Flight като трета страна осигури много безпроблемна среда. И има няколко други компании, които могат да правят подобни неща. И бих насърчил HPC групите да се опитат да си партнират с някой, който има този опит, вместо да се опитват да преоткриват нещата за себе си. Има огромна разлика да можете някой друг да управлява това, да настрои нещата, да направи счетоводството вместо вас, да извърши настройката на възела, като се уверите, че когато възлите не се използват или изключват, вие не плащате за него – такива неща. Това наистина го прави много по-приятно изживяване.

черно: Да, такъв плавен преход напред-назад, облак обратно към помещенията. Това е абсолютно голям ключ, така че хората да не се борят постоянно да се научат да използват повторно потребителски интерфейс.

Адисън: Това е вярно. Но също и от местна гледна точка, често със сигурност имаме проблеми с недостига на персонал по отношение на HPC хора и всъщност нямаме допълнителен капацитет да извършваме голяма част от управлението на облака от първа ръка, което би било необходимо за такъв добър заобикаляща среда. Така че възможността да работим чрез трета страна прави живота ни значително по-лесен. Можем да се концентрираме върху подпомагането на потребителите, не е нужно да се тревожим директно за управлението и счетоводството. Можем да направим това чрез трета страна и открихме, че е голяма, голяма печалба.

черно: Страхотен. Добре, Клиф. Е, за мен беше удоволствие да говоря с теб. Били сме с Клиф Адисън в Групата за напреднали изследователски изчисления на Университета в Ливърпул. Много благодаря.

Адисън: Благодаря ти много.