Updated: Closed call/Proposta pechada
Enrique García Rodríguez comeza en breve a traballar no seu TFG con esta proposta.
OLLO: Aínda que xa temos asignada unha persoa para esta proposta concreta, a oferta de máis traballos neste contexto (Data Analytics + HPC) segue aberta para quen lle interese.
Bruno Raffin (Inria Rhône-Alpes, DataMove team) e eu mesmo, Emilio J. Padrón (UDC, GAC), propoñemos este Proxecto Fin de Carreira (PFC) (ou Traballo Fin de Grao/Mestrado, TFG/TFM) no eido da Computación de Altas Prestacións (HPC, High Performance Computing).
A proposta de traballo enmárcase na intersección de dúas áreas ou disciplinas que, ainda que íntimamente relacionadas, ata hai pouco levaban camiños diverxentes: a Computación de Altas Prestacións (HPC) e o mundo Big Data (todo o ecosistema MapReduce, enfocado á análise de grandes volumes de datos). Este cruce de camiños dá lugar ao que xa se coñece como HPDA, High Performance Data Analysis, que resulta da aplicación de ferramentas do mundo das Data Analytics en contextos e infraestruturas (hardware, software e aplicacións) típicamente HPC.
No proxecto traballaremos cun dos máis recentes e versátiles frameworks de análise Big Data, Apache Flink [1]. Orixinalmente deseñado para traballar con streams de datos provenientes de fontes como sensores (IoT) ou rexistros de transaccións en internet, o obxectivo deste proxecto será estudar a viabilidade de Flink como ferramenta de post-proceso online en simulacións científicas, analizando en tempo real a inxente cantidade de datos xerada polas típicas simulacións numéricas que habitualmente se executan en sistemas HPC. Este tipo de análise en tempo real, que corre en paralelo coa simulación da que vai recibindo o fluxo de datos a analizar, recibe nomes como In-situ ou In-transit (en función de se simulación e análise comparten nodos computacionais ou non), e permite reducir o impacto da E/S e os custos de almacenamento das solucións de análise batch «post-mortem» tradicionais.
Como incentivo adicional, por se o tema do proxecto non fora xa
apaixoante abondo ;-P
(nin o uso continuo de buzzwords como
Big Data
que estou a facer non fora suficiente…), a persoa que
leve a cabo este proxecto ten a oportunidade de pasar ata un máximo
de tres meses durante o desenvolvemento do mesmo en Grenoble
(Francia) no grupo de investigación DataMove (que coordina Bruno
Raffin, co-director deste proxecto). Esta estancia sería
financiada con, aproximadamente, 500€/mes, e tamén se pagarían
os gastos da viaxe.
Se tes interese ou precisas máis información, contáctame por correo-e ou no meu despacho 3.15 no Edificio Área Científica do Campus de Elviña.
Proposta de Anteproxecto
Título
An In-Situ/In-Transit approach to High Performance Data Analytics with Apache Flink
Obxectivo
Proxecto de aplicación de tecnoloxías Big Data, neste caso o framework Apache Flink [1], na análise de resultados de simulacións científicas en contornas HPC [2]
O obxectivo concreto desta proposta é o desenvolvemento de kernels de análise con Apache Flink para simulacións numéricas de grande escala, con casos de uso que poden ir dende a Dinámica Molecular (xéranse moitos rexistros moi pequenos cunha moi alta frecuencia) ata a Dinámica de Fluídos (rexistros máis grandes, con menor frecuencia) entre outros.
Estes kernels traballarán nunha infraestrutura de análise on-line In-Situ/In-Transit [3], é dicir, en tempo real coa simulación e compartindo recursos con esta, en contraste coas clásicas aproximacións Post-mortem, nos que a simulación ten que escribir todos os datos a disco para logo lanzar as ferramentas de análise en procesos batch.
O resultado final é unha infraestrutura completa para a Análise In-Situ/In-Transit de Datos de Alto Rendemento (HPDA) baseada na mestura de distintos compoñentes HPC e Big Data [4].
Descrición
Hai tempo que a enorme cantidade de datos xerados en moitas simulacións científicas (ao igual que vén acontecendo noutro tipo de eidos) se converteu nun problema que frea o propio avance científico, ao incrementarse a dificultade para calquera labor de análise dos mesmos, cando non para o seu propio almacenamento. Nin os sistemas de almacenamento nin a infraestrutura de rede tiveron un desenvolvemento paralelo ao incremento na capacidade computacional.
Por outra banda, había xa un tempo que noutros eidos se viña estudando como facer fronte á cantidade masiva de datos que se estaban a recoller desde a popularización de internet e os modernos sistemas de adquisición de datos, información que non era procesable coas aproximacións tradicionais, o que se comezou a denominar como Big Data. O despegue definitivo deste campo prodúcese probablemente no momento en que Google fai público o paradigma MapReduce que desenvolveu e viña empregando para o procesamento distribuído de datos masivos [5], o que consitúe o xerme de novas ferramentas e estratexias para facer fronte aos novos retos que supoñen tanto o escalado na cantidade de datos como na infraestrutura informática para o seu procesamento. Todo o ecosistema Hadoop [6, 7] é paradigmático deste avance.
Nós últimos tempos hai un claro interese na aplicación dos novos paradigma, modelos e ferramentas desenvolvidos no mundo Big Data en contornas HPC, interese acrecentado polas comentadas dificultades nos sistemas de almacenamento e o colo de botella que cada vez máis supón ter que mover os datos de entrada aos nodos de cómputo. Relacionadas con estes problemas xorden as alternativas de análise In-Situ e In-Transit, que tratan de compaxinar as labores de análise dos datos dunha simulación coa propia simulación, con distintos niveis de acoplamento. Unha aproximación In-Situ compartiría recursos computacionales e de rede, executando simulación e análise nun mesmo cluster, por exemplo, mentre que a alternatia In-Transit compartiría só recursos de rede, transferindo online os resultados da simulación para ser analizados nun cluster específico.
Metodoloxía
Para o desenvolvemento do proxecto empregarase unha metodoloxía áxil, con 'sprints' dunha ou dúas semanas nos que se irán engadindo funcionalidades ás tarefas de análise a realizar, tras unha pequena fase preliminar de estudo das simulacións de Dinámica Molecular (DM) e Dinámica de Fluídos (DF) coas que se vai integrar o traballo.
O desenvolvemento final formará parte dun pipeline de análise In-Situ/In-Transit, polo que haberá unha última fase de integración no mesmo.
Fases
- Análise de requisitos e obxectivos. Estudo dos dominios de DM e DF.
- Planificación do proxecto en función das restriccións temporais da estudante.
- Bucle: Sprints dunha ou dúas semanas nos que se desenvolverá o proxecto.
- Integración nun pipeline completo de análise In-Situ/In-Transit.
Material e Referencias
Precisarase dun ordenador e conexión a internet. Proporcionarase acceso aos recursos HPC precisos para o desenvolvemento do proxecto, como o GRID5000. Todas as tecnoloxías empregadas no desenvolvementos serán de fonte aberta.
Fontes bibliográficas:
[1] Apache Flink: Scalable Stream and Batch Data Processing. https://flink.apache.org
[2] High Performance Data Analysis: Big Data Meets HPC, by Steve Conway, IDC. http://www.scientificcomputing.com/blog/2014/03/high-performance-data-analysis-big-data-meets-hpc
[3] Lessons Learned from Building In Situ Coupling Frameworks, Matthieu Dorier, Matthieu Dreher, Tom Peterka, Gabriel Antoniu, Bruno Raffin, Justin M. Wozniak. ISAV 2015 – First Workshop on In Situ Infrastructures for Enabling Extreme-Scale Analysis and Visualization (held in conjunction with SC15), Nov 2015, Austin, United States. 2015, http://vis.lbl.gov/Events/ISAV-2015/. <10.1145/2828612.2828622> https://hal.inria.fr/hal-01224846
[4] Omar A. Mures, Emilio J. Padrón, and Bruno Raffin, Leveraging the Power of Big Data Tools for Large Scale Molecular Dynamics Analysis. En Actas de las XXVII Jornadas de Paralelismo (JP2016), Septiembre 2016.
[5] MapReduce: Simplified Data Processing on Large Clusters, Jeffrey Dean and Sanjay Ghemawat, December 2004. https://research.google.com/archive/mapreduce.html
[6] Apache Hadoop: Open-source software framework used for distributed storage and processing of big data sets using the MapReduce programming model. http://hadoop.apache.org
[7] Hadoop: The Definite Guide. Storage and Analysis at Internet Scale. Tom White. O'Reilly.
Departamento
Enxeñería de Computadores (antigo Electrónica e Sistemas)
Directores
Bruno Raffin (Inria Rhône-Alpes) e Emilio José Padrón González (UDC)