Aller au contenu

Arrow / pyarrow

Les fichiers '.parquet' sont largement utilisés pour le stockage d'ensemble de données, notamment en intelligence artificielle.

Pour l'utilisation, entre autres, avec le package 'pandas' de python : pandas.read_parquet(), il est nécessaire d'installer 'pyarrow', qui permet de faire le lien avec 'arrow'.

Ligne de commande

Sur la plateforme VALERIA, 'arrow' est disponible par l'entremise des modules de lmod. Les commandes suivantes permettent le chargement de 'arrow' et l'installation du package python 'pyarrow' :

module load StdEnv/2023
module load python/3.12.4
module load arrow/17.0.0
virtualenv --no-download venv
source venv/bin/activate
pip install --upgrade pip
pip install pyarrow

Les versions peuvent être différentes, selon votre cas d'utilisation.

JupyterLab

Dans JupyterLab, le module 'arrow' peut être chargé directement à partir de l'interface Web, dans l'onglet 'Softwares' à gauche de la page. Il est possible de faire une recherche pour trouver plus facilement le module. Vous devrez, par la suite, installer le package 'pyarrow' dans votre kernel.

Une fois le module chargé et le package 'pyarrow' installé, assurer de fermer et réouvrir votre notebook, et de redémarrer le 'kernel' Jupyter pour qu'il prenne en compte le chargement du module.