BioNumPyについて。
先日参加した先進ゲノム支援開催の 2022年度 PAGS・DDBJ合同 中級者情報解析講習会 でPython よりRを使うほうがバイオインフォマティクスのビッグデータの読み込みと整形(データの前処理)が楽だと言う話を聞きました。NumPyとPandasなどを使ってPythonでシークエンサのデータを読み込んだりする時、バイオインフォマティクスで扱う配列データなどは長さがまちまちであるため、Pythonだけでデータの前処理をする場合は工夫がいることが多いようです。それでRで解析するほうが便利ということになるのですが、先ごろNumPyの上に構築されたバイオインフォマティクス用のライブラリBioNumPyが公開されました。論文はこちらです。PythonのパッケージマネージャーのPipでインストールすることができます。
https://www.biorxiv.org/content/10.1101/2022.12.21.521373v1
論文には簡単な利用ものっていますし、ベンチマークものっているので読んでみてください。
さらに豊富な学習資料も用意されており、こちらからインストール法、利用法、利用例などをみることができます。https://github.com/bionumpy
使い方はこちらが詳しいです。
https://bionumpy.github.io/bionumpy/
またノルウェーで今年開催されたBioNumPyのワークショップの資料(Jupyter notebook,)もこちらからダウンロードできます。NumPyの使い方からはじまるので、わかりやすいと思います。BioNumPyはNumpyをもとに構築されたライブラリですのでNumPyを知っているとすぐ使えます。
https://github.com/bionumpy/bionumpy-workshop
なお、上のgithubにのっている「最新のマニュアルはこちら」というリンクは、現在リンク切れのようでした。