これまでの記事で、OpenAIの提供しているCodex CLI(シーエルアイと読みます)が動くようになりました。
これで二階堂先生の教科書
『AIエージェントを使いこなす はじめてのバイオインフォマティクス開発作法』の例題が試せます。最初の章Chapter 00の例題はFASTAファイルを使います。先生の本のリンクは大腸菌のゲノム全長のサイトになっていて断片ではないので使わないほうがよいです。課題用大腸菌ゲノム断片のFASTAファイルは先生のGitHubにあります。
https://github.com/dritoshi/ai-biocode-kata
トップページにあるscriptsフォルダの中身
https://github.com/dritoshi/ai-biocode-kata/tree/main/scripts/ch00/data
に例題用のFASTAファイルやCodex CLIでつくったpythonスクリプトなどもあるので利用してください。ちなみにFASTAというのはFast Alignmentからきた名前なのでFastエイと読むと専門家ぽいです。EMBLの専門家にそう読むと習いました(もっともファスタと読む人も多いですが)。
【この教科書は簡単に電子ブック化できます。】二階堂先生のGitHubにEPUBやpdf化するスクリプトがあるのであっとゆうまにEPUBなどすることができます。私は以下のコマンドをUbuntuのターミナルに入れて(Bashです)EPUBを作りました。
git clone https://github.com/dritoshi/ai-biocode-kata.git
cd ai-biocode-kata
sudo apt update
sudo apt install -y pandoc default-jre
sudo apt install -y epubcheck || true
bash build/build_epub.sh
これでEPUBができているはずですが、以下のコマンドで確認します。
ls -lh build/ai-biocode-kata.epub
できたEPUBはKindleにいれて読んでいます。やり方は、Send toKindleのサイトhttps://www.amazon.co.jp/sendtokindle/
を開き(アマゾンのアカウントにログインしてから開きます)、できたEPUBファイルをドラッグアンドドロップするだけです。しばらく処理時間がかかりますが、すべてのKindleディバイスに配信されます。検索機能にも対応している教科書なので便利です。
pdfは、電子ブックリーダーの無料ソフトCalibreでEPUBを開いて本の変換機能で作成しました。
【最後にCodex CLIでのファイルの指定の仕方を書いておきます。】
いちばん簡単なのは、その FASTA ファイルがあるフォルダで Codex を起動して、ファイルを明示的に指定して依頼するやり方です。
Codex CLI は、起動したディレクトリのワークスペースを読めます。これを利用して使いたいファイルのあるディレクトリへ移動して、そこでcodexと入力してCodex CLIを起動します。対話画面で @ を打つとワークスペース内のファイル検索が開き、目的のファイルをメッセージに差し込めます。あるいは@のかわりに /mention とうっても、特定ファイルを会話に追加できます。
対話画面への入力は教科書のFASTAファイルを使った場合、こんな感じになります。
@ecoli_k12_fragment.fasta
このDNA配列ファイル(FASTA形式)から、6フレームすべてのORF(Open Reading Frame)を検出して、開始位置・終了位置・フレーム・翻訳後のタンパク質配列を表示するPythonスクリプトを作って。
実際やってみるとCodex CLIがいかに強力かが実感できて面白いです。是非試してみてください。