専門家向けの感じの日本語OCR処理ソフトウエアが公開されています

国立国会図書館、OCR処理プログラムと学習用データセットを公開という記事をみました。 これはGithubに公開されているプログラムで、たとえば古い日本語の本の画像をよみこんで、OCR処理をしてテキストファイルを出力するといった使い方ができるソフトウエアです。プログラムのインストールと使い方はhttps://github.com/ndl-lab/ndlocr_cli
で公開されています。Ubuntuにインストールしてdockerを利用して使うもので、GPUも使うのでそれなりのスペックのLinuxパソコンが必要らしいです。ただもっと簡単に、Google Colaboratoryで試すこともできるようで、まずこちらで試してみるのがよさそうです。https://zenn.dev/nakamura196/articles/a8227f4524570c

寺田寅彦随筆集より―「ジャーナリズム雑感」を紹介します。

寺田寅彦は夏目漱石の弟子だった自然科学者です。随筆集はとても有名で今も読まれていますし、漱石の作品の中にある光圧の実験や首くくりの力学などは寅彦からの情報によるのだそうです。寅彦は優秀な物理学者で、X線回折の実験は英国のブラッグら(ラウエと書いていたのは間違いでした。すみません。5/17日追記)の実験に先んじており、彼の論文のほうがノーベル賞をとったブラッグの発見より時間的には先にでていたが、日本から遠く離れたヨーロッパには論文が届くのが遅れたのだそうです。ノーベル賞を授賞してもおかしくない科学者で、金平糖の形のできかたとか、今日の複雑系物理学のさきがけの実験もやっていた人物です。科学図書館には彼の未完の名著「物理学序説」がおいてあります。http://www.cam.hi-ho.ne.jp/munehiro/science/scilib.html#terada
私が中学生か高校生の時によんだ次の随筆は今も印象にのこっているので紹介しておきます。ジャーナリズム雑感という随筆です。青空文庫に公開されているので読んでみてください。https://www.aozora.gr.jp/cards/000042/files/2492_10275.html
トップページはこちらです。https://www.aozora.gr.jp/cards/000042/card2492.html

新聞報道は、定型に従った報道が多く、殺人事件があったらその定型に従って報道します。「事実の類型化」と寅彦は呼んでいます。これをやるので、一つ一つの事件の差異とか個性というものは顧みられず、結局報道する側も、受け取る側も思考停止して、事件の奥に潜む真実は顧みられないそうです。今でもテレビのニュースをみていると、昭和9年(1934年)の随筆に書いてあるのとそっくりの、事実の類型化という、型(かた)にそった報道があふれているのは残念なことです。今の報道でも、犯人が語る言葉としてよくでてくる、「誰でもよかった」とかいう言葉の報道はその典型かと思われます。犯罪の報道の定型にあわせて事件を報道されても、今後の犯罪抑制には、有害な効果のほうが多いのではと感じています。昔は、三原山で心中した二人が最後に語り会った会話を、そばで記者が速記したように報道する新聞もあったのだそうです。よく似たことは今でも報道にあるようで、メディアリテラシーをつけるにはうってつけの随筆だと思い、紹介することにしました。

2022年4月のNHKスペシャルに対する望月新一先生による「合格発表」が掲載されていました。

先日固定ページで紹介したNHKスペシャル「数学者は宇宙をつなげるか? abc予想証明をめぐる数奇な物語」(=完全版(90分)+簡略版(60分))の望月新一先生による講評が先生のブログに掲載されていました。
「2022年4月のNHKスペシャルに対する「合格発表」: 前半はぎりぎり合格、後半は不合格」というタイトルです。最初の段落を引用します。
「2022年4月に放送されたNHKスペシャル「数学者は宇宙をつなげるか? abc予想証明をめぐる数奇な物語」(=完全版(90分)+簡略版(60分))を閲覧しました。NHKという看板(やその看板から推測される潤沢な予算)と立派に釣り合う、高精細なCG技術や世界規模の取材ネットワークとは裏腹に、残念ながら、多くの視聴者の誤解を招くような、様々な不正確な内容もありました。誤解や不正確な情報の拡散に歯止めを掛けるためにも、また最も中核的な当事者である私自身の考えに関する明示的な記録・「証言」を残すためにも、番組内の不正確な内容について、この度、ブログ記事という形で補足的な解説を公開し、警鐘を鳴らすことに致しました。」

私はNHKスペシャルの60分版と90分版、どちらも楽しくみさせてもらいました。掛け算と足し算の違いについてわかりやすく説明されていて、なぜ足し算のほうが、掛け算より未知の問題が多いのかの理由を垣間見ることができたように感じました。ただ後半についてはポアンカレの言葉を引用してそれと対照的な考えを望月先生が使っているので数学者でさえ理解が難しい、というようなあいまいな話で終わっていたような気がしました。出演された数学者の方の、私達は今、アインシュタインの一般相対性理論の提唱に匹敵するような革命に立ち会っているのかもしれませんというような内容の発言がとても印象的でした。

しかし、望月先生のブログによると、こうした内容が含まれている後半は不合格ということでした。理由も先生が詳しく書かれていますので是非お読みください。NHKスペシャルの製作者の皆さんが、特殊相対性理論と一般相対性理論が提唱された時に、今回のNHKスペシャルのような一般向けの番組をつくったとしたら、やはり大変な困難に見舞われたと思われます。そうしたチャレンジングな課題に挑戦された製作者の皆さんに感謝するとともに、望月先生の「合格」の講評が得られるような新しい番組を、是非見てみたいと期待しております。

R Markdownとは?

R Markdownというのを聞いたことがありますか?これで論文を書いて、できた原稿をWordの原稿やpdfあるいはPower Point ファイルなどに自由に変換することもできます。本を書くことも出来るそうです。

データ解析をRで行った後、できたグラフを論文やレポートに貼り付けて仕事を完成させるのは普通に行われている作業です。しかしこの貼り付けると言う作業があるため、できた論文原稿やレポートにのっているグラフや表が、どんなRのプログラムやスクリプトで作られたかがわからなくなることがあります。よくあるこうしたトラブルを避けるには、レポートや論文原稿の内部に、Rでどんな解析をしたかをプログラムやスクリプトごと書き込んでおけばよいわけです。Rマークダウンは、Rのプログラムと普通の文書を同時にレポートにうめこんでおき、必要なときにpdfやdocxファイル、パワーポイントファイルなどなどを一発で生成できる道具です。RStudioからR Markdownが使えるので、だれでも簡単に再現性のあるデータ解析結果のレポートをつくることができます。これを使えば、一番最初に書いたような、このグラフを作ったR のプログラムを探す必要がなくなりますので、完璧に再現性のあるレポートを作ることができます。本としては、おすすめは
「再現可能性のすゝめ―RStudioによるデータ解析とレポート作成― (高橋 康介著)」共立出版です。
https://www.kyoritsu-pub.co.jp/bookdetail/9784320112438

この本の第一章が特に再現可能性の必要性についてわかりやすく書かれており、なぜRマークダウンが必要かがよくのみこめます。この本を買う前に、次のスライドやリンクで概要をつかめるのでまずこれらのリンクをたどってみてください。
R Markdown 入門 (Tokyo.R #91) https://rpubs.com/ktgrstsh/755893
R ユーザー以外も知るべき R Markdown 入門/Introduction-to-R-markdown-for-Everyone https://speakerdeck.com/ktgrstsh/introduction-to-r-markdown-for-everyone?slide=3

TokyoR98 RMarkdown入門 Visual modeではじめよう (niszet, @​niszet0)
https://nitter.net/tech_slideshare/status/1522109628125179904
このスライド末尾のほうにいろんな入門サイトのリンクがありますので大変参考になります。

MRC分子生物学研究所の2022年度生物物理学的技術入門講義シリーズというのが公開されています

MRC LMB (英国ケンブリッジ)ではThe 2022 Introduction to Biophysical Techniques lecture seriesというのをやっています。こちらにタイトル一覧があります。下の一覧表のWebinar の部分をクリックすると、該当する講義の動画がみられますので試してみてください。https://www2.mrc-lmb.cam.ac.uk/research/scientific-training/biophysics-lectures/

Talk Date Technique Speaker Download Talks
1 Tuesday 18/01/2022 Introduction to Light Microscopy Nick Barry Webinar
2 Thursday 20/01/2022 Image Analysis Tools Jérôme Boulanger Webinar
3 Thursday 27/01/2022 Fluorescent Labeling and Light Sheet Microscopy Ben Sutcliffe Webinar
4 Thursday 03/02/2022 Super-resolution Microscopy Jonathan Howe Webinar
5 Tuesday 08/02/2022 Fluorescence Spectroscopy and Microscale Thermophoresis (MST) Stephen McLaughlin Webinar
6 Thursday 10/02/2022 Single Molecule Spectroscopy Chris Johnson Webinar
7 Tuesday 15/02/2022 Biomolecular Thermodynamics and Calorimetry (ITC) Chris Johnson Webinar
8 Thursday 17/02/2022 Biosensor Technologies (Biacore, SPR, SwitchSense, Octet) Stephen McLaughlin Webinar
9 Tuesday 22/02/2022 Introduction to Biomolecular NMR Trevor Rutherford Webinar
10 Thursday 24/02/2022 Advanced NMR applications Jane Wagstaff Webinar
11 Thursday 03/03/2022 Protein Crystallization Fabrice Gorrec Webinar
12 Tuesday 08/03/2022 Structural biology 2.0: Crystallography at the LMB in the era of cryo-EM and AlphaFold Dom Bellini Webinar
13 Thursday 10/03/2022 Light Scattering Techniques Chris Johnson Webinar
14 Tuesday 15/03/2022 Analytical Ultracentrifugation (AUC) Stephen McLaughlin Webinar
15 Thursday 17/03/2022 Curve Fitting, Errors andAnalysis of Binding Data Chris Johnson & Stephen McLaughlin Webinar
16 Tuesday 22/03/2022 Introduction to Flow Cytometry Fan Zhang Webinar
17 Thursday 24/03/2022 Instrument and Sample Optimisation for Fluorescence Activated Cell Sorting (FACS) Pier Andrée Penttilä Webinar
18 Tuesday 29/03/2022 Bioinformatics Tim Stevens Webinar
19 Thursday 31/03/2022 Biological Mass Spectrometry Holger Kramer Webinar
20 Thursday 07/04/2022 Quantitative Proteomics and Omics Data Analysis Holger Kramer Webinar
21 Tuesday 12/04/2022 Alphafold2 at the LMB – Use and Applications Clinton Lau Webinar

去年の録画も公開されていますが、最後のAlphafold2の解説(結果の見方や応用を詳しく解説してくれています)が目新しいですね。写真は自宅で咲いたバラです。ことしはカエルが花の中に入らず、庭でやかましく鳴いています。そろそろ梅雨ですね。

「いかにして問題をとくか」(丸善出版)について―ポリアの本を紹介します

「いかにして問題をとくか」(丸善出版)という有名な本がリニューアル出版されたそうです。https://www.maruzen-publishing.co.jp/contents/howtosolveit/index.html
スタンフォード大学教授だった有名な数学者のポリア(George Pólya)によって65年ほど前に書かれて世界各国でベストセラーを続けている本です。以前NHKで紹介されて有名IT企業も採用している問題解決に役立つ本ということで、ビジネスマンの間で大ブームになった本ですね。私も読みました。論理の本などを読むのは止めて、こちらを読むべき本です。問題の解き方について学べる良い本だと思います。原書はこちらで読めます。https://archive.org/details/princeton-science-library-g.-polya-how-to-solve-it.-a-new-aspect-of-mathematical/page/n13/mode/1up
あるいはこちら。
https://archive.org/details/howtosolveitnewa00pl/page/n9/mode/2up
また、プログラマーのためにこの本を紹介しているこちらのサイトも面白そうです。
http://www.softpanorama.org/Bookshelf/Classic/polya_htsi.shtml

芳沢光雄先生がこの本をよむための手引きにもなる良い本を書いておられます。こちらから先に読むとよいかもしれません。「いかにして問題をとくか・実践活用編」(丸善出版)https://www.maruzen-publishing.co.jp/item/?book_no=294094

他に、ポリアの本で英語で読めるものも紹介しておきます。
Mathematical Methods in Science by George Pólya Edited by Leon Bowden
https://archive.org/details/MATHMETODSSCIENCE
Induction And Analogy In Mathematics; Volume I of Mathematics and Plausible Reasoning; By George Polya

https://archive.org/details/Induction_And_Analogy_In_Mathematics_1_/page/n9/mode/2up
Patterns of Plausible Inference; Volume II of Mathematics and Plausible Reasoning; By George Polya

https://archive.org/details/Patterns_Of_Plausible_Inference_2_/page/n11/mode/2up

動物愛護と動物実験、線虫シーエレガンスのわかりやすい入門用論文

今日は線虫C. elegans(シーエレガンス)の紹介です。最近、動物愛護の声がたかまってきて実験動物としてマウスでさえ使用が抑えられる傾向がでてきています。製薬会社などでも動物を使った実験が難しくなってきているので、培養細胞を利用するのと、線虫C. elegansなどを利用して薬剤開発に役立てようという流れがでてきているようです。昔は動物愛護の人は、計算機のなかで薬剤開発ができるはずだといったりしていましたが、なかなかそう簡単にはいかないものです。また動物愛護の人の中には、研究室に忍び込んで実験に使われているマウスを逃がしたり、ひどい場合は手紙爆弾を作って送り付けて人を殺そうとする輩もいました。私がCambridge大学の動物学教室にいたときは、建物に爆弾を仕掛けたという犯行声明がでて、実験サンプルやノートをもって避難したこともあります。建物の中に爆発物検知犬が警官(ポリース)に綱をもたれて歩き回っていました。(結局爆弾はなかったです)。なんで動物は愛護するのに、人を殺したりするのか、その辺の精神が私には理解不能です。話がそれましたが、現在は動物愛護の精神が普及しているので、マウスやイヌ、サルなど意識のある動物の使用を別の意識のないもの(線虫とかハエとか)に置き換えて実験したり、意識のある動物の使用数を減らしたり、動物の使用方法を改善してよりより苦痛がなく、より無駄な実験がないようにするという機運が高まっています。これをThe 3Rs alternatives(Replacement, Reduction and Refinement)というそうです。この解説を読んでみてください。Hubrecht, R. C., and E. Carter. 2019. The 3Rs and Humane Experimental Technique: Implementing Change. Anim. Open Access J. MDPI. 9: 754.
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6826930/
線虫はこの流れにピッタリのモデル生物なので今後の活用が期待されるというわけです。英語ですが、こちらには線虫のわかりやすい解説がのっています。
A Transparent Window into Biology: A Primer on Caenorhabditis elegans 
著者はAnn K. Corsi,Bruce Wightman,and Martin ChalfieでChalfieさんはノーベル賞を下村先生と同時受賞した線虫C. elegansの研究者です。無料でダウンロード可能ですのでpdfと書かれている部分をクリックしてダウンロードしてみてください。https://academic.oup.com/genetics/article/200/2/387/5936175
訂正のpdfのリンクもあります。

https://academic.oup.com/genetics/article/201/1/339/5930076
これからおいおい線虫の活用についてもこのブログで触れていく予定です。

糖鎖生物学の教科書Essentials of Glycobiologyの最新版(第4版)がオンラインで公開されました。

糖鎖生物学の教科書Essentials of Glycobiologyの最新版(第4版)がオンラインで公開されました。
Essentials of Glycobiology [Internet]. 4th edition.
Varki A, Cummings RD, Esko JD, et al., editors.
Cold Spring Harbor (NY): Cold Spring Harbor Laboratory Press; 2022.
これは糖鎖生物学の標準的な教科書ですので是非オンラインで読んでみてください。Cold Spring Harbor Laboratory Pressから書籍としても販売中です。ブラウザでよむので、Life Science Dictionaryを使って辞書を引きながら読むことができます。オンライン版のリンクです。また
こちらは印刷に適したオンライン版の一例です。上の行にあるリンクで好きなページを表示して、ページの右上にあるViewsのところにあるPrint Viewをクリックすると表示されます。

今回の最新版では、表紙が新型コロナウイルスSARS-CoV-2のスパイクタンパク質がウイルスの膜に埋め込まれた状態を示す絵になっています。
左の図はスパイクタンパク質のアミノ酸鎖をシアンで示しており、それに糖鎖がついている様子を様々な形と色の単糖の表記で表しています。右はその糖鎖が空間的に揺れ動いている様子を1マイクロ秒にわたって重ねた結果を示しており、分子動力学によるsimulationの結果のフレームを重ね合わせたものです。濃い青色が糖鎖が動き回っている空間的範囲を示しています。糖鎖がグリカンシールドというシールドを作っている様子がわかります。そしてそのシールドから、にょきっと上に抜け出ている (スパイク蛋白のてっぺんの部分の)シアン色で示しtのタンパク質骨格部分が、ACE2に結合する部分でいわゆる、レセプター結合ドメイン(RBD)です。ウイルスの抗体やリンパ球からの攻撃回避手段としてのグリカンシールドを目で見えるようにした表紙ですね。

相分離生物学の解説ビデオを紹介します

昨年秋に開催された日本生化学会の年会(オンライン開催でした)に参加しました。大会シンポジュウムの特別講演にはノーベル賞を授賞したPhillip A. Sharp先生の Biochemistry and cell biology of multivalent condensates in regulation of gene expressionと題する講演
https://vimeo.com/channels/jbsoc/648376880と、

水島昇先生の「細胞内分解:特に小器官の分解について」の二つの講演が行われました。https://vimeo.com/648376788

今回は最初のSharp先生の講演で出てきた細胞内の液滴(lipid droplet, biomolecular condensate, coacervate)について紹介します。この液滴という概念は線虫シーエレガンスのP-granule(P顆粒)の研究から生まれたものです。P顆粒は膜に覆われていない細胞内小器官で、発生の初期(1細胞期)に多数のP顆粒が細胞の後側へと移動し、分裂につれてP細胞(将来の生殖細胞を生み出す細胞)だけに集まっていきます。P-granuleはタンパク質やRNAを含む顆粒で、この顆粒の局在している細胞が将来生殖細胞へと分化することが知られていました。タンパク質やmRNA などを含む顆粒で含まれるmRNAが生殖細胞の形成に働くとされています。このP顆粒を蛍光タンパク質タグをつけて光るようにして観察したところ、P顆粒は相互に融合したり分裂したりする液滴であることがわかったのでした。P顆粒は液体―液体間の相分離で液体中に形成されるあらたな液相(液滴)であることがわかったのです。この顆粒がliquid droplet(液滴)であり、液体中に相分離して現れる膜をもたない顆粒であることが報告されたのが2009年でした。このように液体中に別の成分が濃縮された液滴ができるのですが、核小体(仁)も同様に相分離した液滴であることがこの発見に続いて明らかにされました。さらにカハール小体とかG顆粒とか従来知られていた多くの細胞内の顆粒が、相分離してできたliquid dropletであることがわかって、世界中を興奮の渦で包んだのでした。さらにSharp先生の講演で紹介されているように、スーパーエンハンサーも転写因子やmediator, RNA ポリメラーゼなどが集まったlipid dropletである証拠が沢山あります。タンパク質の立体構造を研究していた多くの人が、特定の構造をとらない天然変性領域とよんでいた謎のタンパク質内のアミノ酸配列の部分が、実はこの液滴形成に働いていることもわかったのです。詳しいliquid dropletの総説はここにあります。大学などで読める方は読んでみるといいと思います。日本語の解説書として一番のおすすめは「相分離生物学」白木 賢太郎  著(東京化学同人)です。入門書としては最高の出来の本だと思います。講演としては英語ですが相分離生物学の創設者による解説ビデオがiBiologyから公開されています。NIH videocastの講演も紹介しておきます。

この続き

もう一つ続き

NIH videocastにも講演がありますのでご覧ください。

Twitterの記事をブラウザでみる方法について

Twitterによる情報収集についてのtipsです:私はiPhoneのスマホにBraveというブラウザを入れて毎日、いくつかの公開アカウントをみています。しばらくはなにごともなくtweetをみられるのですが、やがてアクセスするたびにTwitterのアカウントをつくろうとか、「今起きていることを見つけよう」というメッセージがでて自由に閲覧できなくなります。その時は、Braveでは履歴を完全にクリアするとうるさいメッセージが消えてまた自由に閲覧できるようになるのでおすすめです(Braveの画面の上部にあるライオンの顔のようなマークをクリックすると下のギャラリーの写真①の画面がでます。詳細設定のところから②の画面をだして、一番下にある「Shieldのグローバル設定を変更」をタップします。すると画面が替わるので下の方の画面(プライベートデータを削除するの部分)を表示して➂のように閲覧履歴やキャッシュなどの設定をしたあと、「今すぐ削除する」をタップして、「データを削除する、本当によろしいですか」の画面で、「はい、削除します」を選んで完了です。うるさい表示がでなくなってまたしばらくは自由に閲覧ができます。(追記:私のiPhoneのOSはversion 14より古いものです。この記事を書いた後、上のとおりにしていてもtwitterのアプリを促す画面が閲覧途中ででてきて消したらずっとみられるようになるという現象がでるようになりました。これは最新版のBraveをいれたiPadやWindowsではおこらずストレスなく閲覧できます。私のiPhoneではブラウザをFirefoxにすると、いまのところなんのメッセージも出ずにスムーズに閲覧できるようです。そのうちBraveも対策するでしょう。2022/5/15追記)