実験系と解析系をつなぐためのコツを説明してみる

  • 大学院実験系学生向け 特別講義(こちら)
  • 実験系のデータ量はどんどん増えている
  • 実験系が、解析系とデータを共有したり、解析系に頼らずに自前でハンドリングする必要も増えている
  • 実験系で分量の多いデータを管理することが必要なのは言うまでもないけれど、その管理のこつを説明するとしたら、どうすればよいだろうか?
  • データとは何か
    • 「値」と「構造」を持つもの
  • データ〜「値」+「構造」を計算機に納めるときに使えるものは何か
    • ファイルとディレクトリ構成
    • ファイルとディレクトリ構成にも「値」と「構造」がある
    • 「データベース」は今日は扱わない(し、当面、不要)
      • 「データベースは」たくさんの情報を「しまって」おいて「出す」のが得意
      • すべてのデータを扱いたいときは、「気になったもの」を「出す」だけではだめだから、「大量データ」のすべてを管理したいときは、ファイル管理から始めるのがよい
  • ディレクトリに持たせる情報とファイルに持たせる情報
    • 「その情報」は誰の持ち物?
  • テキストファイルでの保管の意味を考える
    • 「テキストファイル」とは
    • 「拡張子」とは
  • テキストファイルの中身を説明する
    • 「目に見える文字」は「値」
    • 「目に見えない文字」は「構造」
  • テキストファイルでうまくデータの管理ができているかはどうやって確かめるか
    • 「2種類の構造用文字」のみが使われているかを確認
      • 「改行」文字と、「行内の区切り」文字
    • 「2種類の構造用文字」のみが使われているとき
      • 「値」は行列の番地で指定できる
      • 『どの行列番地に何の「値」が入っているか』、をファイルを開かずに言えるかどうかでチェック
      • ファイルを開いて、「値」を見たら、その「行列番地」を確認したら、その値の意味を説明できるかどうかでチェック
  • デジタルとアナログ
    • デジタル:テキストファイル
    • アナログ:いわゆる「一目見てわかりやすい」ファイル〜「絵画」ファイル
  • 「絵画」について
    • 「絵画」は人間にとってわかりやすい
    • 「絵画」は計算機には複雑すぎる
  • データ処理の特徴
    • 人間が得意で計算機が苦手なこと
      • 人間は、「絵画」情報を「総合的」に判断するのが得意
      • 計算機は「絵画」情報を「総合的」に判断するのが苦手
    • 人間が苦手で計算機が得意なこと
      • 人間は、「繰り返し」「やり直し」が嫌い(やるのを拒否する)
      • 計算機は、「繰り返し」「やり直し」が好き
    • 人間が苦手で計算機が得意なこと、その2
      • 人間は粒粒に分解された情報より、それらをあるルールで統合してあるときに、それを活用する(意味をつける)ことが得意
      • 人間は粒粒な情報を統合する処理自体は苦手
        • 特に、いろいろなパターンで統合する処理は嫌い(繰り返し作業だから)
      • 計算機は統合してある情報を粒粒に戻すのが苦手
      • 計算機は、粒粒な情報をルールで統合する作業は得意
        • 特に、統合ルールが複数あるときは、その作業が得意
  • 「絵画」に特徴的なこと
    • 「枠」表示
    • 「色表示」
    • 「線」による意味づけ
    • 「空白の量(長さ・面積)」による見栄えの調整
    • 「矢印」
    • 吹き出しコメント」:もってのほか
  • 「繰り返し」「やり直し」が好きな計算機のためにするべきこと
    • テキストファイルでのデータ管理(上述)
    • 処理のフロー化
      • フローはなるべく、直列で(分岐を作らない)
      • フローはステップに分けられるように
      • 分岐(場合分け)が必要となったら、分岐後にまた統合することはできるだけ避ける
      • ステップに分けたら、ステップの分担をきれいにする
      • ステップ間のやりとりのルールを先に固定して、ステップ内部の処理は担当者に任せる
  • なお、大事なことだけれど、「備考」はハンドリングできない
    • ハンドリングできない「備考情報」は『計算機データハンドリング用』とは異なるファイルでログ管理するのが適当