memo
diary201612CSVY...CSVデータとYAML front matter
- Thinking about CSV
One topic that I have been thinking about the past two days is how to add metadata to CSV files while keeping the simplicity of the format. This is important for DataCite, as we want to make the process of registering datasets with metadata painless, and for individual researchers and small research groups the process should be as simple as possible. Two groups have done great work in this area and Jeni Tennison and Dan Fowler gave presentations about their work at CSVconf:
一般的な会社でもCSV形式のデータを扱う事があったりするかもしれない。おそらく、エクセルを使用して、読み込んだり、編集したりするのではないかなと思うが。(エクセルがなく、簡易的な編集だけ行う場合は、エディタでも十分可能。一般の人に言ってもピンとくる人は少ないかもしれない...)ちなみに、自分の場合は、タブ区切りのTSVが好みだ。
そのCSV形式のデータは、あくまでデータの塊のようなものであって、それが何を意味しているものなのかは、はっきり分からないかもしれない。一行目に項目のデータが入っている場合はなんとなく推測は可能だが、まあはっきりとした事は分からない。CSVデータは汎用的でよく使用されるけども、上記のような不備を抱えているフォーマットと言える。
それを解消するために、YAMLというフォーマットを利用して、ヘッダを記述すればいいというのがCSVYの考え方で、ここ最近、Markdownファイルにも使用されていたりする。YAML front matterと呼ばれたりするが、人間にも可読でき、仕様そのものも難解ではない。
ヘッダ情報があると何がよいか?データが何を意味しているのか分かりやすかったり、検索性も高まり、複数のファイルを関連付ける事もできそうで、CSVデータの扱いに幅が広がる感じですね。このCSVYの話題は検索しても日本語圏でヒットしてこないね...。世間的にはあまり興味がないのかも?
2016-12-11 21:42 tags:CSVYYAMLMarkdownYAML frontmatter