29 Mar 2020 •

These are some thoughts on the daily reports issued by the Japanese Ministry of Health, Labor, and Welfare. I’ll be using data from the March 27 COVID-19 status report and the English Version.

これらは日本の厚生労働省によって発行された日報のいくつかの考えです。 3月27日のCOVID-19ステータスレポートと英語版のVersioのデータを使用します

Setting aside that these reports seem to be manually written in HTML by a human being (unlike other places that offer a dashboard, e.g. South Korea) there are some serious issues with this report format. I am writing this on March 29, but I will explain why am I using a report from March 27 at the end.

303/5000これらのレポートは人間によってHTMLで手動で記述されているように見えますが(韓国などのダッシュボードを提供する他の場所とは異なり)、このレポート形式にはいくつかの深刻な問題があります。 3月29日に書いていますが、3月27日のレポートを最後に使う理由を説明します。

Sums? Where we are going, we don’t need sums to work.

合計? 私たちが行くところ、私たちは機能するために合計を必要としません。

First, this is the breakdown table at the top of the report. I’m using the version from the English page, for legibility reasons. Here is an illustration of the legibility problem, using a grain of sesame:

まず、これはレポート上部の内訳表です。 読みやすさの理由から、私は英語のページのバージョンを使用しています。 ごまの粒を使用して、読みやすさの問題を説明します。

Compare this with a Wikipedia page, with the same sesame grain.

これをWikipediaのページと比較すると、同じごまが含まれています。

COVID-19 numbers in Japan, March 27 2020

First problem here is that none of the really important tables here are actually text based tables – they are images. Images with no alt text, hence will give you dead silence if you try to access the information with a screen reader. I won’t go into the details why this is bad as that’s enough material for a whole new post, but you can read more on this here.

ここでの最初の問題は、ここで本当に重要なテーブルは実際にはテキストベースのテーブルではないということです-それらは画像です。 代替テキストのない画像は、スクリーンリーダーで情報にアクセスしようとすると完全に沈黙します。 これがまったく新しい投稿に十分な資料であるため、これがなぜ悪いのかについては詳しく説明しませんが、この彼女について詳しく読むことができます

On the other hand, it’s extremely detailed, which is nice – but how do these numbers break down? The answer is, not in a very straightforward way.

一方、それは非常に詳細です、それは素晴らしいです-しかし、これらの数値はどのように分解されますか? 答えは、非常に簡単な方法ではありません。

So this table, confusingly enough is a quasi-hierarchy. It has these levels:

したがって、このテーブルは、紛らわしいことに、準階層です。 次のレベルがあります。

  1. Level 1: PCR tested positive, PCR tested
  2. Level 2: With no symptoms, With symptoms, Under confirmation of the symptom, Death (this is special, see below)
  3. Level 3: w/Symptoms – Already discharged, w/Symptoms – Need in-patient treatment, w/o Symptoms – Already discharged, w/o Symptoms – Need in-patient treatment
  4. And so forth.

レベル1:PCRテスト陽性、PCRテスト
レベル2:症状なし、症状あり、症状の確認中、死亡(これは特別です。以下を参照)
レベル3:症状あり-退院済み、症状あり-入院治療が必要、症状なし-退院済み、症状なし-入院治療が必要
などなど。

Tested negative is implicit. It’s presumably pcr_tested - pcr_tested_positive. Ideally, pcr_positive and pcr_negative would have been level 1, with level 0 being pcr_tested.
Now confusingly enough, here is how you integrate to get PCR tested positive, which is level 2:

テストされた否定は暗黙的です。 おそらくpcr_tested-pcr_tested_positiveです。 理想的には、pcr_positiveとpcr_negativeはレベル1で、レベル0はpcr_testedでした。
混乱を招きますが、PCRテストが陽性になるように統合する方法を以下に示します。これはレベル2です。

  • pcr_tested_positive = with_no_symptoms + with_symptoms + under_confirmation

Remember to not include death, because this is a quasi-hierarchy. The table tempts you to, but it’s excluded. (The quasi-nature is because it is under the PCR tested positive umbrella on level 2.) So what about integrating level 3?

これは準階層であるため、死を含めないでください。 テーブルはあなたを誘惑しますが、それは除外されています。 (準自然は、レベル2でPCRテスト済みの正の傘の下にあるためです。)では、レベル3の統合についてはどうでしょうか。

That’s simple. You don’t. Because no matter how hard you try, the numbers won’t add up. (e.g. Give it a try – you’ll end up with 129 != 131 and 1147 != 1191. We’ll need one of these numbers later.) Level 4 adds up though, so the plot thickens.

それは簡単です。 あなたはしません。 どんなに頑張っても、数字は増えません。 (例:試してみてください-129!= 131と1147!= 1191になります。後でこれらの数値のいずれかが必要になります。)ただし、レベル4が加算されるため、プロットは厚くなります。

So, up next – do the rows integrate nicely? Fortunately – yes. Does the breakdown matter to the average joe? Not really. Unless you are a healthcare official, the details really don’t matter – the average population only needs to know the summed numbers to be able to compare how bad the situation is with other countries, and how careful they should be when leaving their homes.

それで、次は-行はうまく統合されていますか? 幸いなことに-はい。 内訳は平均的なジョーにとって重要ですか? あんまり。 あなたが医療関係者でない限り、詳細は本当に問題ではありません-平均的な人口は、状況が他の国とどれほど悪いか、そして家を出るとき彼らがどれほど注意深くあるべきかを比較できるようにするために合計数を知る必要があります。

Here is a simplified version I made that shows only what matters to the average person.

これは私が作成した単純化したバージョンで、平均的な人にとって重要なものだけを示しています。

Simplified Japanese COVID-19 Statistics

According to this data, the positive case mortality rate is around 3.21%.

The statistically disappearing ghost ship passengers-統計的に消える幽霊船の乗客-

Moving on to the next chart, we can see some interesting patterns here.

次のチャートに移ると、ここにいくつかの興味深いパターンが見られます。

Hospitilization and Discharge, dated March 26

First, there is a new number that was not disclosed in the previous table – 2059, and 672 respectively. So what are these? 2059 is a sum including the cruise ship passengers. Even worse, in the Japanese version even this table is missing – and only provides a separate table with the cruise ship numbers, and completely omits the summed count.

最初に、前の表では開示されていなかった新しい番号があり、それぞれ2059と672です。 これらは何ですか? 2059年は客船を含む合計です。 さらに悪いことに、日本語版ではこの表も欠落しており、クルーズ船の番号が記載された別の表のみが提供され、合計数は完全に省略されています。

Cruise ship numbers in Japanese page, dated March 26

Why? Nobody knows. The problem here is that these people are no longer on the ship; and have actually landed on Japanese soil. So the real number of positive cases on Japanese soil is actually 2059, and not 1387 as the previous table suggests. It is also worth noting that 603 of the 672 people have been discharged, and nobody has a slight idea where these people are as of today.

どうして? 誰も知らない。 ここでの問題は、これらの人々がもはや船に乗っていないことです。 実際に日本の土壌に上陸しました。 したがって、日本の土壌での陽性事例の実際の数は実際には2059であり、前の表が示唆している1387ではありません。 また、672人のうち603人が退院したことも注目に値します。これらの人が今日どこにいるのか、だれも考えていません。

On top of that, “cured” cases reported by the government in press releases (but not this report, so the numbers aren’t off by 600 people) include patients from the cruise ship, so if you calculate the ratio of cured to infected, it’s on a different magnitude. Number magic! Deaths on the other hand have not been summed, so if you are a Japanese citizen who happened to die of COVID-19 complications after getting off of the Diamond Princess, you have not contributed to the mortality rate. Yay for statistics!

その上、プレスリリースで政府から報告された「治癒した」症例(ただし、この報告ではないため、600人の人数からずれていません)には、クルーズ船の患者が含まれているため、感染した治癒した患者の割合を計算すると、 、それは異なる大きさです。 ナンバーマジック! 一方、死亡者数は合計されていないため、ダイヤモンドプリンセスを降りた後にCOVID-19の合併症でたまたま死んだ日本人の場合、死亡率には寄与していません。 統計に問題ありません。

Moving on to the next nit, there is a bubble that says “from severe to moderate/mild symptoms” with a value next to it, but crossing two cells. What does this mean? Nobody knows, and there is no explanation why it crosses two cells on the page either.

次のnitに移動すると、「深刻な症状から中程度/軽度の症状」と書かれたバブルがあり、その横に値がありますが、2つのセルを横切っています。 これは何を意味するのでしょうか? だれも知らず、ページの2つのセルをまたぐ理由も説明されていません。

The previous table, which is dated “12:00, Mar. 27”, this table is dated “18:00 Mar. 26”. That is a 18 hour difference between two adjacent tables – yet the total cases are exactly the same. So either all the hospitals are clocking out exactly at 18:00 and halting all testing, or something is very wrong.

前の表は「3月27日12:00」で、この表は「3月26日18:00」です。 これは、隣接する2つのテーブル間で18時間の差ですが、ケースの合計はまったく同じです。 したがって、すべての病院が18:00に正確に退院してすべてのテストを停止しているか、何かが非常に間違っています。

Look Woody, infected people everywhere. EVERYWHERE.

Now, after roughly two screens worth of a information summarized about the local situation, they move on to a static table breakdown of the global situation with no visualization. This section allocates a 53.47% of the vertical pixel real estate of the entire report. Sure, it’s useful information – but not in a table which doesn’t allow sorting with no plot. Here is the real-estate breakdown visualized:

さて、ローカルの状況について要約されたおよそ2画面分の情報が表示された後、視覚化されていないグローバルな状況の静的な表の内訳に進みます。 このセクションは、レポート全体の垂直ピクセル領域の53.47%を割り当てます。 確かに、それは有用な情報ですが、プロットなしでソートできないテーブルにはありません。 視覚化された不動産の内訳は次のとおりです。

What the fuck Japan.

Here is the thing – there are a dozens of places that do this better than this page, so the citizens here can look them up there. Even if English literacy is not a thing in Japan, I’m sure Ctrl+F and typing a country name in English for specific cases is not rocket science for anyone who has finished mandatory public education. Why they allocate so much space to information very few will read is a mystery – if they really want to, this should probably be a separate post.
これが問題です。このページよりも多くのことを行う場所がたくさんあるので、ここの市民はそこでそれらを調べることができます。 日本では英語の読み書き能力がなくても、Ctrl + Fを押して国名を英語で入力することは、義務教育を終えた人にとってロケット科学ではありません。 彼らが情報に非常に多くのスペースを割り当てるのは、ほとんど読まないであろう理由は謎です-彼らが本当に望めば、これはおそらく別の投稿であるべきです。

I’m not sure what the intent of this is. Is it to show how terrible the rest of the world is and how great Japan is managing the situation? I don’t know.

これの意図が何であるかはわかりません。 他の国々がどれほどひどいのか、そして日本がどれだけ素晴らしい状況を管理しているかを示すことでしょうか? 知りません。

I normally don’t sum things, but when I do – they don’t add up.

-通常、合計はしませんが、合計すると合計されません。

Now, we finally move on to the meat of the report. Local regional breakdowns. Why this is after the global numbers is beyond me, but at this point it seems like anything goes.
さて、ようやくレポートの要点に移ります。 ローカル地域の内訳。 なぜこれがグローバルな数字の後であるのかは私を超えていますが、現時点では何も起こっていないようです。

Japan regional breakdown, no date disclosed

The table columns are in the order of municipality, patients, currently in-hospital, discharged, and dead.
表の列は、自治体、患者、現在院内、退院、死亡の順になっています。

Now to add more consistency to the report, we have yet another unsortable static table. You can also see here that unlike the previous table, it has been sorted by the second column, which is well, consistent with none of the tables we have seen so far – but at this point, who cares.
レポートに一貫性を追加するために、ソートできない静的テーブルがもう1つあります。 また、前の表とは異なり、2番目の列で並べ替えられていることもわかります。これは、これまでに見たどの表とも一致していませんが、現時点では気にしているところです。

This time, the sum of patients include the dead. Try it yourself.
今回、患者の合計は死者を含みます。 自分で試してみてください。

  • 227 = 194 + 28 + 5

There is no rhyme or reason behind the inconsistencies between the first summary table and the regional breakdown. (Not to mention that none of the tables have matching columns for baseline comparison, because that seemed like a good idea at the time to someone at Kasumigaseki.) There isn’t much more to write about here, common sense seems to be a scarce resource to those who have been involved in the report.

最初の要約表と地域の内訳の間の不一致の背後にある韻や理由はありません。 (言うまでもなく、霞ヶ関の人にとっては良い考えのようだったので、ベースライン比較用の一致する列が含まれているテーブルはありません。)ここについて書くことはこれ以上ないので、常識は乏しいようです レポートに関与した人へのリソース。

Moving on, here is the grand total.

次に、総計を示します。

Wait, what? Where did 1191 come from? When is this table from? Well, nobody knows – it’s not written anywhere. Let’s add those up, like we did on the first row of the same table.
待って、何? 1191はどこから来たのですか? このテーブルはいつからですか? まあ、誰も知らない-それはどこにも書かれていません。 同じテーブルの最初の行で行ったように、それらを追加してみましょう。

  • 828 + 319 + 46 = 1193

What?

What we do know is that this is yet another set of new numbers which don’t match up to anything we have seen so far. Or does it? Remember they noted 無症状病原体保有者を除く (excluding those who are asymptomatic) above? Well, let’s try that – here are some assumptions we will make based on what the government probably was thinking.
私たちが知っていることは、これは、これまでに見たものと一致しない新しい数字のセットのさらに別のセットであることです。 それとも? 彼らが上記の無症状病原体保有者を除く(無症候性の人を除く)と述べたことを覚えていますか? まあ、それを試してみましょう-政府がおそらく考えていたことに基づいて私たちが行ういくつかの仮定があります。

  1. Awaiting is considered asymptomatic, because that lowers the count. No symptoms, right?
  2. Asymptomatic is obviously asymptomatic.
  3. The dead has no symptoms, obviously.
  4. Remember we pretend the ghost ship passengers don’t exist? They don’t. They don’t exist. Shhh.

1,待機は無症候性と見なされます。 症状はありませんよね?
2,無症候性は明らかに無症候性です。
3,明らかに、死者には症状がありません。
4,幽霊船の乗客が存在しないふりをしたことを覚えていますか? 彼らはしません。 それらは存在しません。 シッ。

Ah, but there is 1191, which is the “with symptoms” column sum in the first table, right? But what about awaiting and dead and all of that? Maybe there is another way to compute this.
ああ、でも1191あります。これは最初の表の「症状あり」列の合計ですよね? しかし、待っていると死んでいるすべてについてはどうですか? これを計算する別の方法があるかもしれません。

After trying a bunch of combinations from the table above, the conclusion is that this number might also come from this function.
上記の表からいくつかの組み合わせを試した後、結論はこの数もこの関数に由来する可能性があるということです。

Coefficients used by magic function
  • sum_local = pcr_positive – with_no_symptoms – awaiting_symptoms
  • 1191 = 1349 – 131 – 27

It turns out – this magic function works for all rows. That means the hierarchy is represented in yet another confusing form, but let’s not go too deep into that.
結局、この魔法の関数はすべての行で機能します。 つまり、階層はさらに別の紛らわしい形式で表されますが、あまり深くは入りません。

I have no idea what they did about the dead, but the dead do not seem to be part of the equation. Why they chose this particular subset is beyond me.
私は彼らが死者について何をしたか分かりませんが、死者は方程式の一部ではないようです。 彼らがこの特定のサブセットを選んだ理由は私を超えています。

Incompetence? That’s our Scrapeshield.

To add insult to injury, if you want to use these reports as a foundation for analysis, you are in for a surprise. (at least I was.)
傷害に侮辱を加えるために、これらのレポートを分析の基礎として使用したい場合は、驚きを覚えます。 (少なくとも私はそうでした。)

Here are some issues that I encountered:
ここに私が遭遇したいくつかの問題があります:

  1. The report formats constantly seem to change
  2. Images, as noted above
  3. No semantics or meaningful selectors in the markup
  4. Multiple report types
  5. No URL patterns

1,レポートの形式が常に変化しているように見える
2,上記の画像
3,マークアップにセマンティクスまたは意味のあるセレクターがない
4,複数のレポートタイプ
5,URLパターンなし

The reason why I used a two day old report on March 29 is simple, there was no full report yesterday nor today. I’m guessing the Tokyo lockdown means that nobody can get to work, and PCs are too expensive to buy for home use so the people at the Ministry of Health can enjoy a nice weekend with hoarded pasta.
3月29日に2日前のレポートを使用した理由は簡単です。昨日も今日も完全なレポートはありませんでした。 東京のロックダウンはだれも仕事に行けないことを意味していると思います。PCは家庭用に購入するには高すぎるので、厚生労働省の人々はたっぷりとしたパスタで素晴らしい週末を楽しむことができます。

(4) in particular is interesting – the government releases multiple types of reports, depending on the week of day. Here are the different types: (you can see the full list here)

(4)特に興味深い-政府は、曜日に応じて複数のタイプのレポートをリリースします。 ここに異なるタイプがあります:(ここで完全なリストを見ることができます)

  • 新型コロナウイルス感染症の現在の状況と厚生労働省の対応について: Full report. Only released on weekdays. Summary table, cruise ship table, international table, followed by regional breakdown table.
  • 新型コロナウイルス感染症の現在の状況について: Weekend/public holiday edition. Summary table, cruise ship table, and international table. No local regional breakdown.
  • 新型コロナウイルスに関連した患者等の発生について: Released daily. Least useful, easiest to parse. Contains only a delta of new confirmed cases (no status, like the regional breakdown in the fully report) broke down by region.

新型コロナウイルス感染症の現在の状況と厚生労働省の対応について:完全なレポート。 平日のみ発売。 要約表、クルーズ船表、国際表、それに続く地域別内訳表。
新型コロナウイルス感染症の現在の状況について:週末/祝日版。 概要表、クルーズ船表、国際表。 地域の内訳はありません。
新型コロナウイルスに関連した患者等の発生について:毎日リリースされています。 あまり役に立たず、解析が最も簡単です。 新しい確認済みケースのデルタのみが含まれます(完全なレポートの地域内訳のようなステータスはありません)。

There is still no delta report for today as of now (March 29, 16:16) and as the report release time is not noted on the posts, I’m not sure when to expect it.
現在(3月29日、16:16)の今日のデルタレポートはまだありません。レポートのリリース時間は投稿に記載されていないため、いつ予測するかわかりません。

(UPDATE: I see it now, as of 19:30. I’m suspecting the 18:00 timestamp from earlier is probably related to this. Just a guess.)
(更新:私はそれを19:30の時点で確認しました。以前の18:00タイムスタンプがおそらくこれに関連していると思います。単なる推測です。)

Suggestions-提案-

So, so far I’ve been complaining about this report type with no actionable feedback – which is bad. I doubt the Japanese government will read this post and actually take any sensible action, but here are some suggestions.

したがって、これまでのところ、このレポートタイプについて、実用的なフィードバックがないという不満を抱いています。これは悪いことです。 日本政府がこの投稿を読んで実際に賢明な行動を取るとは思えませんが、いくつか提案があります。

  1. Make two reports. A summary (not more than two pages) report for citizens, and another detailed one for health professionals and formal use.
  2. Remove the international table. It’s not useful to 99% of the audience out there. We have WHO data for that – that’s what hyperlinks are for. If you want to do your own international edition (which I believe you should not, considering the quality of your existing reports) please do it as a separate report.
  3. Accompany reports with the raw data used. Even better, provide a public data feed for people to take away and throw into a tool of their choice – you might get a nice dashboard or trend report for free from someone who is bored enough.
  4. If you can’t do (3), at least add some selectors to your HTML reports that can be used to pull the data out.
  5. Make the data field availability as consistent as possible. Don’t suddenly add and remove fields.
  6. Make the format of the report and data points available consistent every day.
  7. Don’t invent magic equations. People notice when the numbers don’t match up. If you invent an equation, disclose how you ended up with that number.
  8. Release reports and data regularly, and communicate when this will be and if you cannot communicate that too.
  9. Make the report URLs predictable, so people can scrape if needed.
  10. Please consider accessibility when making these reports available. Sure – OCR technology has advanced, but that is not a valid excuse.
  11. Enough with the bloody PDFs. Tabular data in the worst case can be released as CSV or XLS and nobody will complain. Maybe that grumpy guy who still uses his 25 year old PC-98 might, but f$#k him.

2つのレポートを作成します。市民向けの要約(2ページ以内)レポートと、医療専門家および正式な使用向けの詳細レポート。
国際テーブルを削除します。そこにいる聴衆の99%には役に立たない。そのためのWHOデータがあります。それがハイパーリンクの目的です。独自の国際版を実行したい場合(既存のレポートの品質を考慮して、そうすることはできないと思います)、別のレポートとして実行してください。
使用した生データをレポートに添付します。さらに良いことに、人々が持ち帰って好きなツールを利用できるようにパブリックデータフィードを提供します。退屈な人から無料で素敵なダッシュボードやトレンドレポートを入手できます。
(3)を実行できない場合は、少なくともHTMLレポートにセレクタを追加して、データを取得するために使用できるようにします。
データフィールドの可用性を可能な限り一貫してください。フィールドを突然追加したり削除したりしないでください。
レポートのフォーマットとデータポイントを毎日一貫して利用できるようにします。
魔法の方程式を考案しないでください。人々は数が一致しないときに気づきます。方程式を考案する場合は、その数値をどのようにして得たかを明らかにします。
レポートとデータを定期的にリリースし、これがいつになるか、またそれを伝えることができない場合は伝えます。
レポートのURLを予測可能にして、必要に応じて人々が情報を収集できるようにします。
これらのレポートを利用できるようにする場合は、アクセシビリティを考慮してください。確かに-OCR技術は進歩していますが、それは正当な言い訳にはなりません。
流血のPDFで十分です。最悪の場合の表形式のデータはCSVまたはXLSとしてリリースされる可能性があり、誰も不満を言うことはありません。たぶん、25歳のPC-98をまだ使っている不機嫌そうな人なら、たぶん彼をf $#kするでしょう。