平成24年秋期 午後 問2データベース

miniさん  
(No.1)
https://www.fe-siken.com/kakomon/24_aki/pm02.html
上記設問1の、空欄cの考え方を教えて下さい。

平成24年秋 午後問3 データベース[1389]
https://www.fe-siken.com/bbs/1389.html
このページも参照させていただいたのですが、ハマってしまいました。

まず問題中の説明で、名寄せは「表現は異なっていても同じ情報を表しているデータを特定し、...特定した項目で突合せ」ることだとありました。

そのため、私はX事業部とY事業部で同じ情報なのに表現が異なっている、取引先コードか社名が正解かなと思いました。
結果はどちらでもなく表現も情報も全く同じ「電話番号」。

過去の質問への回答には以下のような記述があったものの、残念ながら「これらを推測」はできませんでした。
"設問1のC
X事業部・Y事業部の取引先表を見ると、情報商事という会社が両方にあり、電話番号以外がそれぞれ違う表記で登録されているのが見つかります。これらを推測すると、電話番号にはパターンマッチングが使われている可能性がある=決まった書式で書かないとエラーを返すことができるという考えに至れれば、電話番号の突き合わせで同じ情報データの抽出は可能だと導きやすいかと。"
2020.08.09 22:04
ひとりものさん 
(No.2)
(1) 統合対象の表のデータを見比べて,表現は異なっていても同じ情報を表しているデータかどうかを識別するのに最も適した項目を特定する。
(2) (1)で特定した項目で突合せを行い,同じ情報を表すデータを一つのデータにまとめる。
と説明にあるように,

名寄せというのは「表現が異なっていても同じデータなのか,完全に別のデータなのかを区別し,同じデータをひとつ(1行)にまとめる」ことを指し,
突合せとは,「それぞれのデータが同じなのか別なのかをどれかの項目を見比べて判断する」ことを指します。

そうすると,突合せを行う項目は「微妙な表現の差がなく,同じデータなら表現も同じであるはずのデータ」である必要があります。

情報商事の例でみると,X・Y事業部合わせて4件のデータがありますが,社名は「株式会社」があったりなかったり略称だったりします。住所も東京都のあるなしが違ったり番地の書き方が違ったりします。
しかし,電話番号は同じ形式で書かれており,これをもとにして「電話番号が同じならば同じ会社,異なれば別会社だ」と考えられるので,それが答えになっています。

XK001と0105は同一の会社で,それと後のふたつは全部別会社というわけですね。


2020.08.09 22:37
miniさん  
(No.3)
そういうことですか!
XとYのデータについて、それぞれのデータが同じと言える判断をした項目は何ですか、ということですね!
ありがとうございます。
2020.08.09 23:49

返信投稿用フォーム

スパム防止のためにスレッド作成から30日以上経過したスレッドへの書き込みは禁止しています。

その他のスレッド


Pagetop