WEB 情報 ジョウホウ の 特徴 トクチョウ _ir11

Download Report

Transcript WEB 情報 ジョウホウ の 特徴 トクチョウ _ir11

11回
•
•
•
•
6 Web情報の特質
7 Web情報の信頼性
8 課題3の確認
9.Web情報の量
1
6.Web情報の特徴
(1) ハイパーリンクによる原文へのアクセス
(2) 一次情報と二次情報の混在
(3)匿名の情報発信
(4) 書誌事項の欠如
(5) 断片的な内容
(6) 審査を受けない情報発信
(7)「現時点」の情報
(8) 分類のない(全分野の)情報
2
(1) ハイパーリンクによる
原文へのアクセス
• YahooやGoogleなどの検索エンジン
– 検索エンジンと原文(Webペー)がネット上に存在する
– ハイパーリンクにより検索結果から原文を確認できる
– 検索エンジンの利便性が非常に高い
• データベース
– 原文が印刷物のため、情報検索の結果をもとに、再度図
書館などで原文を探し出す必要(図書・雑誌記事)
3
(1) ハイパーリンクによる原文情報へのア
クセス
• YahooやGoogleなどの検索エンジン
– 検索エンジンと原文Webページが同じネット上に存在する
– ハイパーリンクにより検索結果から原文を確認できる
– 検索エンジンが扱った原文Web情報を確認できる
– 検索エンジンの利便性は非常に高い
• 多くの有料データベース
– 原文が印刷物のため、情報検索の結果をもとに、再度図
書館などで原文を探し出す必要
– 原文へのアクセスに多くの労力を必要とする
4
(2) 一次情報と二次情報の混在
• Web情報は匿名で情報発信が容易
– Web情報は著者が作成した一次情報と、伝
聞情報である二次情報が混在する
– 原文であるWebページを閲覧できても、著者
が自ら創作した一次情報とは限らない
• Web情報の活用にあたっては慎重な扱い
が求められる
– 伝聞情報や不正確な情報の割合が高い
– 有料のデータベースの原文は全て雑誌記事
などの一次情報である。
5
(3)匿名の情報発信
• Web情報では著者名が記述されない場合が多い
– 情報の内容に責任をもつ人を特定できない情報が多くな
る
– 著者に関する記載があっても現実社会における実態と一
致しない場合も多い
• 匿名情報がWeb情報の信頼性低下につながる
– 情報は人により創造される
– 著者が明示されることは情報の内容についての責任の所
在が明らかにされることになる
– Web情報の活用にあたって著者や所属に関する情報が
記載されているか確認する必要がある
• 有料データベース
– 書誌事項の一部として著者や所属は必ず明示されている6
(4) 書誌事項の欠如
• 検索エンジン
– データベースの書誌事項がない
•
•
•
•
•
表題
著者
出版者
出版年
分類
– 著者・出版年が確認できない情報が多いことを認識し
たうえでWeb情報を活用する
• 一般のデータベース
– 検索データとして書誌事項が整備されているのは必須
の要件である。
7
(5) 断片的な内容
• Web情報
– サイト毎ではなく1ページ単位で構成されている。
– 1ページに1000文字を超える文章が記述されるようなページは
少ない。
• 印刷物
– 雑誌記事情報
• 1つの話題について2000字から20000字程度の文章からなる
– 図書情報
• 数万字からなる
• 印刷情報に比べるとWeb情報の内容は断片的
– まとまりのある知識や情報をWebページから得ることは困難
– 簡単な情報やデータを得るには問題ない
8
(6) 審査を受けない情報発信
• Web情報
– 著者自身の判断に従って発信される情報が多い(ブログ)
– 他人によるチェックが無いため、信頼性の低い情報が混
在
– 二次情報も混在する可能性が高い
• Web情報の信頼性を判断する材料
– ページ作成者、サイト管理者などが特定できること
– 比較的信頼性の高いドメイン
• go.jp, ac.jp, co.jpドメイン、gov, eduドメイン
• 有料のデータベース
– 出版社や査読者による事前審査をうけて発信される情報
9
(7) 「現時点」の情報
•
Web情報の出版年月日
– 基本的に現時点における最新情報
– 「現時点」の情報が主体となっているので遡及検索に対
応できない
– Search toolsで対応できるが1ページに1時点
(8) 全分野の情報
• Webのページの情報は全ての分野の情報
• 検索エンジンの検索結果にはあらゆる分野の情報が表示さ
れる
• 有料のデータベースではデータベース毎に扱う情報の分野
は限定されている
10
表6 情報をまとめた良い表現と悪い表現例
≪再確認≫
• × 「~について記載されていた」
– 「ついて」という表現は得られた情報の内容を何も表現し
ていないに等しい
– 具体的な内容を示す、事実や、数値データなどを使用し
て概要を記述することが必要
• 目的や目標の達成に役立つようにまとめる
– 情報検索を行う前に目的や目標を設定
– 設定した目的と目標を意識してまとめる
11
7 Web情報の信頼性
サイトの信頼性を推定できる付帯情報
• ドメイン
– edu, gov, ac.jp, go.jp, co.jp
• 著者/機関名 > 匿名
• ファイルの作成年月日
– プロパティで確認
• 一次情報 > 2次情報
• 複数の情報源の存在
• 情報発信の背景(意志の推定)
12
• 書誌事項に相当する付帯している
– 著者
– 所属
– 発信日
– 連絡先
13
サイトの信頼度
– 信頼できると判断した理由
– 例:
•
•
•
•
サイトのドメインが ac.jpであった。
著者名が明記されていた。
引用が明記されていた。
1次情報であった(と推定でき)
14
8.課題3の確認
• 3種類のWeb情報検索
– 同一課題について3種類の検索を実施する
– 検索方法毎に5サイト以上の情報収集を行う
【検索1】Googleによる日本語キーワード検索
【検索2】Google以外の日本語キーワード検索
【検索3】 英語検索エンジンによる英語キーワ
ード検索
15
使用する3種類の検索エンジン
論理式を使った検索機能&検索件数表示機能
日本語検索エンジン
英語検索エンジン
検索1 Google.co.jp
検索3 Google
/webhp?hl=enを指定
1 (○論理式・○件数表示)
Google.comでは不十分
検索2
Bing
Bing
2 (×論理式・○件数表示)
Yahoo.co.jp
3 (Googleと同じため対象外)
(○論理式・○件数表示)
ASK
4 (×検索表示・×論理式)
ask.co.jp
Baidu
6 ○論理式・○件数表示)
(
(×論理式・○件数表示)
Bing.com in English
1
件
選
択
Yahoo
yahoo.com
(○論理式・×件数表示)
1
件
選
択
ASK
(×検索表示・×論理式)
ask.com
16
9.Web情報の量
サーバ数とドメイン数 https://www.isc.org/services/survey/
インターネットのホスト数2012 年 全世界で888,239,420台
サーバ数とドメイン数
インターネットのホスト数2012 年 全世界で888,239,420台
17
Web情報の利用
• the number of people in the United States
who visit each site within a month.
– https://www.quantcast.com/top-sites-1
• The top 500 sites on the web
– http://www.alexa.com/topsites/global;0
18
1 google.com
2 youtube.com
3 facebook.com
4 microsoft.com
5 msn.com
6 twitter.com
7 yahoo.com
8 Hidden profile
9 amazon.com
10 yelp.com
11 ebay.com
12 buzzfeed.com
13 pinterest.com
14 Hidden profile
15 bing.com
16 wordpress.com
17 wikipedia.org
18 live.com
19 about.com
20 linkedin.com
21 blogger.com
22 wikia.com
203,096,048
182,911,200
141,367,664
128,084,456
117,656,392
93,224,080
92,955,640
—
76,170,616
75,096,712
70,379,904
63,666,680
60,891,784
—
54,536,604
53,794,948
53,289,168
51,407,284
48,664,800
46,912,804
41,288,612
Ask 30
39,862,628
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
Yahoo.co.jp
Google.co.jp
Google.com
Amazon.co.jp
Youtube.com
Fc2.com
Facebook.com
Rakuten.co.jp
Ameblo.jp
Wikipedia.org
Livedoor.com
Nicovideo.jp
Naver.jp
Goo.ne.jp
Twitter.com
Dmm.co.jp
Xvideos.com
Msn.com
Kakaku.com
Ameba.jp
Baidu.com
19
• ISC Domain Survey
http://www.isc.org/services/survey/
• 第一水準のドメイン www.nuis.ac.jp
• 1位 .Net 319,311,234 (286276469,
253,853,098/204,683,342/190,267,719)台
• 2位 .com 156,860,679 (151953306
–
142,526,322/ 123,324,475/95,448,209)台、
• 3位 .jp
63,465,680 ( 59,968,541
–
52,081,808 / 43,461,277/36,803,719)台
• 国別ドメインは.jp(日本)が第1位
• 全ホストに占める割合は 7.14
(7.32/7.10/6.95/6.79)% 2012年
– .net, .com, .eduのWebサーバはアメリカの情報
• 日本語より多い英語情報がWeb情報として流通
• 本格的な情報検索では英語情報も必要
20
• Web情報検索で信頼性の高いドメイン
– https://www.nic.ad.jp/ja/dom/system.html
• 情報発が明示されている公共性の高いサイト
– gov
– edu
– co.jp
– ac.jp
– go.jp
21
TLDとjpドメイン
• https://www.nic.ad.jp/ja/dom/types.html
• gTLD
– gov
– edu
– org
– int
• JPドメイン名の分類
– AC.JP
– CO.JP
– GO.JP
– OR.JP
22
Webページ数
• Google(2008年)
– 1,000,000,000,000ページを集めたと報告
– その後総ページ数の公表は中止
• Cuil(2010/4/20現在)
– 1,270億web pages検索可能
– cuilは2010年9月にサービスを終了
• Googleの件数
–A
約25,270,000,000 件
2012/5/7
–A
約12,100,000,000 件
2014/6/10
–あ
約 557,000,000 件
2012/5/7(あ/a=2.2%)
• 総ページ数の表示が停止
– データベースの処理能力の限界
23
11回.理解度テスト
 Web情報の特徴
 Web情報の信頼性
24
12. 次回の準備
• 課題4(最終課題)
• 教科書を読んで概要を理解する。
• 複合情報検索: 情報源の見極め
• 3人のグループ課題
• 実行計画の作成
• 課題の決定
• 分担
25