ポスター - NLP若手の会(YANS)
Download
Report
Transcript ポスター - NLP若手の会(YANS)
NLP若手の会 第3回シンポジウム
発表32
レポート評価支援について
(剽窃部分と指導箇所の検出)
2008/9/23
峯脇 さやか
弓削商船高等専門学校 情報工学科
研究の目的
大学生・高専生のレポートはコピペが多い
情報技術の発展
• ネット上には,多種多様な記述が存在
• マウスを使うだけで,コピペ完了
ネット上の記述をコピペすることに,意識が低い
• 盗用(=犯罪)であることを知らない
• 著作権についてよく知らない
学生への教育が不十分
• コピペさせない指導とは?
– “いたちごっこ”のような気も・・・
安易にコピペすることにより,文を書く力が向上
しない
2/16
研究の目的
教員にとって,レポートチェックはとても大変
1つ1つ手作業でチェックする
時間も労力もかかる
コピペレポートをチェックしてもむなしい
レポート評価を支援するソフトがあると,とて
も便利
3/16
レポート評価支援
剽窃部分の検出
どの部分がコピペか自動検出
• 他者から/ネットから
類似度計算
Web検索
指導箇所の検出
模範解答を用いて,課題にあった回答かどうか
チェック
文章校正
• 誤字脱字
• 表記ゆれ …など
4/16
本研究の立場
レポート = 自由記述文
実験のレポート
授業での課題
e-Learningで使えれば,出題の幅が広がる
• 現在は,多肢選択式がほとんど
教師のレポート評価を支援しようという立場
全ての評価を自動で行うという立場ではない
• 評価は教師がすべきものであって,支援ソフトなどの
使い方は,その教師次第
5/16
先行研究
「コピペ」を発見するソフト/杉光
ネット上に類似する文章があるか検索
2009年中に市販予定
内容の独自性を視覚化するレポート評価支援シ
ステム/川口,砂山[2007]
オリジナリティで評価
ニューラルネットワークを用いた実習レポート
評価支援システムの開発 /渡辺[2008]
1対比較法とTF・IDF法でコピーレポート判定
理解度チェック単語数で考察の評価
6/16
剽窃部分の検出
剽窃とは
他人の作品・学説などを自分のものとして発表す
ること(goo辞書より)
いわゆる「パクリ」
引用との違い
• 引用は,自説を補強するためのもの
剽窃部分 = コピペされた部分
7/16
剽窃部分の検出
コピペの傾向
他学生からのコピペ
• ある1学生から
– 同級生
– 上級生(過去の合格レポート)
• 複数の学生から良い所取り
ネットからのコピペ
• ある1つのサイトから
• 複数のサイトから
8/16
他学生からのコピペ検出
1文ごとに類似度を計算する
共通の単語を持つときのみ計算
依存構造木を用いたテキスト間の類似度計算
依存構造木
• ノード:文節
• リンク:係り受け関係
類似度 ≒ 共通部分木の数
• 正規化
9/16
他学生からのコピペ検出
類似度が大きいものの密度を調べる
似ている文が連続している場合
似ている文が分散している場合
レポートA
レポートB
レポートA
レポートC
文1
文2
文3
文4
文5
・・・
文1
文2
文3
文4
文5
・・・
文1
文2
文3
文4
文5
・・・
文1
文2
文3
文4
文5
・・・
レポートBの文2~文5は
レポートAの文1~文4を
コピペした可能性が高い
似ている文が分散している場合
コピペしたと判断するのは・・・?
10/16
ネットからのコピペの検出
Googleで文をレポート中の文を1文ずつ検索
検索キーを文字コードに変換&URL生成
• Unicode(UTF-8)
http://www.google.co.jp/search?hl=ja
&q=%E5%AE%9A%E5%9E%8B%E5%8C%96 ... &lr=&aq=f&oq=
定
型
化
Unicode(UTF-8)
定:0xE5AE9A
型:0xE59E8B
化:0xE58C96
11/16
ネットからのコピペ検出
検索結果ページ(HTML)を取得
ソースを解析
emタグで囲まれている
(文字を強調する)
12/16
指導箇所の検出
模範解答を用いて,課題にあった回答かどうか
チェック
模範解答との文書間類似度を計算
• ベクトル空間モデル
模範解答とは
• 教師が作成したもの
• 過去の合格レポート
13/16
指導箇所の検出
文章校正
誤字脱字
表記ゆれ
文末表現
• ○:「~である」
• ×:「~です」
字数
• (字数指定がある場合)クリアしているか?
• 少なすぎないか?(説明が不十分)
• 多すぎないか?(冗長)
14/16
まとめ
レポート評価支援
蔓延するコピペを少しでもなくす
レポートチェックにかかる教師の手間を軽減
剽窃部分の検出
学生間のコピペは,テキスト間類似度を使用
ネットからのコピペは,Googleで検索&結果ペー
ジを解析
指導箇所の検出
模範解答との類似度を計算
15/16
学生への指導
コピペさせない教育をどのようにするか?
コピペが発覚したら減点する?
“いたちごっこ”にならないようにするには?
著作権についての教育
著作物とは
コピペ = 著作物の盗用(犯罪)
著作権法第32条に“引用”について記述
参考:『引用』と『盗用』の境界線
http://yaplog.jp/momo_shiro/archive/149
16/16