コミュニケーションの基盤となる
語彙資源をあなたの手元に

NTT研究所が持つ日本語の基盤的語彙資源を提供することにより、
みなさまの研究開発・事業を支えます。

NTTの語彙データとは?

データ概要

NTTコミュニケーション科学基礎研究所では、人間の言語処理プロセスの解明を目指して、1995年から日本語約77,000語に対し、成人を対象とした評定実験をもとに主観的特性値(単語親密度など)を与える研究開発に取り組んできました。1999年にはNTTデータベースシリーズ「日本語の語彙特性」第1巻として三省堂から刊行し、2002年には第9巻として約32,000語の追加データを刊行しました。これらのデータベースは、言語心理学や認知科学、脳神経科学、自然言語処理などの学術分野で広く利用されてきましたが、初期の調査から時間が経ち、単語親密度の経年変化の可能性があること、これまでのデータベースに含まれない新しい語が多く出てきていることなどから、このたび、第1巻と第9巻に含まれるすべての語の再調査と、新しい語の追加調査を、合わせて約163,000語について行い、「令和版単語親密度データベース」としてまとめました。

データ詳細

単語親密度(word familiarity)とは、言語心理学の分野でさかんに研究されている単語の特徴を規定するための主観的特性値のひとつで、成人による主観的な評定実験の結果から、単語のなじみ深さを1から7の数値で表したものです。数値が大きければ大きいほど多くの人になじみのある語であり、数値が小さければ小さいほど、多くの人にとってなじみのない、あまり知られていない語であることを示します。今回公開する「令和版単語親密度データベース」では、日本語約163,000語に対して、漢字の知識が一定以上ありかつ評価が一貫している評価者のデータを対象にして単語親密度を算出しました。平成版で取得した単語親密度とも高い相関を示し、信頼性の高いデータになっていることも確認しております。

データ詳細の図

NTT研究所の取り組み

研究者の写真

NTTコミュニケーション科学基礎研究所
所長 山田 武士

NTTコミュニケーション科学基礎研究所では、脳科学・心理学などの人間科学と人工知能・機械学習などの情報科学の両側面から、「心まで伝わるコミュニケーションの実現」をめざした研究開発を進めております。近年、AI技術は日進月歩し、部分的には人間の能力を凌駕する場合もあります。一方、人間科学の研究が進めば進むほど、人間の複雑さ、奥深さに気づかされます。
今回公開する「令和版単語親密度データベース」は、人間科学と情報科学いずれの研究分野においても基礎データとして大きな役割を果たすものとして、できるだけ多くの研究者の方々にご利用いただければと願っております。加えて、日本語の語彙力や読解力などを測定する教育分野、そして言語機能のリハビリテーションを担当する医療分野などにおいても幅広く活用できると考えております。
これまで多くの利用があった平成版をアップデートし、このたび、令和版をお届けすることができたことは、これまでの皆様のご支援・ご協力の賜物であり、ここに改めて御礼申し上げます。
(2021年10月6日)

活用方法

 
  • 画像
  • 画像
  • 画像
 

販売商品のご案内

NTT研究所で保持する日本語の基盤的語彙資源を販売しています。
提供方法は、現在のところDVD(テキストデータ)となっております。
【収録データ】単語親密度(令和版・平成版)、表記、単語アクセント、品詞、文字特性、文字
購入をご希望される方は、下記問い合わせフォームよりお問い合わせください。

DVD
(テキストデータ)

DVD(テキスト形式のデータ)による提供となります。
すべての語彙資源をDVDに入れてご提供させていただきます。

お支払い方法

お支払い方法は、銀行振込による前払いのみです。弊社から請求書を発行後、ご入金の確認が取れ次第、商品を発送いたします。

『NTT語彙データベースに関するお問い合わせ』に関するお詫び

 2023年12月25日以降、『NTT語彙データベースに関するお問い合わせ』にお送りいただいたお問い合わせにつきまして、当社ホームページの設定不備により、当社担当部署にお問い合わせ内容が到着しない事象が発生していたことが判明しました(現在は解消)。
 該当期間中にお問い合わせをいただいたお客様におかれましては、大変お手数をおかけしますが、再度ご連絡くださいますようお願い申し上げます。
 この度は皆様にご不便ご迷惑をおかけいたしましたこと深くお詫び申し上げます。

■当該事象の発生期間
 2023年12月25日~2024年3月14日

■影響範囲
『NTT語彙データベースに関するお問い合わせ』にお問い合わせいただきましたお客様
https://www.nttprint.com/inquiry/tabid227.html

2024年3月15日
NTT印刷

よくある質問(FAQ)

Q.1

支払い方法について、クレジットカード決済、コンビニ支払いはできますか?

恐れ入りますが、お支払方法は銀行振込のみとなっております。

Q.2

語彙データに収録されている単語数はどれくらいありますか?

調査した語彙属性の種類によって異なりますので、詳細はお問い合わせください。

Q.3

DVDに収録されているデータ形式は何ですか?

.txt形式(スペース区切り、括り文字無し)となっております。お客様がお持ちのデータベース管理システム等に取り込んで頂きご活用ください。

Q.4

DVDのデータを簡単に閲覧する方法はありますか?

データを一般的なデータベース管理システムに取り込む説明書をご用意しております。データのご利用に不安がある場合は、サンプルデータと上記説明書をお渡しできますので、まずはお気軽にお問い合わせください。

Q.5

各語彙データの特徴について、詳しく説明してもらうことは可能ですか?

各語彙データのデータ項目についての説明資料とサンプルデータをご用意しておりますので、お問い合わせフォームよりご連絡ください。なお、語彙データに関する学術的なお問い合わせについては、回答に時間を要する場合がございますので予めご了承ください。

Q.6

購入した語彙データの二次利用等について制限はありますか?

販売している語彙データは、個人もしくは非営利目的でのみ使用でき、営利目的でデータを使用する場合は、弊社との間で別途使用許諾の契約が必要です。

Q.7

販売しているデータに関連した学会発表等の事例はありますか?

NTT研究所のHP内にて紹介しておりますので、ご確認ください。