Research press release

人工知能:より公平な人間画像データセットを目指して

Nature

人間中心のコンピュータービジョン向け人工知能(AI:artificial intelligence)モデルの偏りを評価するための1万点以上の人物画像を収録したデータベースを報告する論文が、今週のNature にオープンアクセスで掲載される。ソニーAIが開発した「フェア・ヒューマンセントリック・イメージ・ベンチマーク(FHIBE:Fair Human-Centric Image Benchmark)」は、倫理的に収集され同意に基づくデータセットであり、人間中心のコンピュータービジョンの課題を評価し、偏見や固定観念を特定および修正するために使用できる。

コンピュータービジョンは、自動運転車から顔認識技術まで幅広い応用分野をカバーしている。コンピュータービジョンで用いられる多くのAIモデルは、同意なく収集された可能性のある欠陥のあるデータセット、特にウェブからの大規模画像スクレイピングによって構築されている。AIモデルはまた、性差別的、人種差別的、あるいはそのほかの固定観念を永続させる偏見を反映することが知られている。

Alice Xiangら(ソニーAI〔米国〕)は、同意、多様性、およびプライバシーなど複数の要素においてベストプラクティスを実装した画像データセットを発表した。FHIBEには81の国・地域から1,981人の被写体による10,318枚の画像が含まれる。データベースには年齢、代名詞カテゴリー、祖先、および髪と肌の色など、人口統計学的属性と身体的属性の包括的な注釈が付されている。参加者は、プロジェクトの詳細と潜在的なリスクについて説明を受け、包括的なデータ保護法に準拠したインフォームド・コンセントを提供した。こうした特徴により、本データベースはAIのバイアスを責任ある形で評価するための信頼できるリソースとなる。

著者らは、FHIBEを人間中心のコンピュータービジョン応用で用いられる既存の27のデータセットと比較し、FHIBEがAI評価において多様性と確固たる同意の面でより高い基準を設定していることを確認した。また、効果的なバイアス軽減策を有し、ほかのデータセットより参加者の自己申告による注釈が多く、一般的に過小に表現されがちな個人の割合が顕著に含まれている。このデータセットは、既存のコンピュータービジョンタスク向けAIモデルの評価に利用可能であり、これまでより多様なバイアスを検出できると著者らは指摘する。データセット作成には困難と費用がともなったものの、FHIBEはより信頼性の高いAIに向けた一歩となり得ると結論づけている。

Xiang, A., Andrews, J.T.A., Bourke, R.L. et al. Fair human-centric image dataset for ethical AI benchmarking. Nature (2025). https://doi.org/10.1038/s41586-025-09716-2
 

A database of more than 10,000 human images to evaluate biases in artificial intelligence (AI) models for human-centric computer vision is presented in Nature this week. The Fair Human-Centric Image Benchmark (FHIBE), developed by Sony AI, is an ethically sourced, consent-based dataset that can be used to evaluate human-centric computer vision tasks to identify and correct biases and stereotypes.

Computer vision covers a range of applications, from autonomous vehicles to facial recognition technology. Many AI models used in computer vision were developed using flawed datasets that may have been collected without consent, often taken from large-scale image scraping from the web. AI models have also been known to reflect biases that may perpetuate sexist, racist, or other stereotypes.

Alice Xiang and colleagues present an image dataset that implements best practices for a number of factors, including consent, diversity, and privacy. FHIBE includes 10,318 images of 1,981 people from 81 distinct countries or regions. The database includes comprehensive annotations of demographic and physical attributes, including age, pronoun category, ancestry, and hair and skin colour. Participants were given detailed information about the project and potential risks to help them provide informed consent, which complies with comprehensive data protection laws. These features make the database a reliable resource for evaluating bias in AI responsibly.

The authors compare FHIBE against 27 existing datasets used in human-centric computer vision applications and find that FHIBE sets a higher standard for diversity and robust consent for AI evaluation. It also has effective bias mitigation, containing more self-reported annotations about the participants than other datasets, and includes a notable proportion of commonly underrepresented individuals. The dataset can be used to evaluate existing AI models for computer vision tasks and can uncover a wider variety of biases than previously possible, the authors note. The authors acknowledge that creating the dataset was challenging and expensive but conclude that FHIBE may represent a step towards more trustworthy AI. 

Xiang, A., Andrews, J.T.A., Bourke, R.L. et al. Fair human-centric image dataset for ethical AI benchmarking. Nature (2025). https://doi.org/10.1038/s41586-025-09716-2
 
 

doi: 10.1038/s41586-025-09716-2

「Nature 関連誌注目のハイライト」は、ネイチャー広報部門が報道関係者向けに作成したリリースを翻訳したものです。より正確かつ詳細な情報が必要な場合には、必ず原著論文をご覧ください。

「注目のハイライト」記事一覧へ戻る

プライバシーマーク制度