La théorie des types logiques
[53]
M. Poincaré1, dans un intéressant article paru dans un récent numéro de cette revue2, a expliqué, avec son habituelle lucidité, quelles étaient ses raisons pour ne pas accepter pleinement quelques-unes des
théories, qui ont été mises en avant récemment pour expliquer les paradoxes de la logique. Étant l’un des auteurs mis en cause,
je reconnais, avec gratitude, que son article n’a nullement le ton de la polémique et j’admets volontiers que, sur les points
où il se plaint de n’avoir obtenu de moi que d’insuffisantes explications, l’article auquel il s’est rapporté est assurément
trop concis. Comme cet article paraissait dans un journal de mathématiques, je n’avais pas voulu consacrer à l’interprétation
philosophique plus de place que ce qui m’apparaissait absolument indispensable. Les critiques de M. Poincaré me montrent pourtant que certaines obscurités ont été le résultat de cet effort à être bref. Ces obscurités, j’essaierai
de les dissiper dans les pages suivantes, où je me propose d’expliquer plus que de controverser.
1.La nature des fonctions propositionnelles
Il est admis que les paradoxes à éviter résultent tous d’un certain genre de cercle vicieux. Les cercles vicieux en question
proviennent de ce que l’on suppose qu’une collection d’objets peut contenir des membres qui ne peuvent justement être définis
qu’au moyen de la collection, prise dans sa totalité. C’est ainsi, par exemple, que la collection des
‘propositions’
sera supposée contenir une proposition affirmant que
‘toutes les propositions sont ou vraies ou fausses’
. Or, il semble que cette dernière affirmation ne puisse être légitime, à moins que l’expression
‘toutes les propositions’
ne vise une certaine collection déjà définie; et cela ne peut être si de nouvelles propositions sont crées par des affirmations
concernant
‘toutes les propositions’
. Nous devrons donc dire que les affirmations concernant
‘toutes les propositions’
[54] sont sans signification. Plus généralement, donnons-nous un groupe d’objets tels que ce groupe, étant capable par hypothèse
d’être totalisé, doive d’autre part contenir des membres qui présupposent cette totalité; alors, ce groupe ne peut pas être
totalisé. En disant qu’un groupe ne peut être totalisé, vous voulons dire surtout qu’aucune affirmation ayant un sens ne peut
être faite concernant “tous ses membres”. Les propositions, comme le montre l’exemple précédent, forment nécessairement un groupe qui ne peut être totalisé. Il en
est de même, comme nous le verrons bientôt, des fonctions propositionnelles, même quand on se borne à ne considérer que celles
qui peuvent, sans perdre tout sens, avoir comme argument un objet donné a. Dans de tels cas, il est nécessaire de décomposer notre groupe en groupes plus petits dont chacun soit capable d’être totalisé.
C’est ce que la théorie des types s’efforce d’effectuer.
Les paradoxes de la logique symbolique concernent diverses sortes d’objets: propositions, classes, nombres cardinaux et ordinaux,
etc. Grâce à la théorie (expliquée plus loin) qui ramène les affirmations verbalement exprimées en termes de classes et relations
à des affirmations exprimées en termes de fonctions propositionnelles, ces paradoxes sont ramenés aux paradoxes concernant
les propositions et les fonctions propositionnelles. Les paradoxes qui concernent les propositions sont du genre de l’Épiménide, et ils ne relèvent qu’indirectement de la mathématique. Les paradoxes qui intéressent plus directement le mathématicien
se rapportent tous aux fonctions propositionnelles. Par “fonction propositionnelle” j’entends quelque chose qui contient une variable x et exprime une proposition chaque fois qu’une valeur est assignée à x. Autrement dit, elle diffère d’une proposition seulement par le fait qu’elle est ambiguë: elle contient une variable dont
la valeur n’est pas assignée. Elle se rapproche des fonctions ordinaires des mathématiques en ce qu’elle contient une variable,
dont la valeur n’est pas assignée; elle en diffère par le fait que les valeurs de la fonction sont des propositions. C’est
ainsi, par exemple, que “x est un homme” ou “sin x = 1” est une fonction propositionnelle. Nous allons découvrir qu’on peut tomber dans le sophisme du cercle vicieux dès qu’on commence
à admettre comme arguments possibles pour une fonction propositionnelle des termes qui présupposent la fonction même. Cette
forme de sophisme est très instructive, et, comme nous allons le voir, on est conduit, si on veut l’éviter, à l’idée de la
hiérarchie des types.
Le problème de la nature d’une fonction3 n’est en aucune manière, une question facile. Il semblerait pourtant que la caractéristique essentielle d’une fonction soit
l’ambiguïté. Prenons, par exemple, la loi d’identité sous la forme “A est A”, qui est la forme dans laquelle elle est habituellement énoncée. Il est évident que, au point de vue psychologique, nous
avons ici un simple jugement. Mais que pouvons-nous dire de l’objet de ce jugement? [55] Nous n’affirmons pas que Socrate est Socrate, ni que Platon est Platon, ni aucun autre des jugements définis qui sont des
applications de la loi d’identité. Pourtant chacun de ces jugements rentre, en un sens, dans le domaine du jugement que nous
étudions. Ce qui constitue en fait, ce jugement, c’est une application ambiguë de la fonction propositionnelle “A est A.” Nous avons, semble-t- il, une simple pensée qui n’a pas d’objet défini, mais qui a, comme objet, une des valeurs de la fonction
“A est A”, sans la déterminer. C’est ce genre d’ambiguïté qui constitue l’essence d’une fonction. Quand nous parlons de “φx, où x n’est pas déterminé”, nous désignons une valeur de la fonction, mais non une valeur définie. Nous pouvons exprimer ceci en disant que
‘φx’
dénote de façon ambiguë φa, φb, φc, etc., où φa, φb, φc, etc. sont les diverses valeurs de
‘φx’
.
Quand nous disons que
‘φx’
dénote de façon ambiguë φa, φb, φc, etc., nous voulons dire que
‘φx’
désigne l’un des objets φa, φb, φc, etc., non pas cependant un objet défini, mais un objet indéterminé. Il suit de là que
‘φx’
n’a un sens bien défini (entendons bien défini toujours avec cette réserve qu’il est de son essence d’être ambigu) que si
les objets φa, φb, φc, sont bien définis. Ce qui veut dire que la fonction n’est pas une fonction bien définie à moins que toutes ses valeurs ne
soient déjà bien définies. Il suit de cela qu’aucune fonction ne peut compter parmi ses valeurs quelque chose qui présuppose
la fonction, car, s’il en était ainsi, nous ne pourrions pas regarder les objets dénotés de façon ambiguë par la fonction
comme définis, à moins que la fonction ne soit définie, au lieu que, inversement, comme nous venons de le voir, la fonction
ne peut pas être définie, tant que ses valeurs ne sont pas définies. Ceci est un cas particulier mais peut-être le plus fondamental
du principe du cercle vicieux. Une fonction est ce qui dénote de façon ambiguë quelque membre d’un certain ensemble totalisé
(a certain totality), à savoir l’ensemble des valeurs de la fonction; par conséquent, cette totalité ne peut contenir des membres dont la notion
implique la fonction elle-même, car, s’il en était ainsi, elle contiendrait des membres impliquant la totalité elle-même,
ce qui, de par le principe du cercle vicieux, ne peut être réalisé dans aucune totalité.
On voit que, d’après les raisons précédemment exprimées, les valeurs d’une fonction sont présupposées par la fonction même,
et non vice versa. Il va de soi assez facilement qu’en aucun cas particulier, une valeur d’une fonction ne présuppose la fonction.
C’est ainsi, par exemple, que la proposition “Socrate est homme” peut être parfaitement conçue sans être regardée comme une valeur de la fonction “x est homme”. Il est vrai qu’inversement une fonction peut être conçue, sans qu’il soit nécessaire de concevoir ses valeurs séparément
et individuellement. Si cela n’était pas, aucune fonction ne pourrait en effet être conçue, car le nombre des valeurs (vraies
ou fausses) d’une fonction est nécessairement infini et il y a nécessairement des arguments possibles dont nous n’avons pas
connaissance distincte. Ce qui est nécessaire ce n’est pas que les valeurs soient données individuellement et en extension,
mais que la totalité de ces valeurs soit donnée qualitativement [56] (intensionally) de manière qu’à propos de n’importe quel objet assigné, on puisse, au moins théoriquement, déterminer si ledit objet est
une valeur de la fonction, ou s’il ne l’est pas.
Il est nécessaire pratiquement de distinguer la fonction en elle-même d’une valeur indéterminée de la fonction. Nous pouvons
regarder la fonction en elle-même comme ce qui dénote de façon ambiguë, tandis qu’une valeur indéterminée de la fonction est
ce qui est dénoté de façon ambiguë. Si la valeur indéterminée de la fonction s’écrit
‘φx’
, nous écrirons la fonction en elle-même
‘φx^’
.i (N’importe quelle autre lettre pourrait être employée à la place d’x.) C’est ainsi que nous dirions “φx est une proposition” et d’autre part “φx^ est une fonction propositionnelle.” Quand nous disons “φx est une proposition”, cela signifie que nous affirmons quelque chose qui est vrai pour toute valeur possible d’x, bien que nous ne décidions pas quelle valeur x peut avoir. Nous posons une affirmation ambiguë concernant n’importe quelle valeur de la fonction. Mais quand nous disons
“φx^ est une fonction” nous ne posons pas d’affirmation ambiguë. Il serait plus correct de dire que nous posons une affirmation concernant une ambiguïté,
en adoptant cette vue qu’une fonction est une ambiguïté. La fonction en elle-même φx^, est la chose simple qui dénote de façon ambiguë ses multiples valeurs; tandis que φx, où xn’est pas déterminé, est l’un des objets dénotés, avec l’ambiguïté inhérente au procédé de dénotation.
Nous avons vu que, d’après le principe du cercle vicieux, les valeurs d’une fonction ne peuvent pas contenir de termes, qui
ne seraient définissables que par cette fonction même. Soit maintenant une fonction φx^, les valeurs à comprendre sous cette fonction4 sont toutes les propositions de la forme φxφx. Il suit de là qu’il ne doit y avoir aucune proposition de la forme φx, dans laquelle x ait une valeur, qui suppose la notion
de φx^. (S’il en était ainsi, les valeurs de la fonction ne seraient pas toutes déterminées, tant que la fonction ne serait pas
elle-même déterminée, tandis que nous avons trouvé, au contraire, que la fonction n’était déterminée que lorsque ses valeurs
l’étaient préalablement). Il suit nécessairement delà que nous ne pouvons pas entendre une chose telle que
‘les valeurs à comprendre sous φx^’
ou quelque autre argument contenant φx^, comme l’argument pour φx^. Autrement dit, le symbole
‘φ(φx^)’
ne peut pas exprimer une proposition, comme l’exprime
‘φa’
quand φa est une des valeurs dénotées par φx^. En fait, φ(φx^) ne peut être qu’un symbole qui n’exprime rien: nous pourrons donc dire qu’il n’a pas de sens. Ainsi, soit une fonction quelconque
φx^, il y a des arguments pour lesquels la fonction n’a aucune valeur, aussi bien que des arguments pour lesquels la fonction
a une valeur. Nous appellerons les arguments pour lesquels φx^ a une valeur
‘valeurs possibles de x’
. Nous dirons que φx “a un sens pour l’argument x” quand φx^ a une valeur pour l’argument x.
[57]
La limitation que nous venons ainsi d’apporter au choix des arguments possibles pour φz^, sert à résoudre un grand nombre de paradoxes. Prenons comme exemple le suivant. Supposons que
‘f(φz^)’
signifie “la fonction φz^ n’est pas satisfaite si on la prend elle-même comme argument”, c’est-à-dire “φ(φz^) est faux”. (Si cette expression avait un sens, elle serait vraie dans tous les cas ordinaires. Par exemple, il ne peut pas être vrai
que la fonction “x est un homme” soit un homme; si donc il est ou vrai ou faux qu’elle est un homme, il doit être faux.) Mais supposons maintenant que nous
dénotions par f(φ^) la fonction dont f(φz^) est la valeur pour l’argument φz^, et recherchons si f(fφ^) est vrai ou faux. Si f(fφ^) est vrai, cela signifie, de par la définition de f “f(fφ^) est faux.” Si d’autre part, f(fφ^) est faux, cela signifie, de par la définition de f “il est faux que f(fφ^) soit faux”, d’où il suit que f(fφ^) est vrai. Ainsi, que nous supposions f(fφ^) vrai ou que nous le supposions faux, nous sommes conduits à une contradiction. Cette contradiction disparaît si
‘φ(φz^)’
n’a pas de sens.
Le paradoxe concernant la classe des classes qui ne sont pas membres d’elles-mêmes est également résolu par les considérations
précédentes, si l’on admet qu’une classe doit toujours être définie par une fonction propositionnelle. Car, en ce cas, la
classe à considérer est la clase de ces classes qui ne satisfont pas aux fonctions qui les définissent. Mais comme la classe
est dérivée de la fonction, on ne peut pas, d’accord avec notre principe, la prendre comme un argument de la fonction qui
la définit, et par conséquent on ne peut dire qu’elle satisfait ou ne satisfait pas la fonction qui la définit.
Quand nous disons que
‘φ(φz^)’
par exemple n’a pas de sens et n’est, par conséquent, ni vrai ni faux, il est nécessaire que nous prévenions une méprise.
Si nous entendions
‘φ(φz^)’
dans le sens: “la valeur à comprendre sous φz^ pour l’argument φz^ est vraie” cela ne serait pas dépourvu de sens, mais faux. Cela est faux pour la même raison que la proposition “le roi de France est chauve” est fausse, c’est-à-dire parce qu’il n’existe aucune chose telle que “la valeur à comprendre sous φz^ pour l’argument φz^.” Mais quand, pour un argument a, nous affirmons φa, nous ne voulons pas par là affirmer “la valeur à comprendre sous φx^ pour l’argument a est vraie”; nous voulons affirmer la proposition même qui est la valeur à comprendre sous φx^ pour l’argument a. Ainsi, par exemple, si φx^ est “x^ est un homme”, φ (Socrate) sera “Socrate est un homme” et non pas “la valeur à comprendre sous la fonction ‘x^ est un homme’ pour l’argument Socrate, est vraie.” Ainsi, en accord avec notre principe que
‘φ(φz^)’
n’a pas de sens, nous ne pouvons pas légitimement nier l’expression “la fonction ‘x^ est un homme’ est un homme”, car elle est un non-sens, mais nous pouvons légitimement nier l’expression “la valeur à comprendre sous la fonction ‘x^ est un homme’ pour l’argument ‘x est un homme’ est vraie” et cela, non pas en nous fondant sur ce fait que la valeur en question est fausse, mais sur ce fait qu’il n’existe aucune
valeur de ce genre à comprendre sous la fonction.
Nous dénoterons par le symbole
‘(x) · φx’
la proposition “φx toujours” [58] (φx always), c’est-à-dire la proposition qui affirme toutes les valeurs5 à comprendre sous φx^. Cette proposition enveloppe la fonction elle-même, et non pas seulement une valeur ambiguë de la fonction. L’affirmation
de φx, où x n’est pas déterminé, est une affirmation différente de celle qui affirme toutes les valeurs à comprendre sous φx^, car la première est une affirmation ambiguë, alors que la seconde ne présente aucune ambiguïté. On observera que “(x) · φx” n’affirme pas
‘φx pour toutes valeurs d’x’
, parce que, comme nous l’avons vu, il y a nécessairement des valeurs de x pour lesquelles
‘φx’
n’a pas de sens. Ce qui est affirmé par “(x) · φx”, ce sont toutes les propositions qui constituent les valeurs à comprendre sous φx^; il suit de là que c’est seulement pour les valeurs d’x, qui donnent un sens à
‘φx’
, c’est-à-dire pour tous les arguments possibles, que φx est affirmé, lorsque nous affirmons “(x) · φx.” Ainsi, on exprimerait convenablement par “(x) · φx” par “φx est vrai pour toutes les valeurs possibles de x.” Cette expression est cependant moins précise que l’expression
‘toujours φx’
, parce que la notion de vérité ne fait pas partie du contenu du jugement. Quand nous jugeons “tous les hommes sont mortels”, nous croyons à la vérité de notre jugement, mais la notion même de vérité n’est pas nécessairement présente à notre esprit,
pas plus que quand nous jugeons “Socrate est mortel.”
2. Définition et systématique ambiguïté des notions de vérité et d’erreur.
Puisque “(x) · φx” enveloppe la fonction φx, on ne peut, d’après notre principe, l’employer comme un argument de φ, ce qui veut dire que le symbole
‘φ {(x) · φx}’
est nécessairement dépourvu de sens. Ce principe semblerait, à première vue, présenter certaines exceptions. Prenons, par
exemple, la fonction “p est faux” et considérons la proposition “(p) · p est faux”. Celle-ci devrait être une proposition affirmant toutes les propositions de la forme “p est faux.” Nous serions tentés de dire qu’une telle proposition est nécessairement fausse, parce que “p est faux” n’est pas toujours vrai. Nous serions conduits par là à la proposition
“{(p) · p est faux} est faux”
c’est-à-dire que nous serions conduits à une proposition dans laquelle “(p) · p est faux” est l’argument de la fonction “p^ est faux” ce que nous avons déclaré impossible. D’ailleurs on voit que, dans ce qui précède, “(p) · p est faux” prétend être une proposition concernant toutes propositions, et que, de par la forme générale du principe du cercle vicieux,
il ne [59] peut y avoir de propositions concernant toutes propositions. Il semble évident toutefois qu’étant donné une fonction quelconque, il y a une proposition (vraie ou fausse)
qui affirme toutes les valeurs qu’elle peut prendre. Nous sommes donc conduits à cette conclusion que “p est faux” et “q est faux” ne doivent pas toujours être les valeurs, pour les arguments p et q d’une fonction simple “p est faux”; or, cela n est possible que seulement si le mot
‘faux’
a en réalité plusieurs sens différents, appropriés aux propositions de genres différents.
Que les mots
‘vrai’
et
‘faux’
ont des sens différents, selon le genre de propositions auquel ils sont appliqués, il n’est guère difficile de le voir. Prenons
une fonction quelconque φx^ et soit φa une de ses valeurs. Appelons le genre de vérité, applicable à
‘φa’
vérité du premier genre (first truth). (Ceci n’implique pas que cette proposition ait une vérité du premier genre dans un autre contexte, mais veut simplement
indiquer qu’elle a le premier genre de vérité dans notre contexte.) Considérons maintenant la proposition “(x) · φx.” Si elle possède la vérité selon le genre qui lui est approprié, cela signifiera que chacune des valeurs φx a
‘une vérité du premier genre’
. Ainsi, si nous appelons le genre de vérité approprié à (x) · φx
‘vérité du second genre’
, nous pouvons définir “{(x) · φx} a une vérité du second genre” comme signifiant que “toute valeur à comprendre sous φx^ a une vérité du premier genre”, c’est-à-dire “(x) · (φx a une vérité du premier genre)”. De même, si nous dénotons par
‘(∃x) · φx’
la proposition
‘φx quelquefois’
, ou, comme on peut l’exprimer de façon moins précise
‘φx pour quelques valeurs d’x’
, nous trouvons que (∃x) · φx a une vérité du second genre s’il y a un x pour lequel φx a une vérité du premier genre; ainsi nous pouvons définir “{(∃x) · φx} a une vérité du second genre” comme signifiant “quelques valeurs à comprendre sous φx^ ont une vérité du premier genre”, c’est-à-dire “(∃x) · (φx a une vérité du premier genre).” De semblables remarques s’appliquent à la notion de fausseté. Ainsi “{(x) · φx} a une fausseté du second genre” signifiera “quelques valeurs à comprendre sous φx ont une fausseté du premier genre”, c’est-à-dire “(∃x) · (φx a une fausseté du premier genre”; au contraire “(∃x) · φx a une fausseté du second genre” signifiera “toutes les valeurs à comprendre sous φx ont une fausseté du premier genre”, c’est-à-dire “(x) · φx a une fausseté du premier genre)”. Ainsi le genre de fausseté qui peut convenir à une proposition générale est différent de celui qui convient à une proposition
particulière.
Si nous appliquons ces considérations à la proposition “(p) · p est faux” nous voyons que le genre de fausseté en question doit être déterminé. Si par exemple c’est la fausseté du premier genre qui
est visée, la fonction “p a une fausseté du premier genre” n’a de sens que si p est l’espèce de proposition qui a fausseté ou vérité du premier genre. Il suit de là que “(p) · p est faux” sera remplacé par une affirmation qui équivaut à “toutes les propositions ayant ou une vérité du premier genre ou une fausseté du premier genre ont une fausseté du premier
genre.” Cette proposition a une fausseté du second genre, et n’est pas un argument possible pour la fonction “p a [60] une fausseté du premier genre”. Ainsi l’exception apparente à notre principe “φ{(x) · φx} ne peut avoir de sens”, disparaît. Il va de soi que les considérations précédentes s’appliquent parfaitement à la solution du paradoxe de l’Epiménide.
Par de semblables considérations nous viendrons à bout de rendre compte de
‘non-p’
et de
‘p ou q’
. Il peut sembler que ces expressions sont des fonctions dans lesquelles n’importe quelle proposition peut apparaître comme argument. Mais cela est dû à une ambiguïté systématique dans les significations de
‘non’
et
‘ou’
, par lesquelles ces expressions s’adaptent à des propositions d’un ordre quelconque. Pour expliquer complètement comment
ceci se produit il semble bon de commencer par une définition du genre le plus simple de vérité et de fausseté.
L’univers se compose d’objets ayant des qualités diverses et se tenant en diverses relations. Quelques-uns de ces objets qui
se présentent dans l’univers sont complexes. Quand un objet est complexe, il se compose de parties entre lesquelles il existe
des relations. Considérons un objet complexe composé de deux parties a et b, se tenant l’une à l’autre dans la relation R. L’objet complexe
‘a-en-relation-R-avec-b’
peut être capable d’être perçu, et quand il est perçu, il est perçu comme un objet unique. L’attention peut montrer qu’il
est complexe; nous jugeons alors que a et b sont dans la relation R. Un tel jugement, dérivé d’une perception par un simple effort d’attention, peut être appelé
‘jugement de perception’
. Ce jugement de perception, considéré à son tour comme un fait réel qui se présente, est une relation de quatre termes, à
savoir a, b, R et le sujet percevant. La perception en elle-même, au contraire, est une relation de deux termes, à savoir a-en-relation-R-avec-b, et le sujet percevant. Puisque un objet de perception ne peut être un pur néant, nous ne pouvons pas percevoir
‘a-en-relation-R-avec-b’
à moins que a ne soit en relation R avec b. Par conséquent, un jugement de perception, d’après la précédente définition, doit être vrai. Cela ne signifie pas que, dans
un jugement qui nous apparaît être un jugement de perception, nous soyons sûrs de n’être pas dans l’erreur; car nous pouvons nous tromper en pensant que
notre jugement a été réellement dérivé de la perception par une simple analyse. Mais si notre jugement a été ainsi dérivé,
il doit être nécessairement vrai. En fait, nous pouvons définir la vérité, quand il s’agit de tels jugements, comme consistant en ce fait qu’il existe un objet complexe correspondant à la pensée discursive qui est le jugement. Ce qui revient à dire que, quand nous jugeons “a a la relation R à b”, notre jugement est dit vrai quand il existe un objet complexe
‘a-en-relation-R-avec-b’
, et faux quand ce n’est pas le cas. Ceci est une définition des notions de vérité et de fausseté, en relation avec les jugements de
cette espèce.
On voit que, d’après les explications précédentes, le jugement n’a pas un objet simple, à savoir la proposition, mais plusieurs
objets ayant entre eux des relations. Autrement dit, la relation qui constitue le jugement n’est pas une relation entre deux
termes, à savoir l’esprit qui juge et la proposition, mais une relation entre plusieurs termes, à savoir l’esprit et ce qu’on
[61] appelle les constituants de la proposition. Quand nous jugeons (ou disons) “ceci est rouge”, le résultat est une relation des trois termes, l’esprit, “ceci” et rouge. D’autre part quand nous percevons “la rougeur de ceci”, il y a une relation de deux termes, à savoir l’esprit et l’objet complexe “la rougeur de ceci”. Pour chaque jugement porté, il y a une certaine entité complexe, composée de l’esprit et des divers objets du jugement.
Quand le jugement est vrai, il lui correspond, pour l’espèce de jugements que nous avons considérée, un tout complexe des objets du jugement et d’eux seuls. La fausseté au contraire, en ce qui concerne cette classe de jugement, consiste dans l’absence
d’un complexe correspondant, composé des seuls objets du jugement. Il suit de la théorie précédente qu’une
‘proposition’
, prise au sens où la proposition est supposée être l’unique objet du jugement, est une fausse abstraction, parce qu’un jugement a plusieurs objets distincts, et non pas un seul. C’est
la pluralité des objets dans le jugement (en opposition avec la perception) qui a conduit les philosophes à parler de la pensée
comme
‘discursive’
, bien qu’on ne semble pas s’être clairement rendu compte de ce qui est signifié par cette épithète.
Par suite de cette pluralité des objets dans un simple jugement, on voit que ce qu’on appelle
‘proposition’
(dans le sens où elle est distinguée de la phrase qui l’exprime) n’est pas du tout une seule entité. Autrement dit, la phrase
qui exprime une proposition est ce que j’ai appelé un symbole
‘incomplet’
; n’a pas de sens en lui-même mais demande qu’on supplée à son insuffisance d’une certaine manière pour acquérir un sens complet.
Ceci est en quelque manière dissimulé par cette circonstance que le fait même de juger fournit à la proposition un complément
suffisant et que ce fait même de juger n’ajoute
‘verbalement’
rien à la proposition. Ainsi “la proposition ‘Socrate est homme’” emploie “Socrate est homme” dans un sens qui veut être complété d’une certaine manière pour acquérir une pleine signification; mais, quand je juge “Socrate est homme”, le sens est complété par l’acte même de juger et nous n’avons plus désormais de symbole incomplet. Le fait que les propositions
sont des
‘symboles incomplets’
est philosophiquement important et il intéresse sur certains points la logique symbolique.
Les jugements à qui nous avons eu affaire jusqu’à présent sont de la forme des jugements de perception, c’est-à-dire que leurs
sujets sont toujours particuliers et définis. Mais il existe de nombreux jugements qui ne sont pas de cette forme. Tels sont:
Tous les hommes sont mortels; J’ai rencontré un homme; Quelques hommes sont grecs. Avant de nous occuper de ces jugements,
nous allons introduire quelques termes techniques.
Nous appelons
‘un complexe’
tout objet tel que
‘a en relation R à b’
, ou
‘a ayant la qualité q’
, ou
‘a, b, c se tenant entre eux dans la relation S.’
Bref, un complexe est tout objet quelconque qui se présente dans l’univers et n’est pas simple. Nous disons qu’un jugement est élémentaire quand il exprime de simples affirmations telles que: “a a la relation R à b”, “a a la qualité q”, ou “a, b, c se tiennent entre eux dans la relation S”. D’après cela, [62] un jugement élémentaire est vrai quand il existe un complexe correspondant, et faux quand il n’existe pas de complexe correspondant.
Mais prenons maintenant une proposition comme “tous les hommes sont mortels”. Ici le jugement ne correspond pas à un seul complexe mais à plusieurs, à savoir “Socrate est mortel”, “Platon est mortel”, “Aristote est mortel”, etc. (Il n’est pas nécessaire, pour le moment, avant d’en être arrivé aux complexes ultimes enveloppés dans les jugements,
de rechercher si chacun de ces jugements ne réclame pas une explication plus profonde. Pour la clarté de l’exposition, le
jugement “Socrate est mortel” est traité ici comme un jugement élémentaire, quoiqu’en fait, il n’en soit pas un, comme on l’expliquera plus loin. Il n’est
pas très facile de découvrir des jugements vraiment élémentaires.) Je n’entends pas nier qu’il puisse y avoir une certaine
relation du concept homme au concept mortel qui soit équivalente à l’expression “tous les hommes sont mortels”, mais, en tout cas, cette relation n’est pas ce que nous affirmons quand nous disons: tous les hommes sont mortels. Notre
jugement que tous les hommes sont mortels rassemble en lui une quantité de jugements élémentaires. Il n’est pourtant pas composé
de ceux-ci, car, par exemple, le fait que Socrate est mortel n’est pas une partie de ce que nous affirmons, comme on peut
le voir en faisant attention que notre affirmation peut être comprise par une personne qui n’a jamais entendu parler de Socrate.
Afin de comprendre le jugement “tous les hommes sont mortels”, il n’est pas nécessaire de savoir quels hommes existent. Nous devons admettre par conséquent comme une espèce radicalement
nouvelle de jugements les affirmations générales telles que: “tous les hommes sont mortels”. Nous affirmons qu’étant donné qu’x est homme, x est toujours mortel, c’est-à-dire que nous affirmons “x est mortel” de tout x qui est homme. Ainsi nous sommes capables de juger (à tort ou à raison, peu importe) que tous les objets qui ont quelque propriété déterminée ont par là même quelque autre propriété déterminée. Ce qui revient à dire
qu’étant donné des fonctions propositionnelles quelconques φx^ et ψx^, il y a un jugement qui affirme ψx de tout x pour lequel nous avons φx. Ces jugements, nous les appellerons jugements généraux.
Il est évident, comme on l’a expliqué précédemment, que la définition de la vérité est différente dans le cas des jugements généraux de ce qu’elle est dans le cas des jugements élémentaires. Appelons le sens
où nous entendons la vérité des jugements élémentaires:
‘vérité élémentaire’
. Alors, quand nous affirmons qu’il est vrai que tous les hommes sont mortels, nous entendrons que tous les jugements de la
forme “x est mortel”, quand x est un homme, ont une vérité élémentaire. Nous pouvons définir ceci comme la
‘vérité du second ordre’
. Dès lors, si nous exprimons la proposition “tous les hommes sont mortels” dans la forme
“(x) · x est mortel, quand x est un homme”
et si nous appelons ce jugement p, alors “p est vrai” devra être pris dans le sens “p a une vérité du second ordre”, ce qui en retour signifie
[63]
“(x) · ‘x est mortel’ a une vérité élémentaire, quand x est un homme”.
Nous pouvons employer le symbole “(x) · φx” pour exprimer le jugement général qui affirme tous les jugements de la forme
‘φx’
. Alors le jugement “tous les hommes sont mortels” est équivalent à
“(x) · ‘x est un homme’ implique ‘x est un mortel’”.
C’est-à-dire, à
“(x) · x n’est pas un homme, ou x est mortel.”
La signification de vérité, applicable à cette proposition, n’est donc pas la même que la signification de vérité applicable
à “x est un homme” ou à “x est mortel”; et, d’une façon générale, dans un jugement quelconque (x) · φx, le sens dans lequel le jugement est ou peut être vrai n’est pas le même que le sens dans lequel φx est ou peut être vrai. Si φx est un jugement élémentaire, il est vrai quand il désigne un complexe correspondant. Mais
‘(x) · φx’
ne désigne pas un simple complexe correspondant: les complexes qui lui correspondent sont aussi nombreux que les valeurs
possibles de x.
Il suit de ce qui précède qu’une proposition telle que “tous les jugements portés par Épiménide sont vrais”, sera, dès le premier abord, capable de vérité seulement si tous les jugements qu’elle vise sont du même ordre. S’ils sont
d’ordres différents, le nième étant le plus élevé, nous pouvons faire n affirmations de la forme “tous les jugements d’ordre m, portés par Épiménide sont vrais, où m prend toutes les valeurs jusqu’à n.” Mais aucun de ces jugements ne peut se comprendre lui-même dans son propre domaine, car un tel jugement est toujours d’ordre
plus élevé que les jugements auxquels il se rapporte.
Considérons maintenant ce que signifie la négation d’une proposition de la forme “(x) · φx”. Notons, pour commencer, que “φx en quelques cas”, ou
‘φx quelquefois’
est un jugement qui est à mettre sur le même pied que
‘φx en tous cas’
ou
‘φx toujours’
. Le jugement
‘φx quelquefois’
est vrai s’il existe une ou plusieurs valeurs d’x pour lesquelles x est vrai. Nous exprimerons la proposition
‘φx quelquefois’
par la notation “(∃x) · φx”, où “∃” signifie “il existe un ...” et l’ensemble du symbole peut être lu “il existe un x tel que φx”. Nous prenons les deux genres de jugement exprimés par “(x) · φx” et “(∃x) · φx”, comme idées primitives. Nous prenons aussi comme une idée primitive la négation d’une proposition élémentaire. Nous pouvons
dès lors définir les négations de “(x) · φx” et “(∃x) · φx.” La négation d’une proposition quelconque p sera dénotée par le symbole
‘~p’
. Dès lors la négation de “(x) · φx” et signifiera, par définition, “(∃x) · ~φx.” Ainsi dans le langage traditionnel de la logique formelle, on définit la négation d’une universelle affirmative comme la
particulière négative, et la négation de la particulière affirmative comme l’universelle négative. Par conséquent la signification
de la négation pour de telles propositions est différente de la signification de la négation pour les propositions élémentaires.
[64] Une explication analogue s’applique à la disjonction. Considérons l’expression “ou p, ou φx toujours”, et dénotons la disjonction de deux propositions p et q par
‘p ∨ q’
. Alors notre expression s’écrit “p · ∨ · (x) · φx”. Nous supposerons que p est une proposition élémentaire et que φx est toujours aussi une proposition élémentaire. Nous prenons la disjonction de deux propositions élémentaires comme une idée
primitive et nous désirons définir la disjonction “p · ∨ · (x) · φx.” Cela peut être défini comme “(x) · p∨φx”, c’est-à-dire que l’expression “ou p est vrai, ou φx est toujours vrai” doit être entendue “‘p ou φx’ est toujours vrai.” En même façon, nous définirons “p · ∨ · (∃x) · φx” comme “(∃x) · p∨φx”, c’est-à-dire que l’expression “ou p est vrai, ou il y a un x pour qui φx est vrai” doit être entendue par définition comme “il y a un x pour qui ou p ou φx est vrai.” Nous pouvons définir de même la disjonction de deux propositions universelles: “(x) · φx · ∨ · (y) · ψy” signifiera par définition “(x, y) · φx∨ψy”; c’est-à-dire que l’expression “ou φx est toujours vrai, ou ψy est toujours vrai” doit signifier “‘φx ou ψ’ est toujours vrai.” Par cette méthode, nous obtenons des définitions de disjonctions contenant des propositions de la forme (x) · φx ou (∃x) · φx en fonction de disjonctions de propositions élémentaires; mais la signification
‘disjonction’
n’est pas la même pour des propositions de la forme (x) · φx, ou (∃x) · φx que pour les propositions élémentaires.
De semblables explications pourraient être données à propos de l’implication et de la conjonction, mais il n’est pas nécessaire,
puisqu’on peut les définir en fonction de la négation et de la disjonction.
3. Pourquoi une fonction donnée requiert des arguments d’un certain type
Les considérations, présentées auparavant en faveur de cette idée qu’une fonction ne peut, sans perdre tout sens, avoir comme
argument quelque expression supposant dans sa définition la notion même de la fonction, l’ont été d’une façon plus ou moins
indirecte. Mais en étudiant directement les espèces de fonctions qui ont des fonctions comme argument et les espèces de fonctions
qui ont des arguments autres que des fonctions, nous verrons, si je ne me trompe, que non seulement il est impossible pour
une fonction ψz^ de se prendre elle-même (ou quelque notion dérivée d’elle) comme argument, mais que, si ψz^ est une autre fonction telle qu’il y ait des arguments a pour lesquels φa et ψa ont un sens, alors ψz^ (ou quelque expression dérivée de ψz^) ne peut, sans perdre tout sens, être argument de φz^. Cela résulte de ce fait qu’une fonction est essentiellement une expression présentant une ambiguïté: dès lors, si elle intervient
comme élément d’une proposition définie, elle doit intervenir d’une manière telle que l’ambiguïté ait disparu et qu’une expression
pleinement déterminée en résulte. Quelques [65] exemples rendront ceci plus clair. Ainsi “(x) · φx” que nous avons déjà considéré, est une fonction de φx^: dès que φx^ est déterminé, nous avons donc une proposition définie, exempte de toute ambiguïté. Mais on voit facilement que nous ne pouvons
pas substituer à la fonction quelque chose qui n’est pas une fonction; “(x) · φx” signifie en effet “φx en tous cas”; le sens que nous lui donnons ainsi dépend de ce fait qu’il y a des
‘cas’
cas pour φx, c’est-à-dire dépend de l’ambiguïté qui est la caractéristique d’une fonction. Cet exemple montre clairement que, quand une
fonction intervient comme argument, d’une manière qui présente un sens, une expression qui n’est pas une fonction ne peut,
en même façon, intervenir comme argument. Mais inversement, quand une expression qui n’est pas une fonction peut intervenir
comme argument d’une manière qui présente un sens, une fonction ne peut de même intervenir. Prenons par exemple l’expression
“x est un homme” et considérons “φx^ est un homme”. Ici, rien ne fait disparaître l’ambiguïté qui caractérise φx^; aucun objet défini n’est donc dit être un homme. Une fonction, en fait, n’est pas un objet défini, qui pourrait être ou
n’être pas un homme; c’est simplement une expression ambiguë qui attend une détermination, et afin qu’elle puisse intervenir
comme argument d’une manière qui présente un sens, elle doit recevoir nécessairement la détermination qu’elle ne reçoit évidemment
pas, si on la substitue simplement à un élément déterminé dans une proposition. Cet argument ne vaut pourtant pas directement
contre une expression telle que “{(x) · φx} est un homme”. Le sens commun jugerait qu une telle expression n’a pas de sens, mais elle ne peut pourtant être condamnée sur le prétexte
de l’ambiguïté de son sujet. Nous avons besoin ici d’une autre raison, que voici: une proposition n’est pas une entité simple,
mais une relation entre plusieurs entités; donc, une expression dans laquelle une proposition se présente comme sujet n’aura
de sens que si elle peut être ramenée à une expression concernant les termes qui interviennent dans la proposition. Comme
dans les phrases telles que “le n’importe quoi” (the so-and-so), où grammaticalement il apparaît comme sujet, une proposition doit être décomposée en ses constituants, si vous voulons
trouver le vrai sujet ou les vrais sujets. Mais dans une expression telle que “p est un homme”, où p est une proposition, cela n’est pas possible. Il suit de là que “{(x) · φx} est un homme” n’a pas de sens.
4. La hiérarchie des fonctions et propositions
Nous sommes ainsi conduits, par la double voie du principe du cercle vicieux et de l’observation directe, à cette conclusion
que les fonctions, dont un objet donné a peut être un argument, sont incapables de se servir mutuellement d’arguments entre elles, et qu’elles ne peuvent avoir aucun
terme commun avec les fonctions dont elles peuvent être arguments. Nous sommes ainsi amenés à construire une hiérarchie. Commençant
par [66] a et les autres termes qui peuvent être arguments des mêmes fonctions dont a peut être l’argument, nous arrivons tout d’abord
aux fonctions dont a est l’argument possible, puis aux fonctions dont de telles fonctions sont les arguments possibles, et
ainsi de suite. Mais la hiérarchie qui est à construire n’est pas aussi simple qu’il peut paraître au premier abord. Les fonctions
qui peuvent prendre a comme argument ne forment qu’illégitimement un ensemble totalisé et, pour elle-mêmes, elles demandent
à être divisées en une hiérarchie de fonctions. On voit facilement ceci comme suit. Soit f(φz^, x) une fonction de deux variables, φz^ et x. Si dès lors, regardant x comme fixe momentanément, nous affirmons cette expression pour toutes valeurs possibles de y, nous obtenons une proposition:
(φ) · f(φz^, x).
Si x est variable, nous avons ici une fonction d’x mais comme cette fonction implique l’ensemble total des valeurs de φz^6, elle ne peut pas elle-même être comprise dans cet ensemble, de par le principe du cercle vicieux. Il suit de là que l’ensemble
total des valeurs de φz^, visé dans l’expression (φ) · f(φz^, x) n’est pas l’ensemble total de toutes les fonctions dans lesquelles x peut intervenir comme argument, et qu’il n’existe aucun ensemble tel que celui de toutes les fonctions dans lesquelles x peut intervenir comme argument.
Il suit de ce qui précède que la notion même d’une fonction dans laquelle φz^ apparaît comme argument implique que
‘φz^’
ne désigne pas n’importe quelle fonction, capable d’un argument donné, mais doit être entendue en un sens restreint de telle manière qu’aucune des fonctions, valeurs
possibles de φz^, ne contienne quelque référence à l’ensemble total de ces fonctions. Prenons comme exemple la définition de l’identité. Nous
pouvons essayer de définir “x est identique à y” comme “tout ce qui est vrai d’x est vrai d’y”, c’est-à-dire φy en tous cas implique φy. Mais ici, puisque nous désirons affirmer toutes les valeurs de “φx implique φy”, regardé comme fonction de φ, nous serons forcés d’imposer à φ une certaine limitation, qui nous empêchera de comprendre
parmi les valeurs de φ les valeurs dans lesquelles sont concernées “toutes les valeurs possibles de φ.” Ainsi, par exemple, “x est identique à a” est une fonction d’x; dès lors, si c’est une valeur légitime de φ dans l’expression “φx en tous cas implique φy”, nous serons capables d’inférer, au moyen de la définition précédente, que si x est identique à a et x identique à y, alors y est identique à a. Bien que la conclusion soit valable, le raisonnement renferme un cercle vicieux, car nous avons pris “(φ) · {φx implique φa}” comme une valeur possible de φx, ce qui ne peut être. Et si, pourtant, nous apportons une limitation quelconque à φ, il peut arriver, autant qu’on le voit
à présent, que pour d’autres valeurs de φ, nous puissions avoir φx vrai et φy faux; si bien que [67] notre définition proposée de l’identité serait évidemment erronée. Cette difficulté est évitée par “l’axiome de réductibilité” qui sera expliqué plus loin. Nous ne l’avons mentionnée maintenant que pour montrer la nécessité et l’intérêt de la hiérarchie
des fonctions d’un argument donné.
Donnons le nom de
‘a-fonctions’
aux fonctions qui ont un sens pour un argument donné a. Supposons alors que nous choisissions un certain groupe de a-fonctions, et considérons la proposition “a satisfait toutes les fonctions appartenant au groupe en question.” Si nous remplaçons ici a par une variable, nous obtenons une a-fonction; mais, de par le principe du cercle vicieux cette a-fonction ne peut pas être membre de notre groupe, puisqu’elle contient une référence à l’ensemble du groupe. Posons que le
groupe est formé de toutes les fonctions qui satisfont f(φz^). Alors notre nouvelle fonction est
(φ) · {f(φz^) implique φx}
où x est l’argument. Il apparaît ainsi que, quel que soit le groupe d’a-fonctions que nous puissions choisir, il y aura d’autres a-fonctions qui resteront en dehors de ce groupe. On obtiendra toujours de telles fonctions, comme l’exemple précédent le montre,
en prenant une fonction de deux arguments φz^ et x et en affirmant le tout des valeurs résultant des variations de φ. Ce qui est nécessaire, par conséquent, afin d’éviter les
cercles vicieux, c’est de diviser nos a-fonctions en
‘types’
, dont chacun ne contient aucune fonction, se rapportant au type considéré dans son ensemble.
Quand quelque chose est affirmée ou niée de toutes les valeurs possibles d’une variable ou de quelques valeurs possibles indéterminées
de cette variable, celle-ci est dite apparente, suivant Peano. La présence des mots tout ou quelque dans une proposition indique la présence d’une variable apparente; mais souvent une variable apparente est réellement présente
là où le langage ne la décèle pas. C’est ainsi par exemple que
‘A est mortel’
signifie
‘il existe un temps où A mourra’
; ainsi, un temps variable apparaît comme variable apparente.
Les exemples les plus clairs de propositions ne contenant pas de variables apparentes sont celles qui expriment des jugements
de perception immédiats, par exemple
‘ceci est rouge’
ou
‘ceci est douloureux’
où
‘ceci’
désigne quelque chose d’immédiatement donné. Dans d’autres jugements, même là où à première vue il ne semble y avoir aucune
variable apparente, il arrive souvent qu’il y en a réellement une. Prenons par exemple
‘Socrate est homme’
. Pour Socrate lui-même, le mot
‘Socrate’
désignait sans aucun doute un objet dont il avait connaissance immédiate, et le jugement
‘Socrate est homme’
ne contenait aucune variable apparente. Mais pour nous, qui ne connaissons Socrate que par ouï-dire, le mot
‘Socrate’
ne peut pas signifier ce qu’il signifiait pour Socrate lui-même; il signifie plutôt
‘la personne qui a telles et telles propriétés’
, mettons
‘le philosophe athénien qui but la ciguë’
. De plus, dans toutes les propositions concernant
‘l’objet qui a telles et telles propriétés’
il y a une variable apparente, comme [68] je l’ai montré ailleurs.7 Ainsi, dans ce que nous avons à l’esprit quand nous disons
‘Socrate est homme’
il y a une variable apparente, quoiqu’il n’y ait pas de variable apparente dans le jugement correspondant, lorsqu’il est
fait par Socrate, à condition toutefois que nous supposions qu’il y ait une chose telle que la connaissance immédiate de soi-même.
Quels que soient les exemples de propositions ne contenant pas de variables apparentes, il est clair que les fonctions propositionnelles
dont les valeurs ne contiennent pas de variables apparentes sont la source de propositions qui en contiennent, au sens où
la fonction φx^ est la source de la proposition (x) · φx. Car les valeurs à comprendre sous φx^ ne contiennent pas la variable apparente x qui se montre dans (x) · φx^; si elles contiennent une variable apparente y, celle-ci peut être éliminée en même façon et ainsi de suite. Ce progrès ne va pas à l’infini, car les propositions que nous
pouvons appréhender ne peuvent contenir plus qu’un nombre fini de variables apparentes, en raison de ceci que tout ce que
nous pouvons concevoir doit nécessairement n’avoir qu’une complexité finie. Nous devons ainsi arriver en dernière analyse
à une fonction d’autant de variables qu’il y a eu d’étapes franchies pour l’atteindre à partir de notre proposition originelle,
et cette fonction sera telle que ses valeurs ne contiendront plus de variables apparentes. Nous pouvons appeler cette fonction
la matrice de notre proposition originelle et de toute autre proposition ou fonction, obtenue en transformant quelques-uns des arguments
de la fonction en variables apparentes. Ainsi, par exemple, si nous avons une fonction-matrice, dont les valeurs soient φ
(x, y), nous en dériverons
(y) · φ (x, y) qui est une fonction d’x
(x) · φ (x, y) qui est une fonction d’y
(x, y) · φ (x, y) qui signifie
‘φ (x, y) est vrai pour toutes valeurs possibles d’x et y’
.
Cette dernière expression est une proposition qui ne contient aucune variable réelle, c’est-à-dire, qui ne contient plus que des variables apparentes.
Il est évident que toutes les propositions et fonctions possibles peuvent être obtenues à partir de matrices, en transformant
dans les matrices les arguments en variables apparentes. Afin de diviser nos propositions et fonctions en types, nous partirons
donc des matrices, et examinerons comment on doit les diviser pour éviter tout cercle vicieux dans les définitions des fonctions
visées. Dans ce but, nous emploierons les lettres telles que a b c x y z w pour dénoter des objets qui ne sont ni des fonctions ni des propositions. Ces objets, nous les appelons individus; ils seront les constituants des propositions et fonctions, vrais constituants, en ce sens que l’analyse ne les résout pas comme, par exemple, les classes ou les phrases telles que
‘le tel-ou-tel’
.
[69]
Les premières matrices qui se présentent sont celles dont les valeurs ont l’une des formes
φx, ψ(x, y), χ(x, y, z ...)
c’est-à-dire, où les arguments, quelque nombreux qu’ils soient, sont tous des individus. Les fonctions φ, ψ, χ, ... qui, par
définition, ne contiennent aucune variable apparente et n’ont que des arguments-individus ne présupposent, dans leur notion,
aucun ensemble total de fonctions. A partir de ces fonctions ψ, χ, ... nous pouvons procéder à la formation d’autres fonctions
d’x, telles que (y) · ψ (x, y), (∃y) · ψ (x, y), (∃z) · χ (x, y, z), (y): (∃z) · χ (x, y, z), et ainsi de suite. Toutes ces fonctions ne présupposent aucun autre ensemble total que celui des individus. Nous arrivons
ainsi à l’idée d’une certaine collection de fonctions d’x, caractérisées par ceci quelles ne comprennent d’autres variables que des individus. Ces fonctions, nous les appellerons
‘fonctions du premier ordre’
.
Nous pouvons maintenant introduire une notation pour
‘n’importe quelle fonction du premier ordre’
. Nous la dénoterons par
‘φ ! x^’
et une valeur quelconque, à comprendre sous une telle fonction sera dénotée par
‘φ ! x^’
. Ainsi
‘φ ! x’
désigne une valeur quelconque à comprendre sous une fonction quelconque qui ne contient que des individus comme variables.
On voit par là que
‘φ ! x’
est lui-même une fonction de deux variables, à savoir φ ! z^ et x. Donc φ ! x^ contient une variable qui n’est pas un individu, à savoir φ ! z^. De même
‘(x) · φ ! x’
est une fonction de la variable φ ! z^, et, ainsi, contient une variable qui n’est pas un individu. Continuons encore: si a est un individu donné, l’expression
‘φ ! x implique φ ! x pour toutes valeurs possibles de φ’
est une fonction d’x, mais non de la forme φ ! x, car elle contient une variable (apparente) φ qui n’est pas un individu. Donnons le nom de
‘prédicat’
à une fonction quelconque du premier ordre φ ! z^. (Cet emploi du mot
‘prédicat’
est strictement réservé à l’objet de la présente discussion.) Alors l’expression
‘φ ! x implique φ ! a pour toutes valeurs possibles de φ’
peut être lue
‘tous les prédicats d’x sont les prédicats de a’
. Ceci donne lieu à une affirmation concernant x, mais n’attribue pas à x un prédicat, au sens spécial qui vient d’être défini.
En raison de l’introduction de φ ! z^, nous avons maintenant un nouveau groupe de matrices. Ainsi,
‘φ ! x’
est une fonction qui ne contient aucune variable apparente, mais contient les deux variables réelles φ ! z^ et x. (On observera que quand φ ! est déterminé, nous pouvons obtenir une fonction dont les valeurs enveloppent des individus
comme variables apparentes, par exemple si φ ! x est (y) · χ (x, y); mais aussi longtemps que φ est variable, φ ! x ne contient aucune variable apparente.) De même, si a est un individu défini, φ ! a est une fonction d’une variable φ ! z^. Si a et b sont des individus définis,
‘φ ! a implique ψ ! b’
est une fonction de deux [70]] variables φz^ et ψz^, et ainsi de suite. Nous sommes ainsi amenés à un ensemble de matrices nouvelles,
f(φ ! z^), g(φ ! z^, ψ ! z^), F(φ ! z^, x), etc.
Ces matrices contiennent des individus et des fonctions du premier ordre comme arguments, mais (comme toutes les matrices)
aucune variable apparente. Une telle matrice, si elle contient plus d’une variable, donne naissance à de nouvelles fonctions
d’une variable, par la transformation de tous ses arguments à l’exception d’un seul en variables apparentes. Ainsi, nous obtenons
les fonctions
(φ) · g (φ ! z^, ψ ! z^) qui est une fonction de ψ ! z^
(x) · F(φ ! z^, x) qui est une fonction de φ ! z^
(φ) · F(φ ! z^, x) qui est une fonction d’z.
Nous donnerons le nom de matrices du second ordre aux matrices qui ont des fonctions du premier ordre parmi leurs arguments et n’en ont pas d’autres que ces fonctions et des
individus. (Il n’est d’ailleurs pas nécessaire qu’elles aient des individus parmi leurs arguments.) Nous donnerons le nom de fonctions du second ordre aux fonctions qui ou bien sont des matrices du second ordre, ou bien sont dérivées de ces matrices par transformation de
quelques-uns de leurs arguments en variables apparentes. On voit que l’argument d’une fonction du second ordre peut être ou
un individu ou une fonction du premier ordre. Les fonctions du second ordre sont celles qui contiennent des variables qui
sont des fonctions du premier ordre mais ne contiennent aucune autre variable, sauf (peut-être) des individus.
Nous avons maintenant à notre disposition diverses nouvelles classes de fonctions. En premier lieu nous avons des fonctions
du second ordre à un seul argument, qui est une fonction du premier ordre. Nous dénoterons une fonction variable de ce genre
par le symbole f ! (φ^ ! z^) et une valeur quelconque d’une telle fonction par f ! (φ ! z^). Comme φ ! x, l’expression f ! (φ ! z^) est une fonction de deux variables, à savoir f ! (φ ! z^) et φ ! z^. Parmi les valeurs possibles de f ! (φ ! z^) se trouveront φ ! a, où a est constant, (x) · φ ! x, (∃x) · φ ! x, etc. (Ces valeurs s’obtiennent en donnant une valeur déterminée à f et en laissant y indéterminé.) Nous appellerons ces fonctions
‘fonctions prédicatives des fonctions du premier ordre’
.
En second lieu, nous avons des fonctions du second ordre à deux arguments dont l’un est une fonction du premier ordre, tandis
que l’autre est un individu. Dénotons les valeurs indéterminées de telles fonctions par le symbole
f ! (φ ! z^, x).
Aussitôt qu’x prend une valeur déterminée, nous avons une fonction prédicative de φ ! z. Si notre fonction ne contient aucune fonction du premier ordre comme variable apparente, nous obtiendrons une fonction prédicative
d’x en assignant une valeur à φ ! z^. Ainsi, pour prendre le cas le plus simple, si f ! (φ ! z^, x) est φ ! x, le fait d’assigner une valeur à y nous donne une fonction [71] prédicative d’x, en vertu de la définition de
‘φ ! x’
. Mais si f ! (φ ! z^, x) contient une fonction du premier ordre comme variable apparente, le fait d’assigner une valeur à φ ! z. nous donne une fonction du second ordre d’x.
En troisième lieu, nous avons des fonctions du second ordre d’individus. Celles-ci seront toutes dérivées des fonctions de
la forme f ! (φ ! z^, x) en transformant φ en une variable apparente. Nous n’avons donc pas besoin pour elles d’une nouvelle notation.
Nous avons aussi des fonctions du second ordre de deux fonctions du premier ordre, ou de deux fonctions de ce genre et d’un
individu, et ainsi de suite.
Nous pouvons maintenant passer à l’étude exactement semblable des matrices du troisième ordre. Ce seront des fonctions contenant
des fonctions du second ordre comme arguments, ne contenant aucune variable apparente, ni d’autres arguments que des individus,
des fonctions du premier et du second ordre. De là, nous passerons, comme précédemment, aux fonctions du troisième ordre,
et nous pourrons continuer ainsi indéfiniment. Si la variable d’ordre le plus élevé intervenant dans une fonction, - qu’elle
soit un argument ou une variable apparente, - est une fonction du ne-ordre, la fonction où elle intervient sera du n + 1ème ordre. Nous n’arrivons pas aux fonctions d’ordre ω, parce que le nombre des arguments et des variables apparentes dans une
fonction doit être fini, et par là toute fonction doit nécessairement être d’ordre fini. Puisque les ordres de fonctions ne
se définissent que degré par degré, on ne peut procéder au
‘passage à la limite’
, et des fonctions d’ordre infini ne peuvent se présenter.
Nous définirons une fonction d’une variable comme prédicative quand elle est de l’ordre immédiatement plus élevé que l’ordre de son argument, c’est-à-dire quand elle est de l’ordre le
plus petit qu’elle est obligée d’avoir pour posséder cet argument. Si une fonction a plusieurs arguments et si l’ordre le
plus élevé des fonctions qui interviennent en elle comme arguments est le ne, nous appellerons la fonction prédicative, si elle est de l’ordre n + 1, ou, en d’autres termes, si elle est de l’ordre le plus petit qu’elle soit obligée d’avoir pour posséder l’argument qui
est le sien. Une fonction de plusieurs arguments est prédicative quand l’un de ses arguments est tel que, quand nous assignons
une valeur aux autres, nous obtenons une fonction prédicative de l’argument resté indéterminé.
Il est important de noter que toutes les fonctions possibles dans la hiérarchie précédente peuvent être obtenues par le moyen
de fonctions prédicatives et de variables apparentes. Ainsi, comme nous l’avons vu, les fonctions du second ordre d’un individu
x sont de la forme
(φ) · f ! (φ ! z^, x), ou (∃φ) · f ! (φ ! z^, x) ou (φ · ψ) f ! (φ ! z^, ψ ! z^, x), etc.
où f est une fonction prédicative du second ordre. Et d’une manière générale, on obtient une fonction non prédicative du ne ordre, à partir d’une fonction prédicative du ne ordre, en transformant tous les arguments de l’ordre n - 1 en variables apparentes. (D’autres arguments peuvent aussi être transformés en variables apparentes.) Ainsi nous n’avons
pas besoin d’introduire [72] comme variables d’autres fonctions que les fonctions prédicatives. Bien plus, pour obtenir une fonction quelconque d’une
variable unique x, nous n’avons pas besoin d’aller au-delà des fonctions prédicatives de deux variables. Car la fonction (ψ) · f ! (φ ! z^ , ψ ! z^, x), où f est donné, est une fonction de φ ! z^ et x elle est prédicative. Elle est donc de la forme F!(φ ! z^, x) et par conséquent, (φ, ψ) · f ! (φ ! z^, ψ ! z, x) est de la forme (φ) · F! (φ ! z^, x). Ainsi, d’une manière générale, en procédant par degrés, nous trouvons que, si φ ! û est une fonction prédicative d’un ordre suffisamment élevé, toute fonction déterminée d’x non-prédicative sera de l’une des deux formes
(φ) · F ! (φ ! û;, x) (∃φ) · F! (φ ! û, x)
où F est une fonction prédicative de φ ! û et x.
La nature de la précédente hiérarchie des fonctions peut être, en résumé, expliquée comme suit. Une fonction, comme nous l’avons
vu à un stade antérieur de la discussion, présuppose, comme une partie essentielle de sa signification, l’ensemble total de
ses valeurs, ou, ce qui revient au même, l’ensemble total de ses arguments possibles. Les arguments d’une fonction peuvent
être des fonctions, ou des propositions, ou des individus. (On se souvient que les individus sont définis comme ce qui n’est
ni une proposition, ni une fonction.) Pour le moment, nous négligeons le cas où l’argument d’une fonction est une proposition.
Considérons une fonction dont l’argument est un individu. Cette fonction présuppose l’ensemble total des individus; mais,
à moins qu’elle ne contienne une fonction comme variable apparente, elle ne présuppose aucun ensemble total de fonctions.
Si, pourtant, elle contient une fonction comme variable apparente, alors elle ne peut être définie, tant que quelque ensemble
total de fonctions n’a pas été défini. Il suit de là que nous sommes obligés de définir d’abord l’ensemble total des fonctions
qui ont des individus comme arguments et ne contiennent aucune fonction comme variables apparentes. Ce sont les fonctions
prédicatives d’individus. D’une manière générale, une fonction prédicative d’un argument variable est celle qui n’implique d’autre ensemble
total que celui des valeurs possibles de l’argument et ceux qui sont présupposés par l’un quelconque des arguments possibles.
Ainsi une fonction prédicative d’un argument variable est toute fonction qui peut recevoir une détermination, sans qu’on introduise
de nouveaux genres de variables, qui ne soient pas nécessairement présupposés par la variable qui est l’argument.
Une théorie presque exactement semblable peut être développée à propos des propositions. Les propositions qui ne contiennent
aucune fonction ni variable apparente peuvent être appelées propositions élémentaires. Les propositions non élémentaires qui ne contiennent aucune fonction, ni autres variables apparentes que des individus,
peuvent être appelées propositions du premier ordre. (On observera qu’aucune variable autre que les variables apparentes ne peut se rencontrer dans une proposition, puisque toute expression qui contient une variable réelle est fonction et non proposition.) Les propositions élémentaires et de premier ordre seront ainsi les valeurs [73] des fonctions de premier ordre. (On se souviendra qu’une fonction n’entre pas comme constituant dans l’une de ses valeurs:
c’est ainsi, par exemple, que la fonction
‘x^ est homme’
n’est pas un constituant de la proposition
‘Socrate est homme’
). Les propositions élémentaires et de premier ordre ne présupposent donc aucun ensemble total, sauf, tout au plus, l’ensemble
total des individus. Elles sont de l’une ou l’autre des trois formes
φ ! a; (x) · φ ! x; (∃x) · φ ! x;
où φ ! x est une fonction prédicative d’un individu. Il suit de là que si p représente une proposition élémentaire ou de premier ordre,
variable, une fonction fp est ou f(φ ! a), ou f{(x) · φ ! x}, ou f{(∃x) · φ ! x}. Ainsi une fonction d’une proposition élémentaire ou de premier ordre peut toujours être ramenée à une fonction d’une fonction
du premier ordre. Il suit de là qu’une proposition, dont l’expression contient l’ensemble total des propositions du premier
ordre, peut être ramenée à une proposition dont l’expression contient l’ensemble total des fonctions du premier ordre; et
cela naturellement s’applique également aux ordres plus élevés. La hiérarchie des propositions peut, par conséquent, être
dérivée de la hiérarchie des fonctions, et nous pouvons définir une proposition du ne ordre comme la proposition qui contient une variable apparente d’ordre n - 1 dans la hiérarchie des fonctions. La hiérarchie des propositions est d’emploi nul en pratique et n’offre d’intérêt que
pour la solution des paradoxes; il n’est donc pas nécessaire d’entrer dans plus de détails sur les types de propositions.
5. L’axiome de réductibilité
Il reste à examiner l’
‘axiome de réductibilité’
. On voit que, d’après la hiérarchie précédente, aucun jugement ne peut être porté, sans perdre tout sens, concernant
‘toutes les a-fonctions’
où a est un certain objet donné. Ainsi, une notion telle que
‘toutes les propriétés de a’
signifiant
‘toutes les fonctions qui sont vraies pour l’argument a’
n’est pas légitimement formée. Il nous faudra distinguer l’ordre de fonctions visé. Nous pouvons parler de
‘toutes les propriétés prédicatives de a’
, de
‘toutes les propriétés du second ordre de a’
, etc. (Si a n’est pas un individu, mais un objet d’ordre n, on entendra, par
‘les propriétés du second ordre de a’
l’expression
‘fonctions d’ordre n + 2 vérifiées par a’
.) Mais nous ne pouvons pas parler de
‘toutes les propriétés de a’
. Dans certains cas particuliers, nous pouvons rencontrer des jugements portés sur
‘toutes les propriétés d’ordre n de a’
, quel que soit n. Dans de pareils cas, il n’y a pratiquement pas d’inconvénient à regarder le jugement comme porté sur
‘toutes les propriétés de a’
, pourvu que nous nous souvenions que c’est là en réalité une pluralité de jugements et non un jugement unique, qui pourrait
être regardé comme affirmant une nouvelle propriété de a, en outre de toutes les propriétés. De tels cas contiendront toujours quelque ambiguïté systématique semblable à celle que
contenait la [74] signification du mot
‘vérité’
comme il a été expliqué précédemment. Par suite de cette ambiguïté systématique, on sait qu’il est possible parfois de comprendre
dans un jugement exprimé verbalement de façon simple ce qui enveloppe en réalité un certain nombre de jugements différents,
correspondant à des ordres différents de la hiérarchie. Ceci apparaît clairement dans le cas du menteur, où le jugement
‘Tous les jugements de A sont faux’
devrait être décomposé en jugements différents, se rapportant aux jugements d’ordres divers portés par le menteur, et faisant
correspondre à chacun d’eux un genre spécial de fausseté.
L’axiome de réductibilité est introduit afin de justifier une multitude de raisonnements, où, au premier aspect, nous avons affaire à des notions telles que
‘toutes les propriétés de a’
ou
‘toutes les a-fonctions’
, et dans lesquels, néanmoins, il semble difficilement possible de soupçonner quelque erreur importante. M. Poincaré estime que l’axiome de réductibilité ne peut être en réalité qu’une autre forme de l’axiome de l’induction mathématique.
Ce n’est pourtant aucunement le cas. L’axiome de réductibilité a un domaine beaucoup plus général: il est utilisé en de nombreuses
questions de pure logique où l’induction mathématique n’a rien à faire.8 C’est cette utilité que je dois maintenant expliquer.
Si nous appelons prédicat d’un objet une fonction prédicative qui est vraie de cet objet, alors seront prédicats d’un objet seulement des propriétés
déterminées de cet objet. Soit par exemple une proposition telle que
‘Napoléon a eu toutes les qualités qui font un grand général’
. Nous pouvons l’interpréter dans le sens
‘Napoléon a eu tous les prédicats qui font un grand général’
. Nous avons ici un prédicat qui est une variable apparente. Si nous posons
‘f(φ ! z^)’
pour
‘φ ! z^ est un prédicat requis chez un grand général’
, notre proposition est
(φ): f (φ ! z^) implique φ ! (Napoléon).
Puisque cette expression vise un ensemble total de prédicats, elle n’est pas elle-même un prédicat de Napoléon. Il ne suit
pas de là, pourtant, qu’il n’y ait aucun prédicat commun aux grand généraux et à eux seuls. En fait, il est certain qu’il
existe un tel prédicat. Le nombre des grands généraux est en effet fini et chacun d’eux a possédé certainement quelque prédicat,
que n’a possédé aucun autre homme, par exemple, le fait d’être né à tel instant précis. La disjonction de ces prédicats donnera
lieu à un prédicat commun aux [75] grands généraux et à eux seuls.9 Si nous appelons ce prédicat ψ ! z^, l’affirmation que nous venons de porter sur Napoléon est équivalente à ψ ! (Napoléon); et une équivalence du même genre
vaut encore, si, au lieu de Napoléon, nous prenons n’importe quel autre individu. Nous avons donc trouvé ainsi un prédicat,
qui équivaut, dans tous les cas, à la propriété attribuée plus haut à Napoléon, c’est-à-dire qui appartient aux objets qui
possèdent cette propriété et à eux seuls. L’axiome de réductibilité exprime qu’un tel prédicat existe toujours, c’est-à-dire
que si une propriété quelconque d’un objet convient à une collection d’objets, il y a un prédicat déterminé qui convient à
la même collection.
Nous pouvons présenter immédiatement un éclaircissement de notre principe, en l’appliquant à la notion d’identité. En cette occurrence, il a une certaine affinité avec l’identité des indiscernables de Leibniz. Il est évident que, si x et y sont identiques, et si φx est vrai, φy est vrai aussi. Peu importe ici le genre de fonctions φx^ en question: l’affirmation doit valoir pour n’importe quelle fonction. Mais nous ne pouvons pas dire inversement:
‘Si, pour toutes valeurs de φ, φx implique φy, alors x et y sont identiques’
, parce que nous ne pouvons admettre la notion
‘toutes valeurs de φ’
. Si nous voulons parler de
‘toutes valeurs de φ’
, nous devons alors nous restreindre aux fonctions d’un seul ordre. Nous pouvons nous astreindre à entendre sous y les prédicats,
ou les fonctions du second ordre, ou les fonctions de quelque ordre, arbitrairement choisi. Mais nous devons nécessairement
ne considérer que les fonctions d’un seul ordre. Nous obtiendrons dès lors une hiérarchie, pour ainsi parler, des différents
degrés d’identité. Nous pouvons dire
‘tous les prédicats de x appartiennent à y’
,
‘toutes les propriétés du second ordre d’x appartiennent à y’
et ainsi de suite. Chacune de ces affirmations implique celles qui la précèdent; par exemple, si toutes les propriétés du
second ordre d’x appartiennent à y, alors tous les prédicats d’x appartiennent à y, car le fait d’avoir tous les prédicats d’x est une propriété du second ordre et cette propriété appartient à x. Mais nous ne pouvons pas, sans l’aide d’un axiome, conclure inversement que, si, tous les prédicats d’x appartiennent à y, toutes propriétés du second ordre d’x doivent aussi appartenir à y. Ainsi, nous ne pouvons pas, sans l’aide d’un axiome, être sûrs qu’x et y sont identiques s’ils ont les mêmes prédicats. L’identité des indiscernables de Leibniz fait fonction de cet axiome. On notera à cet égard que par
‘indiscernables’
il ne peut pas avoir entendu deux objets qui concordent par toutes leurs propriétés, puisque c’est une propriété déterminée
d’x que d’être identique à x, et par conséquent, cette propriété devrait nécessairement appartenir à y, si x et y concordaient par toutes leurs propriétés. La nécessité d’entendre dans un sens restreint les propriétés communes qui rendent
les choses indiscernables est donc impliquée dans la nécessité d’un axiome. Pour être plus clair (et non plus pour interpréter
[76] Leibniz) nous pouvons supposer que les propriétés communes, requises pour rendre les choses indiscernables, doivent être limitées
à l’ordre des prédicats. Dès lors l’identité des indiscernables exprime que si x et y concordent par tous leurs prédicats, ils sont identiques. Cela peut être prouvé, si nous supposons l’axiome de réductibilité.
En effet, dans ce cas, la même collection d’objets à qui convient une propriété, est aussi définie au moyen d’un certain prédicat.
Dès lors, il y a un certain prédicat commun aux objets qui ont la propriété d’être identiques à x, et à eux seuls. Ce prédicat appartient à x, puisque x est identique à lui-même; il appartient donc à y, puisque y a tous les prédicats de x; donc y est identique à x. Il suit de là que nous pouvons définir x et y comme identiques quand tous les prédicats de x appartiennent à y, c’est-à-dire, quand (φ): φ ! x implique φ ! x. Mais, sans l’axiome de réductibilité, ou quelque axiome équivalent en cette occurrence, nous serions forcés de regarder
l’identité comme indéfinissable, et d’admettre (ce qui semble impossible) que deux objets peuvent concorder par tous leurs
prédicats sans être identiques.
L’axiome de réductibilité joue un rôle encore plus essentiel dans la théorie des classes. Nous observerons, en premier lieu,
que si nous supposons l’existence des classes, on peut donner une preuve de l’axiome de réductibilité. Car, en ce cas, étant
donné une fonction quelconque φz^ de n’importe quel ordre, il existe une classe α qui est composée des seuls objets qui vérifient φz^. Par là,
‘φx’
est équivalent à
‘x appartient à α’
. Mais
‘x appartient à α’
est une expression qui ne contient aucune variable apparente; elle est par conséquent une fonction prédicative de x. Dès lors, si nous supposons l’existence des classes, l’axiome de réductibilité n’est plus nécessaire. Supposer l’axiome
de réductibilité est par conséquent une hypothèse de plus faible portée que supposer qu’il y a des classes. Cette dernière
supposition a été faite jusqu’ici sans hésitation. Pour ma part, je considère pourtant que, d’abord, les contradictions de
la logique réclament une explication plus compliquée, si l’on suppose qu’il y a des classes, et qu’en second lieu, il est
toujours bon de s’en tenir à l’hypothèse la plus faible requise pour la démonstration de nos théorèmes; pour ces motifs, je
préfère supposer l’axiome de réductibilité plutôt que l’existence des classes. Mais afin d’expliquer l’emploi de cet axiome
pour rendre compte des classes, il est nécessaire d’abord d’expliquer la théorie des classes.
6. La théorie des classes
Pour expliquer la théorie des classes, il est nécessaire d’abord d’expliquer la distinction entre les fonctions extensives et les fonctions intensives. A cet effet, on pose les définitions suivantes:
La valeur de vérité d’une proposition est la vérité, si elle est vraie, et la fausseté, si elle est fausse. (Cette expression est due à Frege.)
Deux propositions sont dites équivalentes, quand elles ont la même valeur [77] de vérité, c’est-à-dire, quand elles sont toutes deux vraies ou toutes deux fausses.
Deux fonctions propositionnelles sont dites formellement équivalentes quand elles sont équivalentes pour tout argument possible, c’est-à-dire quand un argument quelconque qui satisfait l’une
satisfait l’autre et vice versa. Ainsi
‘x^ est un homme’
est formellement équivalent à
‘x^ est un bipède sans plumes’
;
‘x^ est un nombre premier pair’
est formellement équivalent à
‘x^ est identique à 2’
.
Une fonction d’une fonction est dite extensive quand sa valeur de vérité pour un argument quelconque est la même que pour
un argument formellement équivalent. Autrement dit, f(φz^) est une fonction extensive de f(φz^) est équivalent f(ψz^), pourvu que φz^ soit formellement équivalent à φz^. Mais puisque, dans cette définition, φz^ et ψz^ sont des variables apparentes, il est nécessaire de les limiter à un type unique; nous nous astreindrons à les prendre comme
fonctions prédicatives. Ainsi f(φ ! x^) est une fonction extensive si, pour tout φ et tout ψ, f(φ ! z^) est équivalent f(ψ ! z^) pourvu que φ ! z^ soit formellement équivalent à φ ! z^.
Une fonction de fonction est dite intensive quand elle n’est pas extensive.
La nature et l’importance de la distinction entre fonctions extensives et intensives seront éclaircies par quelques exemples.
La proposition
‘x est un homme’
implique toujours
‘x est un mortel’
est une fonction extensive de la fonction
‘x^ est un homme’
, parce que nous pouvons remplacer
‘x est un homme’
par
‘x^ est un bipède sans plumes’
ou quelque autre expression qui s’applique aux mêmes objets que
‘x est un homme’
et à ceux-là seuls. Mais la proposition “A croit que
‘x est un homme’
implique toujours
‘x est un mortel’
” est une fonction intensive de
‘x^ est un homme’
parce que A peut n’avoir jamais considéré la question de savoir si les bipèdes sans plumes sont mortels, ou peut croire à
tort qu’il y a des bipèdes sans plumes qui ne sont pas mortels. Ainsi, même si
‘x est un homme’
est formellement équivalent à
‘x est un bipède sans plumes’
il ne suit aucunement qu’une personne qui croit que tous les hommes sont mortels soit obligée de croire que tous les bipèdes
sans plumes sont mortels; car elle peut n’avoir jamais pensé à des bipèdes sans plumes ou avoir supposé que les bipèdes sans
plumes n’étaient pas toujours des hommes. D’autre part, la proposition
‘le nombre des arguments qui satisfont la fonction φ ! z^ est n’
est une fonction extensive de φ ! z^, car sa vérité ou sa fausseté ne change pas si nous remplaçons φ ! z^ par une fonction quelconque, vraie si φ ! z est vrai et fausse si φ ! z^ est faux. Mais la proposition
‘A affirme que le nombre des arguments qui satisfont φ ! z^ est nn’
est une fonction intensive de φ ! z^; car, si A affirme cette propriété de φ ! z^, il ne peut certainement l’affirmer de toutes les fonctions prédicatives, qui sont équivalentes à φ ! z^ parce que la vie est trop courte. Considérons encore la proposition
‘deux hommes de race blanche ont atteint le Pôle Nord’
. Cette proposition exprime “deux arguments satisfont la fonction
‘x^ est un homme de race blanche qui a atteint le Pôle Nord’
”. La vérité ou la fausseté de cette proposition ne change pas si nous [78] remplaçons
‘x est un homme blanc qui a atteint le Pôle Nord’
par quelque autre expression, qui vaut du ou des mêmes arguments et de ceux-là seuls. Elle est donc une fonction extensive.
Mais la proposition
‘c’est une étrange coïncidence que deux hommes de race blanche aient atteint le Pôle Nord’
, exprime “c’est une étrange coïncidence que deux arguments satisfassent la fonction
‘x^ est un homme de race blanche qui a atteint le Pôle Nord’
”, et n’est donc pas équivalente à “c’est une étrange coïncidence que deux arguments satisfassent la fonction
‘x^ est Dr Cook ou commandant Peary’
”. Ainsi l’expression “c’est une étrange coïncidence que φ ! x^ soit satisfait par deux arguments” est une fonction intensive.
Les exemples précédents montrent clairement ce fait que les fonctions de fonctions, qui sont l’objet spécial des mathématiques
sont extensives, et que les fonctions de fonctions intensives n’apparaissent que là où des idées étrangères à la mathématique
sont introduites, comme ce que quelqu’un affirme ou croit, ou les émotions soulevées par quelque fait. Dès lors, il est naturel,
dans une logique mathématique, d’attacher une importance spéciale aux fonctions de fonctions extensives.
Quand deux fonctions sont formellement équivalentes, nous pouvons dire qu’elles ont la même extension. Cette définition est en accord étroit avec l’usage commun. Nous ne supposons pas qu’il existe une chose telle qu’une extension;
nous définissons simplement le tout de la phrase
‘avoir la même extension’
. Nous pouvons maintenant dire qu’une fonction extensive d’une fonction est celle dont la vérité ou la fausseté dépend seulement
de l’extension de son argument. Dans ce cas, il convient de regarder l’affirmation en question comme concernant l’extension.
Puisque les fonctions extensives sont nombreuses et importantes, il est naturel de regarder l’extension comme un objet, -
appelons-le classe, - que l’on suppose être le sujet de toutes les affirmations équivalentes concernant diverses fonctions formellement équivalentes.
Ainsi, par exemple, si nous disons
‘il y a eu douze Apôtres’
, il est naturel de regarder cette affirmation comme attribuant la propriété d’être douze à une certaine collection d’hommes,
expressément ceux qui ont été les Apôtres, plutôt qu’attribuant la propriété d’être satisfaite par douze arguments à la fonction
‘x^ était un Apôtre’
. Cette opinion est fortifiée par le sentiment qu’il y a quelque chose d’identique dans le cas de deux fonctions qui
‘ont la même extension’
. Si nous prenons des problèmes simples tels que
‘combien de combinaisons peuvent être faites avec n objets?’
il semble à première vue nécessaire que chaque
‘combinaison’
soit un objet simple, qui peut être compté comme unité. Cette conception, pourtant, n’est certainement pas techniquement
nécessaire, et je ne vois pas de raison de supposer qu’elle est vraie philosophiquement. Le procédé technique par lequel cette
difficulté apparente est surmontée est le suivant.
Nous avons vu qu’une fonction extensive d’une fonction peut être regardée comme une fonction de la classe déterminée par la
fonction argument, mais qu’une fonction intensive ne peut pas être regardée en même [79] façon. Pour aller au-devant de la nécessité de traiter différemment les fonctions extensives et intensives de fonctions,
nous construisons une fonction extensive dérivée de n’importe quelle fonction d’une fonction prédicative, et douée de la propriété
d’être équivalente à la fonction dont elle est dérivée, pourvu que celle-ci soit extensive. Cette fonction dérivée se définit
ainsi : Soit une fonction f(ψ ! z^), notre fonction dérivée sera:
‘Il existe une fonction prédicative qui est formellement équivalente à φz^ et satisfait f’
. Si φz^ est une fonction prédicative, notre fonction dérivée sera vraie, toutes les fois que f(φz^) sera vrai. Si f(φz^) est une fonction extensive et φz une fonction prédicative, notre fonction dérivée ne sera pas vraie à moins que f(φz^) ne soit vrai; dans ce cas, notre fonction dérivée est donc équivalente à f(φz^). Si f(φz^) n’est pas une fonction extensive, et si φz^) est une fonction prédicative, notre fonction dérivée peut parfois être vraie quand la fonction originelle est fausse. Mais
dans tous les cas, la fonction dérivée est toujours extensive. La raison pour laquelle nous nous sommes astreints à ne considérer
qu’une fonction prédicative formellement équivalente à φz^ est que la fonction formellement équivalente à φz^ doit être une variable apparente et par conséquent est nécessairement de quelque type déterminé; il est donc naturel de prendre
le type des fonctions prédicatives, car il est le plus simple. On trouvera que, dans tous les cas de fonctions extensives
qui se rencontrent en pratique, deux fonctions formellement équivalentes, quand elles sont prises comme arguments (par l’aide
de l’ambiguïté systématique), donnent lieu à la même valeur de vérité, même quand l’une ou l’autre ou les deux ensembles ne
sont pas prédicatives; toutefois ceci ne peut être exprimé dans la définition des fonctions extensives, parce que cela impliquerait
la notion d’une fonction qui serait variable apparente et ne serait pas limitée à un type déterminé. Toutes les fois que deux
fonctions formellement équivalentes donnent lieu à la même valeur de vérité pour f(φz^), même quand elles ne sont pas toutes deux prédicatives, alors la fonction
‘il y a une fonction prédicative formellement équivalente à φz^ et satisfaisant f’
est équivalente à f(φz^) pourvu qu’il y ait une fonction prédicative formellement équivalente à φz^. Mais s’il n’existe aucune fonction de ce genre, la fonction dérivée est nécessairement fausse même si la fonction originelle
était vraie et f est une fonction extensive. A ce moment, nous pourrons faire emploi de l’axiome de réductibilité, d’après lequel il y a toujours
une fonction prédicative ψ ! z^ formellement équivalente à φz^.
Pour que la fonction dérivée ait un sens pour une fonction φz^, d’ordre quelconque mais dont les arguments soient d’un type légitime, il est nécessaire et suffisant que l’expression f(ψ ! z^), où ψ ! z^ est une fonction prédicative quelconque, ait un sens. La raison de cette règle est que la seule condition requise pour un
argument φz^ consiste à supposer qu’il est formellement équivalent à quelque fonction prédicative ψ ! z^; or l’équivalence formelle a, au point de vue du type, une ambiguïté systématique du même genre que l’ambiguïté des notions
de vérité et d’erreur; elle peut par conséquent [80] être affirmée à propos de deux fonctions dont chacune a un ordre différent, mais à condition que ces fonctions aient des
arguments du même type. Ainsi, grâce à notre fonction dérivée, nous n’avons pas simplement remplacé partout les fonctions
intensives, mais nous avons, en pratique, écarté la nécessité où nous étions d’envisager des différences de types parmi les fonctions dont les arguments étaient du
même type. Cela introduit dans notre hiérarchie le même genre de simplification que si nous nous astreignions à ne jamais
considérer que des fonctions prédicatives.
Comme nous l’avons expliqué précédemment, il convient de regarder une fonction extensive d’une fonction comme si elle avait
pour argument, non la fonction même, mais la classe déterminée par cette fonction. Or nous avons vu que notre fonction dérivée
est toujours extensive. Donc, si notre fonction originelle est f(ψ ! z^), nous écrirons la fonction dérivée f{z^(φ z)}, où
‘z^(φ z)’
peut être lue
‘la classe des arguments qui satisfont φ z^’
ou plus simplement
‘classe déterminée par φz^’
. Ainsi,
‘f{z^(φ z^)}’
signifiera:
‘Il y a une fonction prédicative ψ ! z^ qui est formellement équivalente à φ z^ et qui est telle que f(ψ ! z^) est vrai.’
Cette expression est en réalité une fonction de φ z^, mais nous la traitons symboliquement comme si elle avait un argument z^(φ z). Grâce à l’axiome de réductibilité, nous obtenons comme résultat les propriétés usuelles des classes. Par exemple deux fonctions
formellement équivalentes déterminent la même classe, et inversement, deux fonctions qui déterminent la même classe sont formellement
équivalentes. D’autre part, dire que x est un membre de z^(φ z), c’est-à-dire, de la classe déterminée par φz^ est vrai, quand φx est vrai, faux quand φx est faux. Ainsi, tous les services que la mathématique semble attendre de la notion de classe lui sont pleinement rendus
par les objets de création purement symbolique z^(φ z), à condition de supposer l’axiome de réductibilité.
En vertu de l’axiome de réductibilité, si φ z^ est une fonction quelconque, il existe une fonction prédicative ψ ! z^ formellement équivalente. Dès lors, la classe z^(φ z) est identique à la classe z^(ψ ! z). S’il en est ainsi, toute classe peut être définie par une fonction prédicative. Par conséquent, l’ensemble total des classes dont on peut dire sans non-sens qu’un terme donné leur appartient ou non, est un ensemble total dont la notion est légitime;
et cela, en dépit de ce fait que l’ensemble total des fonctions dont on peut dire sans non-sens qu’un terme donné les satisfait ou non, n’est pas un ensemble légitime. Les classes, à qui
un terme donné a appartient ou non sont les classes définies par les a-fonctions; ce sont aussi les classes définies par les a-fonctions prédicatives. Appelons-les
‘a-classes’
. Les
‘a-classes’
forment donc un ensemble total légitime, dérivé de celui des a-fonctions prédicatives. Dès lors un grand nombre d’expressions générales deviennent possibles qui, sans cela, impliqueraient
les paradoxes du cercle vicieux. Aucune de ces propositions générales n’est telle qu’elle conduise à des contradictions, et
pour beaucoup d’entre elles, il est difficile de les supposer illégitimes. Le fait qu’elles sont rendues possibles par l’axiome
[81] de réductibilité et qu’elles seraient, sans cela, exclues au nom du principe du cercle vicieux, doit être regardé comme un
argument en faveur de l’axiome de réductibilité.
Il est intéressant de noter que tous les services rendus par l’axiome de réductibilité le sont également bien si nous supposons
qu’il existe toujours une fonction du ne ordre (où n est déterminé) formellement équivalente à φx^ quel que soit l’ordre de φx^. Nous entendrons ici par
‘une fonction du ne ordre’
une fonction du ne ordre relativement aux arguments de φx^; ainsi si ces arguments sont, absolument parlant, du me ordre, nous supposons l’existence d’une fonction formellement équivalente à φx^ et dont l’ordre absolu est m + n. L’axiome de réductibilité, dans la forme présentée tout à l’heure, fait n = 1, mais ce n’est pas une condition nécessaire de l’emploi de cet axiome. Il n’est pas nécessaire aussi que n conserve la même valeur pour différentes valeurs de m; ce qui est nécessaire, c’est seulement que n soit constant, tant que m est constant. Ce dont nous avons besoin, c’est en effet d’être capables, là où il s’agit de fonctions extensives de fonctions,
de traiter une a-fonction quelconque au moyen d’une certaine fonction d’un type donné formellement équivalente, comme aussi d’obtenir des
résultats qui impliqueraient sans cela la notion illégitime de
‘toutes les a-fonctions’
. Mais peu importe quel est le type donné. Il ne semble pas, pourtant, qu’on augmente de façon appréciable le degré de vraisemblance
de l’axiome de réductibilité, en le prenant sous la forme précédente, plus générale mais plus compliquée.
L’axiome de réductibilité est équivalent à l’hypothèse que
‘toute combinaison ou disjonction de prédicats10, est équivalente à un simple prédicat’
. En d’autres termes, nous supposons que, si nous affirmons que x a tous les prédicats qui satisfont une fonction f(φ ! z^), il existe un prédicat unique que x possède quand notre affirmation est vraie et qui lui manque quand elle est fausse; et il en est de même, si nous affirmons
que x a quelqu’un des prédicats qui satisfont f(φ ! z^). Au moyen de cette hypothèse, en effet, l’ordre d’une fonction non prédicative peut être abaissé d’une unité; par conséquent,
après avoir parcouru un nombre fini de degrés, nous pourrons passer d’une fonction non-prédicative à une fonction prédicative
formellement équivalente. Il n’apparaît pas d’abord comme probable que l’hypo- thèse que nous venons de définir puisse remplacer
l’axiome de réductibilité dans les déductions symboliques; son emploi en effet exigerait l’introduction explicite de ce postulat
supplémentaire, que, en abaissant le degré d’une fonction d’un nombre fini, nous pouvons passer d’une fonction quelconque
à une fonction prédicative; ce postulat ne pourrait être bien exposé sans des développements presque impossibles au début
de la logique. Mais les raisons précédentes semblent démontrer évidemment qu’en fait, [82] si l’axiome à forme alternative que nous venons de définir est vrai, il en est de même de l’axiome de réductibilité. Et comme
la réciproque est naturellement évidente, la démonstration de l’équivalence est complètement donnée.
7. Raisons pour accepter l’axiome de réductibilité
Que l’axiome de réductibilité est évident de soi-même, c’est là une proposition qui pourrait difficilement être maintenue.
Mais en fait, l’évidence naturelle n’est rien de plus qu’une partie des raisons pour lesquelles on accepte un axiome et elle
n’est jamais indispensable. Les raisons d’accepter un axiome, comme toute autre proposition, sont toujours, en grande partie,
inductives: c’est par exemple, le fait qu’on en peut déduire nombre de propositions, qui sont de leur côté à peu près hors
de doute; et, qu’on ne connaît aucune manière aussi plausible d’expliquer la vérité de ces propositions, si l’axiome était
faux; et, enfin, qu’on n’en peut déduire aucune proposition qui soit probablement fausse. Si l’axiome est, en apparence, évident
de soi, cela signifie seulement, en pratique, qu’il est à peu près hors de doute; car bien des choses ont été jugées évidentes
qui se sont pourtant transformées en erreurs. Et si l’axiome lui-même est à peu près hors de doute, cela vient seulement en
adjonction de l’évidence obtenue par induction, et qui vient de ce fait que les conséquences de l’axiome sont à peu près hors
de doute; cela n’introduit pas une évidence nouvelle, d’une espèce radicalement différente. L’infaillibilité ne peut jamais
être acquise et, par conséquent, quelque élément de doute s attache toujours à tout axiome et à toutes ses conséquences. Dans
la logique formelle, l’élément de doute est moins important que dans les sciences, mais il n’est pas absent, ainsi qu’il est
apparu de ce fait que les paradoxes logiques ont dérivé de prémisses dont on ignorait auparavant qu’elles exigeaient pour
elles-mêmes quelque limitation de sens. Dans le cas de l’axiome de réductibilité, l’évidence d’induction qui milite en sa
faveur est très forte, car les raisonnements qu’il permet et les résultats auxquels il conduit apparaissent tous comme légitimes.
Mais bien qu’il semble très improbable que cet axiome doive se transformer plus tard en erreur, il ne l’est aucunement qu’on
arrive à le déduire d’un autre axiome plus fondamental encore et plus évident. Il se peut que l’usage du principe du cercle
vicieux, tel qu’il a été présenté dans la précédente hiérarchie des types, soit plus strict qu’il n’est en réalité nécessaire,
et que si l’on restreint son emploi, la nécessité de notre axiome puisse ne plus s’imposer. De telles modifications, pourtant,
ne rendraient pas faux ce qui a été affirmé sur le fondement des principes précédemment expliqués: elles permettraient, simplement,
une preuve plus facile des mêmes théorèmes. Nous n’avons donc, semble-t-il, que les plus faibles raisons de craindre que l’emploi
de l’axiome de réductibilité puisse nous conduire à l’erreur.
[83]
Un point de l’article de M. Poincaré sur ‘La logique de l’infini’ appelle un mot d’explication. Il affirme (p. 469): “La théorie des types reste incompréhensible, si on ne suppose la théorie des ordinaux déjà constituée.” Cette assertion me paraît reposer sur une confusion. Les types ont un ordre; nous l’admettons, mais nous n’admettons pas qu’il est nécessaire d’étudier cet ordre en tant qu’ordre. Les moments
d’un raisonnement déductif ont aussi un ordre, mais il n’est pas nécessaire pour la déduction d’étudier l’ordre de ces moments,
bien que, quand nous tournons notre attention vers l’ordre, nous sentions qu’il est essentiel à la déduction. Il en est de
même des types: ils ont un ordre, et quand nous l’étudions, nous voyons qu’il est important. Mais nous pouvons les employer
à tous les usages où ils sont requis, sans étudier leur ordre, absolument comme nous pouvons distinguer une fonction φx d’une fonction φ(x, y), sans reconnaître que la première a un seul argument, tandis que la seconde en a deux. Il serait pourtant d’un vain pédantisme
d’éviter toutes les phrases où se trouve impliquée cette reconnaissance, encore que nous puissions, comme nous l’avons vu,
éviter de telles phrases si nous le désirions. De même, en ce qui concerne les types, nous pouvons parler de leur ordre en
mots qui, à strictement parler, impliquent la connaissance des ordinaux, parce qu’il va de soi que nous pourrions faire tout
l’emploi nécessaire des types, sans nous servir de tels mots. Au lieu de parler de fonctions du premier ordre, nous parlerions
de
‘fonctions φ ! x^’
; au lieu de fonctions du second ordre, nous dirions
‘fonctions f ! (φ ! x^)’
et ainsi de suite. Ainsi, bien que les types aient un ordre, les ordinaux ne sont pas présupposés dans la théorie des types,
et il n’y a aucun cercle logique à fonder la théorie des ordinaux sur un système qui suppose la théorie des types.
Notes
1. Extrait de la Revue de Métaphysique et de Morale, XVIII, 1910. Reproduit avec l’autorisation de Bertrand Russell. ↵
2. ‘La logique de l’infini’, Revue de Métaphysique et de Morale, juillet 1909. ↵
3. Quand le mot
‘fonction’
est employé dans la suite, il signifie toujours
‘fonction propositionelle.’
Les autres genres de fonctions ne seront pas en question. ↵
4. Nous emploierons les expressions
‘valeurs à comprendre sous φx^’
(values for φx), et
‘valeurs de φx’
(values of φx) pour désigner la même chose, à savoir φa, φb, φc, etc. La distinction de terminologie est destinée à éviter l’ambiguïté là où des variables différentes sont concernées, et
spécialement quand l’une d’elles est une fonction. ↵
5. J’emploie
‘toujours’
dans le sens de
‘en tous les cas’
et non pas
‘en tous les temps’
. De même
‘quelquefois’
signifiera
‘en quelques cas.’
↵
6. Quand nous parlons de “valeurs de z^”, c’est φ et non pas z qui est visé. Ceci ressort de l’explication donnée dans la note de la page 56. ↵
7. Mind, Octobre 1905, ‘On denoting’ ↵
8. L’explication que donne M. Poincaré de l’axiome d’induction mathématique (Revue de Métaphysique et de Morale, novembre 1906, p. 867) peut être résumée comme suit : Une classe récurrente est celle à qui 0 appartient, et à qui n + 1 appartient si n lui appartient. Un nombre inductif est celui qui appartient à toute classe récurrente. Un nombre fini est un nombre tel que n < n + 1. Dès lors, l’axiome d’induction exprime que tout nombre-fini est inductif. A mon sens, cet axiome, bien loin d’être évident,
est extrêmement douteux : je doute moi-même le plus profondément de sa vérité. Il n’y a en outre qu’un petit nombre de propositions
mathématiques qui soient rendues illégitimes en le supposant faux. Et il n’est nullement impossible qu’on puisse montrer ultérieurement
qu’il est capable d’être prouvé ou réfuté. En cette occurrence, je ne puis voir de motif valable pour le prendre comme axiome. ↵
9. Quand un groupe (fini) de prédicats est donnée par une énumération effective, leur disjonction est un prédicat, parce qu’aucun
prédicat ne se rencontre dans le disjonction comme variable apparente. ↵
10. Ici la combinaison ou disjonction est supposée être donnée qualitativement (intensionally). Si elle est donnée en extension (c’est-à-dire par énumération), aucune assomption n’est requise; mais, en ce cas, le nombre
des prédicats visés doit être fini. ↵
Editorial Notes
i. Several symbols are marked with a circumflex in the text as published in the Cahiers; in this transcription, however, it has been necessary to represent this by means of a separate character, and this should
be read as applying to the preceding letter. For further clarification, please refer to the PDF version of the article. ↵